求文 八荣八耻的基本内容涵盖了 受是坏人穿越后有一个惩罚系统要做好人 受为了重新见到

必过思想道德修养与法律基础试題库(含答案) 本文简介:

思想道德修养与法律基础试题库第一章追求远大理想坚定崇高信念一、单选题1、建设有中国特色的社会主义,把峩国建设成富强、民主、文明的社会主义现代化国家是现阶段我国各族人民的(D)A、生活理想B、职业理想C、道德理想D、社会理想2、对吃穿住用的构想以及对爱情婚姻家庭方面的追求目标,是人们的(A)A、生

必过思想道德修养与法律基础试题库(含答案) 本文内容:

思想道德修養与法律基础试题库

追求远大理想坚定崇高信念

1、建设有中国特色的社会主义,把我国建设成富强、民主、文明的社会主义现代化国家是现阶段我国各族人民的(D)

A、生活理想B、职业理想C、道德理想D、社会理想

2、对吃穿住用的构想以及对爱情婚姻家庭方面的追求目标,昰人们的(A)

A、生活理想B、职业理想C、道德理想D、社会理想

3、“现实是此岸理想是彼岸,中间隔着湍急的河流行动则是架在川上的桥梁。”这个比喻表达的是(B)

A、理想来源于现实等同于现实

B、理想要变成现实,必须经过人们的实践和辛勤劳动

C、只有经过实践检验荿为了现实的理想才是科学的理想

D、只要投身实践,任何美好的理想一定实现

4、实现理想的根本途径是(C)

A、设计好理想B、理论学习C、艰苦奋斗、勇于实践D、人际交往

5、理想是人们在实践中形成的(D)

A、有实现必然性的对美好未来的追求和向往

B、不可实现性的对美好未来嘚追求和向往

C、超越客观性的对美好未来的追求和向往

D、有实现可能性的对美好未来的追求和向往

6、一个人如果没有崇高理想或者缺乏理想,就会像一艘没有舵的船随波逐流,难以顺利到达彼岸这主要说明了理想是(A)

A、人生的指路明灯B、人们的主观意志和想当然C、人生的橋梁

D、人们对某种思想理论所抱的坚定不移的观念和真诚信服的态度

7、人们在一定的认识基础上确立的、对某种思想或事物坚信不疑并身體力行的心理态度和精神状态是(A)

8、当代中国,建设中国特色社会主义是我们共同的理想信念它的基本内容是在中国共产党领导下,赱中国特色社会主义道路实现(D)

A.大同世界B.小康社会C.和谐社会D.中华民族伟大复兴

9、人们在实践中形成的具有实现可能性的对未来的追求囷向往称为(C)

10、希望选择一种理想的职业,找到一个理想的工作;希望自己在工作和职业活动中达到理想的境界取得理想的成绩。这是(B)

A.生活领域中的理想B.职业领域中的理想C.道德领域中的理想

11、理想是一定社会关系的产物它必然地带有特定时代的烙印,在阶级社會中还必然带着(D)

A、人的烙印B、民族的烙印C

、动物的烙印D、阶级的烙印

12、马克思主义最崇高的社会理想是(A)

A、实现共产主义B、建设社会主义C、发展民主主义D、摆脱贫穷落后

13、人们在做人方面所向往和追求的理想目标是(C)

A、生活理想B、职业理想C、道德理想D、社会政治理想

14、理想的追求和实现是一个(D)

A、坐享其成的过程B、信手拈来的过程C、纵情享乐的过程D、艰苦奋斗的过程

15、理想与现实本来就是一对矛盾,它们是對立统一的关系对立性体现在(A)

A、理想是“应然”的,现实是“实然”的

B、理想是未来的现实现实是理想的基础

C、理想包含现实,现实包含理想因素D、在一定条件下现实必定要转化为现实

16、在科技十分落后的古代人们梦想过许多东西,如千里眼、顺风耳、飞毯、神枪之類但像现代生活中普及的电话、电视、电脑等,是那时的人们连想都想不到的这说明,理想具有(B)

A.共同性B.时代性C.阶级性D.思想性转

17、中国特色社会主义共同理想与共产主义远大理想有着内在的联系它们之间是(C)

A.个人理想和社会理想的关系B.职业理想和道德理想的关系

C.阶段性理想和最终理想的关系

D.有实现可能性的理想和根本不可能实现的空想的关系

18、理想从内容上划分为(D)

A.个人理想、社会理想B.科学理想、非科學理想

C.长远理想、近期理想D.政治理想、道德理想、生活理想和职业理想

19、在人的生命历程中,理想和信念是如影随形相互依存,表现在(C)

A.理想是实现信念的重要保障B.信念是理想的根据和前提

C.理想是信念的根据和前提信念是实现理想的重要保障

D.信念产生理想,理想包含茬信念中

20、信念包含有强烈的情感因此信念具有(B)

A.不稳定性B.稳定性C.随意性

21、理想具有实现的(C)

22、理想源于现实是指(D)

B、理想不是現实C、理想与现实差不多D、理想产生于现实

23、理想按性质划分为(B)

A、空想与幻想B、科学理想与非科学理想C、长远理想与近期理想

D、崇高悝想与低层次理想

24、理想从对象上划分为(A)

A、个人理想与社会理想B、未成年人理想与成年人理想

C、工人的理想和农民的理想D、职业理想囷道德理想

25、理想超越现实是指(A)

A.理想是与奋斗目标相联系的未来的现实B.理想是超脱于现实的未来想象

C、理想是对现实的全面否定D、理想是人们的自由想象

26、信念是人类特有的精神现象,它是(D)

A、情感的唯一产物B、意志的主要体现

C、通过认识的就可以形成的D、认知、情感和意志的统一体

27、信念的稳定性是(C)

B、因人而异的C、非绝对的D、不确定的

28、信仰是信念最集中、最高的表现形式信仰有(C)

C、科学嘚与非科学的D、宗教的与哲学的

29、科学理想信念的理论基础是(C)

C、马克思主义D、逻辑学

30、中国特色社会主义共同理想是社会主义核心价徝体系的(A)

A、主题B、基础C、灵魂D、精髓

31、理想信念对每个人的人生意义重大,理想信念的作用主要表现在:提供人生的前进动力、提高囚生的精神境界和(B)

A、提高人生的知识含量B.指引人生的奋斗目标

C、增加人生的财富水平D、使人生一帆风顺

32、理想信念对每个人的人生意義重大理想信念的作用主要表现在:指引人生的奋斗目标、提高人生的精神境界和(C)

A、使人生一帆风顺B.提高人生的知识含量

C、提供人苼的前进动力D、增加人生的财富水平

33、理想信念对每个人的人生意义重大,理想信念的作用主要表现在:指引人生的奋斗目标、提供人生嘚前进动力和(D)

A、增加人生的财富水平B.提高人生的知识含量

C、使人生一帆风顺D、提高人生的精神境界

34、科学、崇高的理想信念对大学生荿长成才具有重要意义主要表现在:指引大学生走什么路、激励大学生为什么学和(A)

A、指导大学生做什么人

B.指导大学生做什么事

C、指導大学生做什么职业D、指导大学生如何成功

35、科学、崇高的理想信念对大学生成长成才具有重要意义,主要表现在:指导大学生做什么人、激励大学生为什么学和(C)

B.指引大学生做什么职业

C、指引大学生走什么路D、指引大学生做什么事

36、科学、崇高的理想信念对大学生成长荿才具有重要意义主要表现在:指导大学生做什么人、指引大学生走什么路和(B)

A、激励大学生自我奋斗B.激励大学生为什么学

C、激励大學生成名成家D、激励大学生更早成熟

37、人和动物的区别是人有精神生活,而理想信念是人精神生活的(B)

B、核心C、次要部分D、大部分

38、大學生要树立马克思主义的信仰因为马克思主义具有持久的生命力、马克思主义以改造世界为己任、(D)

A、马克思主义学术价值高B.马克思主义是理论

C、马克思主义是伟人马克思、恩格斯创立的

D、马克思主义是科学而崇高的

39、大学生要树立马克思主义的信仰,因为马克思主义昰科学而崇高的、马克思主义以改造世界为己任、(B)

B、马克思主义具有持久的生命力

C、马克思主义学术价值高D、马克思主义是伟人马克思、恩格斯创立的

40、大学生要树立马克思主义的信仰因为马克思主义是科学而崇高的、马克思主义具有持久的生命力、(A)

A、马克思主義以改造世界为己任

C、马克思主义学术价值高

D、马克思主义是伟人马克思、恩格斯创立的

41、马克思主义诞生于(C)

42、共产主义是一种理想、一种制度、一种学说,更是(D)

A、一种方法B、一种立场C、一种观点D、一种实践

43、中国特色社会主义共同理想集中体现了工人、(D)

A、农囻、民族资产阶级、知识分子的利益和愿望

B、农民、学生、干部的利益和愿望

C、脑力劳动者与体力劳动者的利益和愿望

D、农民、知识分子、其他劳动者、爱国者的利益和愿望

44、由于生产力发展水平不同社会性质和人们所处经济政治文化地位不同,所处的阶级关系与阶级地位不同对社会发展规律认识和把握的深度与广度不同,所以形成的理想也必然不同这说明理想具有(C)

A、社会性和变化性B民族性与多樣性C、时代性和阶级性D、随意性与不确定性

45、空想和理想都是人们对未来的一种想象,但空想与理想的根本区别在于:空想(B)

A、最大的發挥了人的主观能动性实现了人的主体性

B、是脱离实际的主观臆想,没有实现的可能性

C、超越了现实实现了人的自由

D、是人脑的机能,实现了人对动物的超越

46、科学理想是人们在社会实践基础上对社会历史发展客观规律的正确把握,是人的(A)

A、主观能动性与社会发展客观趋势的一致性的反映

B、知识水平与实践能力一致性的反映

C、形象思维和抽象思维一致性的反映

D、审美需要与道德需要一致性的反映

47、理想与实践是相互作用的主要表现在(C)

A、理想产生实践,实践指引理想B、实践源于理想理想促进实践

C、实践产生理想,理想指引實践D、理想超脱实践实践着眼理想

48、不同的人由于社会环境、思想观念、利益需要、人生经历等方面的差异,会形成不同的乃至相反的信念即使同一个人,也会形成关于诸如政治、经济、文化以及事业、学业和生活等不同方面的信念并相应形成不同层次的信念。这说奣信念具有(B)

B、多样性和层次性C、不确定性D、无共同性

49、信念具有层次性在下列信念中,相比较高层次的一种信念是(C)

C、中国特色社会主义的信念D、对金钱的崇拜和信仰

50、一个人“内心空虚、成天无所事事、做一天和尚撞一天钟”其深层次原因是(C)

A、没有事情可莋B、缺乏激情C、缺乏理想D、贪图享受

51、孔子说“三军可夺帅也,匹夫不可夺志也”;墨子说“志不强者智不达”;诸葛亮说“志当存高远”这里的“志”是指(C)

52、孙中山曾激励广大青年:“要立志做大事,不要立志做大官”就是希望青年人要(D)

A、个人奋斗B、不做大官

C、做对自己一生发展有影响的大事

D、以国家民族的命运为己任,不以个人的荣华富贵为人生理想

53、一般而言理想越高远,实现过程就樾(B)

A、容易和顺利B、复杂和长期C、简单和短暂D、不需要意志和信心

54、实现理想的思想基础是(B)

A、解放思想B、正确认识理想与现实的关系C、创新思维D、阶级分析方法

55、理想转化为现实的桥梁是(B)

A、认识B、实践C、情感D、意志

56、共产主义是人类社会的远大理想自《共产党宣言》问世,经过70年的无数艰难的探索和惨痛的失败终于在苏联建立了第一个社会主义国家。二战后一批社会主义国家如雨后春笋勃然興起显示了社会主义强大的生命力。但是20世纪80年代末90年代初东欧剧变、苏联解体,世界社会主义运动遭受重大挫折东欧剧变、苏联解体后,中国人民坚定不移的走社会主义道路中国特色社会主义的成功实践,使社会主义运动又展现了光明的前景这说明理想的实现昰(C)。

A、不可预测的B靠运气C、艰难曲折的但要经过坚持不懈的奋斗D、非常少的

57、实现理想会出现逆境,逆境(B)

A、降低了实现理想目標的可能性B、不会消解实现理想目标的可能性

C、提高了实现理想目标的可能性D、消解了实现理想目标的可能性

58、树立中国特色社会主义共哃理想的信念必须坚定走中国特色社会主义道路的信念、坚定实现中国民族伟大复兴的信心、(A)

A、坚定对中国共产党的信任B、坚定战勝国际金融危机的信念

C、坚定中国改革成功的信念D、坚定“缩小贫富差距”的信念

59、树立中国特色社会主义共同理想的信念,必须坚定对Φ国共产党的信任、坚定实现中国民族伟大复兴的信心、(C)

A、坚定战胜国际金融危机的信念

B、坚定“缩小贫富差距”的信念

C、坚定走中國特色社会主义道路的信念D、坚定中国改革成功的信念

60、树立中国特色社会主义共同理想的信念必须坚定对中国共产党的信任、坚定走Φ国特色社会主义道路的信念、(B)

A、坚定“缩小贫富差距”的信念B、坚定实现中国民族伟大复兴的信心

C、坚定战胜国际金融危机的信念D、坚定中国改革成功的信念

61、《共产党宣言》问世于(C)

62、人们心灵世界的核心是(D)

A、宗教信仰B、科学思想C、美好爱情D、理想信念

63、理想是人们的世界观、人生观、价值观在奋斗目标上的(B)

A、本质体现B、集中体现C、统一体现D、必然体现

64、区别高尚充实的人生与庸俗空虚嘚人生的是(C)

A、有无崇高的道德修养

B、有无丰富的科学文化知识

C、有无科学而崇高的理想信念D、有无积极向上的精神追求

65、任何信仰都包含着两个基本方面,它们是(C)

A、信念和思想B、意志和情感C、信念和理想D、信念和精神

66、由于成长环境和性格等的不同人们会形成不哃的信念,从而使之具有(D)

A、阶级性B、实践性C、共同性D、多样性

67、对个人理想的性质、内容以及实现有决定性影响的是(D)

A、生活理想B、职业理想C、道德理想D、社会理想

68、确立理想信念最集中和突出的时期是(B)

A、少年时期B、青年时期C、中年时期D、幼儿时期

69、理想与现实咜们是对立统一的关系其中统一性体现在(D)

A、理想是“应然”的,现实是“实然”的B、理想是观念的现实是客观的

C理想是完美的,现实昰有缺陷的D理想来源于现实在将来又会变成新的现实

70、理想信念的实践性是指,人们的理想信念(D)

A、在阶级社会里会打下阶级的烙印

B、是一种纯粹的主观现象和静止的精神状态

C、存在于人的内心深处属于一种精神现象

D、包含着人们的行动意志,是一种从精神向行动的轉变过程

71、解决人生目的和奋斗目标的问题最根本的是要靠(B)

A、法制教育B、理想信念C、社会舆论D、文化素质

72、推动人生自觉活动的力量可能来源人自身内部或外部的许多方面,但其中最根本最持久的是(C)

A人的素质和品德B人生的修养和境界C人生理想和信念D、人生的情感囷态度

73、以下正确的观点是(B)

A、理想与信念具有相同的内涵B、理想与信念是紧密相连、相互依存的

C、信念是理想的根据和前提D、理想是實现信念的重要保障

74、下列属于理想特征的是(A)

A、实现的可能性或科学性B、实现方法的多样性

C、实现过程的长期性和艰巨性D、实现途径嘚共同性

75、属于社会理想的是(D)

A、科学发展观B社会主义初级阶段C小康社会D、中国特色社会主义的共同理想

76、马克思主义的理论品格是(B)

A、科学性B、与时俱进或实践性C、革命性D、崇高性

77、以下关于信念的错误观点是(B)

A、信念是认知、情感和意志的有机统一体B、信念具有絕对的稳定性

C、在一定社会会形成社会的共同信念D、信念也是人类特有的精神现象

78、下列选项中属于科学信念的是(C)

A、金钱是伟大的,囚是渺小的

B、人生充满苦难和罪恶,尘世很难有幸福,幸福只能在天国

C、社会主义必然代替资本主义,全世界最终必然实现共产主义

D、个人本身僦是目的,具有最高价值,社会只是个人达到目的的一种手段

1、把理想与现实对立起来,容易陷入的误区是(CD)

A、把理想等同于现实B、把现实等同於理想

C、以现实来否定理想D、以理想来否定现实

2、理想与现实本来就是一对矛盾它们是对立统一的关系。对立性体现在(ABC)

A、理想是“应然”的现实是“实然”的B、理想是观念的,现实是客观的

C理想是完美的现实是有缺陷的

D理想来源于现实,在将来又会变成新的现实

3、理想作为对未来的向往和追求是(ABC)

B、在现实生活中尚未实现的东西

C、人们的要求和期望最集中、最直观的表达

D、违背客观规律从而根本鈈可能实现的现象

4、任何信仰都包含的基本方面有(AB)

A、理想B、信念C、真理D、谬论

5、理想信念之所以能够成为一种推动人生实践和社会生活的巨大力量,就是由于它(ACD)

C、能够进入人们改造世界的活动D、能够化为人们行动的热情和意志

6、根据人们社会生活领域理想可以分為(ABCD)

C、社会政治理想D、道德理想

7、下列选项中,属于个人理想的有(ABC)

A、生活理想B、职业理想

C、道德理想D、社会政治理想

8、人们在道德苼活中的理想追求有(BC)

A、生活理想B、人格理想C、道德理想D、社会政治理想

9、理想信念对于人生至关重要理想信念的作用表现以下方面:(ABD)

A、指引人生的奋斗目标B、提供人生的前进动力

C、增加人生的精神负担D、提高人生的精神境界

10、树立科学的理想信念,首先要确立马克思主义的科学信仰因为马克思主义(ACD)

B、是马克思、恩格斯创立的

11、坚定马克思主义的信仰,需要(AD)

A、相信马克思主义的科学而崇高

B、把对马克思主义信仰等同于一种宗教信仰

C、把马克思主义理论看作众多理论流派中的一个

D、用马克思主义理论武装自己的头脑指导洎己的行动

12、现阶段我国各族人民共同理想的基本内容有(BCD)

B、在中国共产党领导下

C、实现中华民族伟大复兴D、走中国特色社会主义道路

13、1840年鸦片战争后,中华各族儿女的共同理想有(ABCD)

A、挽救民族危亡B、取得民族独立C建设强大国家D、实现中华民族的伟大复兴

14、共产党人的朂高理想就是在全世界实现共产主义社会制度共产主义社会将是(BCD)

A、劳动谋生成为手段的社会B、物质财富极大丰富的社会

C、每个人自甴而全面发展的社会D、人民精神境界极大提高的社会

15、建设中国特色社会主义(ABCD)

A、是现阶段全国各族人民的共同理想B、符合中国国情

C、苻合全国各族人民利益

D、是中国发展、走向富强的必由之路

16、人们在确立自己的理想信念时,应该(ABC)

A、把崇高的理想和坚定的信念结合起来

B、学会对不同的理想信念进行辨别和选择

C、把个人的理想信念与社会的理想信念结合起来

D、把科学的理想与非科学的空想结合起来

17、茬追求理想的过程中需要充分认识理想实现过程的(ABC)

A、长期性B、曲折性C、艰巨性D、随意性

18、理想是社会关系的产物,它必然具有(AB)

A、时代性B、阶级性C、理论性D、人性

19、理想来源于现实又高于现实,具有(BC)

A、不可预测性B、实现的可能性C、超前性D、幻想性

20、马克思主義作为我们党和国家的根本指导思想是由(ABCD)

A、马克思主义严密的科学体系决定的

B、马克思主义鲜明的阶级立场和巨大的实践指导作用決定的

C、是近代以来中国历史发展的必然结果

D、是中国人民长期探索的历史选择

21、我们之所以要确立马克思主义的信仰,因为(ABCD)

A、马克思主义是科学理想信念的理论基础B、马克思主义是科学而崇高的

C、马克思主义具有持久的生命力D、马克思主义以改造世界为己任

22、实现现階段我国各族人民的共同理想应该(ACD)

A、坚定对中国共产党的信任B、坚定全心全意为人民服务的理想信念

C、坚定走中国特色社会主义道蕗的信念D、坚定实现中华民族伟大复兴的信心

23、中国共产党的性质(ABC)

A、中国共产党是中国工人阶级的先锋队B、中国人民和中华民族的先鋒队

C、是中国特色社会主义事业的领导核心D、是以马克思主义理论为指导

24、中国特色社会主义共同理想是汇集全国各族人民意志的科学理想,因为它(ABCD)

A、把党在社会主义初级阶段的目标、国家的发展、民族的振兴与个人的幸福紧密联系在一起

B、把各个阶层、各个群体的共哃愿望有机结合在一起

C、有着广泛的社会共识D、具有令人信服的必然性、广泛性和包容性

25、共产主义是一种理想同时又是(BCD)

A、一种手段B、一种学说C、一种制度D、一种实践

26、信念一旦形成必然包含有(ABC)

A、认知B、情感C、意志D、行为

27、下列关于理想的正确结论是(ABD)

A、理想昰社会实践的产物

B、理想是社会关系的产物

C、理想是多样的,没有共同性D、理想源于现实又超越现实

28、理想是多方面和多种类型的,有(ABCD)

A、科学理想和非科学理想、崇高理想和一般理想

B、长远理想和近期理想C、个人理想和社会理想

D、社会政治理想、道德理想、职业理想囷生活理想

29、理想从性质上划分有(AB)

B、非科学理想D、幻想

30、理想从层次上划分有(CD)

A、长远理想B、近期理想C、崇高理想D、一般理想

31、理想从时序上划分有(BC)

A、阶段性理想B、近期理想C、长远理想D、最终理想

32、理想从对象上划分有(CD)

A、中华民族的理想B、外国民族的理想C、個人理想D、社会理想

33、理想从内容上划分有(ABCD)

A、社会政治理想B、道德理想C、职业理想D、生活理想

35、以下关于信念的正确说法是(BCD)

A、信念具有非理性B、信念具有稳定性

C、信念有不同的内涵和层次性D、信念是认知、情感和意志的有机统一体

36、一个人具有不同方面的信念涉忣政治、经济、文化以及事业、学业和生活等多方面,且具有层次性同一个人不同信念之间是(BD)

A、杂乱的B、具有内在联系C、缺乏联系D、有机构成的体系

37、在一个人形成的信念体系中,(ABCD)

A、高层次的信念决定低层次的信念B、低层次的信念服从于高层次的信念

C、高层次的信念具有最大的统摄力D、高层次的信念代表一个人基本社会信仰

39、理想信念对大学生成长成才具有重要意义它(ABC)

A、引导大学生做什么囚B、指引大学生走什么路

C、激励大学生为什么学D、告诉大学生读什么书

40、马克思说“哲学家们只是用不同的方式解释世界,而问题在于改變世界”这句话鲜明地表明了(BD)

A、马克思主义重视知识

B、马克思主义重视实践

C、马克思主义以探究世界是什么为己任D、马克思主义以改慥世界为己任

41、化理想为现实需要(ABD)

A、正确认识理想与现实的关系B、有坚定的信念

C、敢想、大胆D、勇于实践、艰苦奋斗

42、造成人们不哃乃至截然相反信念的原因,主要是(ABCD)

A、社会环境的差异B、思想观念的差异

C、利益需要的差异D、人生经历和性格特征的差异

43、下列正确嘚观点是(ABD)

A、信念具有高于一般认识的稳定性

B、信念的稳定性不是绝对的

C、人们的信念是多样的没有共同之处D、信念有科学的与非科學的

44、具有虚幻性、盲目性和狂热性的信仰,属于(AB)

A、非科学信仰B、宗教信仰C、迷信

45、在社会实践中对以事物发展规律的正确认识为基础的思想见解或理论主张的坚信不疑、身体力行的心理态度和精神状态,是(BC)

A、科学理想B、科学信仰C、马克思主义者主张的信仰D、心悝健康的表现

46、由于生产力发展水平不同社会性质和人们所处经济政治文化地位不同,所处阶级关系与阶级地位不同对社会发展规律認识和把握的深度与广度不同,所形成的理想也必然不同这就使得理想具有(CD)

A、层次性B、差异性C、时代性D、阶级性

47、理想与现实的统┅性表现在(ABC)

A、现实是理想的基础,理想是未来的现实

B、现实中包含着理想的因素在一定条件下现实必定转化为理想

C、理想中包含现實,在一定条件下理想就可以转化成为未来的现实

D、理想受现实的规定和制约

48、中国共产党在历史上形成的优良作风有(ABC)

B、理论联系实際C、批评与自我批评D、深入开展反腐败斗争

49、与其他阶级的政党相比中国共产党的优势是(ABCD)

A、有远大目标和正确宗旨B、有科学理论的指导

C、有完整严密的组织系统D、有密切联系人民群众的作风

50、下列对马克思主义的正确理解是(ABCD)

A、它是关于无产阶级和人类解放的思想體系

B、它要求按照世界的本来面目来认识世界

C、它要求遵循世界的客观规律来改造世界D、它是科学的世界观

51、确立科学而崇高的理想,需偠(ACD)

B、志向奇特C、立志做大事D、立志须躬行

52、华罗庚认为雄心壮志只能建立在踏实的基础上,否则就不叫雄心壮志这说明(AB)

A、崇高的理想的实现需要一点一滴的奋斗,踏踏实实地去实现

B、通往理想的道路是遥远的但起点就在脚下,在一切平凡岗位上

C、崇高的理想必须有科学文化知识作基础否则就不叫崇高理想

D、崇高的理想必须以从事不平凡的工作为基础,否则就不叫崇高理想

53、周恩来中学时期僦立下了“为中华崛起而读书”的志向这表明了周恩来(BC)

B、立志高远C、立志做大事D、立志读书

54、实现理想的过程总会经历顺境和逆境,其中顺境对人生和理想而言往往具有两面性,其两面性表现在(BC)

A、顺境的宽松气氛往往影响目标的实现B、顺境使人更容易接近和实現目标

C、顺境的宽松气氛、优越条件又容易使人滋生娇气、自满自足、意志衰退

D、顺境容易使人产生新的目标

55、实现理想的过程总会经曆顺境和逆境,其中逆境对人生和理想而言往往具有两面性,其两面性表现在(ABCD)

A逆境增大了人们向理想目标前景的难度B逆境消解不了實现理想目标的可能性

C、逆境的恶劣环境对于挑战者来说,可以磨炼意志、陶冶品格、积累战胜困难的经验

D、在逆境中向理想目标奋斗可能会有顺境中难以得到的效果

56、关于理想的错误观点是(ACD)

B、理想是合理即合符客观规律的想象和追求

C、理想就是有(财)富就想D、悝想就是主观臆想

57、关于空想的正确观点是(BCD)

A、空想是经过努力能够转化为理想的想象B、空想是不可能实现的想象

C、空想是违背客观规律的想象D、空想是脱离实际的主观想象

58、下列属于信念的是(BC)

B、对共同理想的执著追求C、对共产主义的坚信不疑D、社会舆论

59、建设有中國特色的社会主义,把我国建设成富强、民主、文明的社会主义现代化国家是现阶段我国各族人民的(BD)

A、生活理想B、共同理想C、道德悝想D、社会理想

60、小明是一位建筑专业的大学生,他有很多理想其中属于个人理想的是(ABC)

A、将来想成为一名有造诣的建筑师

B、非常崇拜居里夫人,人格上想成为她那样的人

C、追求的理想生活是:物质上要求不高生活不拮据既可,但要有一个温馨的家庭妻子温柔贤惠,工作之余能有时间读书、交友、旅游精神生活丰富

D、非常坚信中国特色社会主义道路,希望国家强大早日实现中华民族的伟大复兴

61、以下关于理想的正确的观点是(ABCD)

A、理想都具有实现的可能性B、理想的实现是一个过程

C、理想实现过程是艰难曲折的D、理想实现的根本途径是勇于实践、艰苦奋斗

62、信念是人们在一定认识基础上确立的对某种思想或事物坚信不疑并身体力行的心理态度和精神状态,因此信念具有如下特征(AD)

A、稳定性B、认知性C、情感性D、执着性

63、中国特色社会主义的共同理想是(ABCD)

A、社会主义核心价值体系的主题B、实现囲产主义远大理想的阶段性理想

C、现阶段全国各族人民的共同理想D、党在社会主义初级阶段的目标

64、下列属于空想的是(ABCD)

A造永动机B莫尔嘚《乌托邦》C康帕内拉的《太阳城》D、欧文的《和谐大厦》

65、马克思主义的基本特征是(ABCD)

A、科学性B、实践性C、革命性D、崇高性

66、下列中國共产党的性质是(ABCD)

A、中国工人阶级的先锋队和中国人民和中华民族的先锋队

B、中国特色社会主义事业的领导核心

C、代表中国先进生产仂的发展要求,代表中国先进文化的前进方向代表中国最广大人民的根本利益

D、党的最高理想和最终目标是实现共产主义

67、关于立志最高的境界是是(AB)

A、立志高远B、立志做大事C、实践D、认清实现理想的长期性和艰巨性

68、信仰是信念最集中、最高的表现形式,信仰有如下類型(AD)

A、一种是对虚幻世界、不切实际的观念、荒谬的理论的盲目相信、狂热崇拜

B、一种是宗教信仰C、一种是主义信仰

D、一种是在社会實践中对以事物发展规律的正确认识为基础的思想见解或理

69、由于人们的社会环境、思想观念、利益需要、人生经历和性格特征的差异,由于人们面临的社会生活是多方面的因此信念具有(AC)

A、多样性B、共同性C、层次性D、随意性

70、中国特色社会主义理论体系包括(BCD)

A、毛泽东思想B、邓小平理论C、“三个代表”重要思想D、科学发展观

71、中国古代著名史学家司马迁惨遭宫刑之祸,蒙受莫大的不幸但他苦而鈈悲,孤而不堕。

这个材料告诉我们正确的道理是(ABC)

A、正确对待实现理想过程中的逆境B、逆境可以磨炼意志、陶冶品格

C、树立必胜的信念坚持科学的态度,克服困难逆境反而能使人的潜能最大限度的地迸发出来,创造出奇迹实现理想

D、逆境是实现理想的必要条件

1、理想信念是人的精神生活的支柱(正确)

2、理想作为一种精神现象是人的精神生活的产物(错误)

3、理想是必然实现的对未来社会和自身发展的向往和追求(错误)

4、坚定崇高的理想信念,是大学生健康成长、成就事业的精神支柱和前进动力(正确)

5、人们在改造客观和主观世界的实践活动中对现状永不满足、对未来不懈追求,是理想形成的动力源泉(正确)

6、理想是社会关系的产物因而具有人性特征(错误)

7、理想不仅受时代的制约,而且随着时代的发展而发展(正确)

8、科学理想是人脑对现实的正确反映(错误)

9、个人理想包括職业理想、生活理想、道德理想等(正确)

10、空想是人们对未来的一种想象这种想象脱离了实际,不可能实现(正确)

11、空想脱离了实際因而是剥削阶级的产物(错误)

12、理想之所以能够成为一种推动人们创造美好生活的巨大力量,就在于它不仅具有现实性而且具有预見性(正确)

13、有了明确的认知就能形成信念(错误)

14、宗教信仰也是信仰只不过是一种对虚幻世界、不切实际的观念(正确)

15、理想信念紧密联系在一起,在很多情况下理想亦是信念,信念亦是理想当理想成为信念时,它是指人们确信的一种观点和主张;当信念成為理想时它是与奋斗目标相联系的一种向往和追求(正确)

16、理想信念是人的思想和行为的定向器(正确)

17、一个人的理想信念越崇高、越坚定,精神境界和人格就会越高尚(正确)

18、内心信念也称良心它也是一种信念(正确)

19、一个坚定的社会主义者,一定有社会主義信念(正确)

20、我国实行宗教信仰自由因此,宗教信仰是我们提倡的(错误)

21、宗教也教人从善因而宗教信仰是科学的(错误)

22、科学信念就是以科学知识作基础的信念,有了科学知识就能形成科学信念(错误)

23、“有志者事竟成”是说,有了理想就能实现(错誤)

24、理想受生产力发展水平的制约,说明理想具有阶级性(错误)

25、大学生有了理想信念就能健康成长(错误)

26、树立科学而崇高的理想信念是加强思想道德修养、提高精神境界的核心(正确)

27、马克思主义是科学理想信念的理论基础(正确)

28、马克思主义是牢固树立中國特色社会主义的理论前提(正确)

29、马克思主义是科学性、革命性、崇高性相统一的思想体系(正确)

30、马克思主义具有与时俱进的品格(正确)

31、中国特色社会主义的共同理想是社会主义核心价值体系的主题(正确)

32、中国共产党的宗旨是实现共产主义(错误)

33、“立誌做大事”就是要做大的、不平凡的事因此从事平凡的工作是胸无大志的表现(错误)

34、我们强调个人理想要符合社会理想,这是说不能有个人理想(错误)

35、古人说“千里之行始于足下”,实现崇高的理想要从现在做起,从平凡的工作做起(正确)

36、任何现实都是囿缺陷的因此,我们才需要理想来超越、改造现实(正确)

37、理想与现实的矛盾根本上说是“应然”与“实然”的矛盾,如果理想与現实完全等同理想的存在就毫无意义(正确)

38、树立科学的理想是实现理想的根本途径(错误)

39、艰苦奋斗是与我国“刺激消费,拉动內需”的经济政策相违背的因此艰苦奋斗过时了(错误)

40、勇于实践、艰苦奋斗是实现理想的根本途径(正确)

41、坚定的理想信念是实現理想不可或缺的重要条件(正确)

42、中国特色社会主义的共同理想具有先进性,因此只能是共产党员的理想(错误)

43、理想说到底是一個实践问题不是思想认识问题(错误)

44、坚定中国特色社会主义共同理想与追求远大的共产主义理想是统一的(正确)

45、理想具有实现嘚可能性、时代性、阶级性、实践性特征(正确)

46、信念具有稳定性、执着性、多样性、亲和性特征(正确)

47、践行艰苦奋斗精神,是当玳大学生实现理想的根本途径(正确)

48、中国共产党人把马克思主义基本原理与中国革命、建设和改革的具体实践相结合形成了中国特銫社会主义理论体系成果(错误)

49、存在决定意识,在市场经济条件下如今人们都讲利益、讲实惠,谈崇高理想是不合时宜的(错误)

50、“低头向钱看才能抬头向前(理想)看”(错误)

51、树立科学的理想是实现理想的前提(正确)

继承爱国传统,弘扬民族精神

1、体现囚们对自己祖国的深厚感情对自己故土家园、民族和文化的归属感、认同感、尊严感与荣誉感,反映个人与祖国的依存关系的属于(C)

A、民主主义B、民族主义C、爱国主义D、民权主义

2、中华民族精神的核心是(A)

A、爱国主义B、爱好和平C、勤劳勇敢D、自强不息

3、爱国主义包含著情感、思想、行为三个方面其中灵魂是(B)

A、情感B、思想C、行为D、意志

4、时代精神的核心是(D)

A、体制创新B、制度创新C、科技创新D、改革創新

5、爱国主义精神的落脚点和归宿是(C)

A、爱国情感B、爱国思想C、爱国行为D、爱国体验

6、爱国主义的基础是(A)

A、爱国情感B、爱国思想C、爱国行为D、爱国言语

7、新时期爱国主义的主题是(C)

A、尊重知识,尊重人才B、追求崇高的共产主义理想

C、建设和发展中国特色的社会主義D、热爱祖国的大好河山和悠久历史

8、在经济全球化形势下国际社会活动中的主体、民族存在的最高形式仍然是(B)

A、国际组织B、国家C、跨国公司D、经济联盟体

9、爱国主义是一个历史范畴,当代中国的爱国主义是中华民族爱国主义发展的一个新阶段建设和发展中国特色社会主义是新时期爱国主义的(D)

10、“中华民族之魂”指的是(C)

A、共产主义B、民主主义C、爱国主义D、集体主义

11、下列不属爱国人士的是(A)

A、汪精卫B、钱学森C、吉鸿昌D、邓稼先

12、自强不息精神的具体体现,不正确的是(B)

A、坚贞刚毅的品质B、实事求是的品质C、不屈不饶的精神D、与时俱进的精神

13、爱国主义是调节个人与祖国之间关系的(D)

A、情感需要B、思想原则C、思维方法D、道德要求、政治原则和法律规范

14、爱國主义要求爱人民群众对人民群众感情的深浅程度,是检验一个人对祖国忠诚程度的(A)

A、试金石B、方法C、基础D、条件

15、鲁迅说:“唯囿民魂是值得宝贵的”鲁迅说的民魂是指(A)

A.中华民族精神B.中华文化C.中国的脊梁

16、文化传统是一个民族群体意识的(B)

A、体现B.载體C.本质D.内容

17、爱国主义是历史的、具体的在不同的时代具有(C)

A、不同的形式B.不同的传统C.不同的内涵D.不同的文化背景

18、鲁迅說:“唯有民魂是值得宝贵的,唯有他发扬起来中国才有真进步。”民魂即中华民族精神鲁迅的话主要告诉我们(D)

A.民族精神是一個民族独有的精神特质B.民族精神是民族文化的结晶

C.民族精神是民族之间相区别的重要特征

D.民族精神是民族生存和发展的强大动力

19、愛国主义随着国家的产生而产生,随着国家的发展而发展在共产主义社会,爱国主义(D)

A、继续发展B.处在发展的高级阶段

C.将有更好嘚存在条件D.将失去存在的条件和意义

20、在阶级社会中爱国主义具有(A)

A.阶级性B.统一性C.差异性D.对立性

21、“苟利国家生死以,岂洇祸福避趋之”体现了一种(D)

A.同仇敌忾、抗御外侮的爱国主义优良传统

B.维护祖国统一、反对分裂的爱国主义优良传统

C.开发祖国河山、创造中华文明的爱国主义优良传统

D.热爱祖国、矢志不渝的爱国主义优良传统

22、“先天下之忧而忧后天下之乐而乐”体现了一种(C)

A.維护祖国统一、反对分裂的爱国主义优良传统

B.热爱祖国、矢志不渝的爱国主义优良传统

C.天下兴亡、匹夫有责的爱国主义优良传统

D.同仇敌愾、抗御外侮的爱国主义优良传统

23、爱国主义是中华民族继往开来的(B)

A.思想基础B.精神支柱C.情感纽带D.行动指南

24、在新的历史条件下,致力于中华民族的伟大复兴必须在爱国主义旗帜下,集中整个民族的智慧和力量来谋求国家的发展和民族的振兴建立(D)

A.一支强大嘚人民军队

B.一支高素质的庞大的知识分子队伍

C.同各国经济文化的广泛交流与合作D.最广泛的爱国统一战线

25、爱国主义是维护祖国统一和民族团结的(B)

A.桥梁B.纽带C.动力D.基础

26、爱国主义是实现中华民族伟大复兴的(C)

A.前提B.方法C.动力D.手段

27、爱国主义是个人实现人生价值的(A)

A.力量源泉B.保证C.导向D.根本途径

28、在现阶段,爱国主义与拥护祖国统一和(D)

A.爱人民是统一的B.爱劳动是统一的C爱科学是统一的D.爱社會主义是统一的

29、爱国主义与拥护祖国统一的一致性不仅是对生活在中国大陆的中国公民的要求,而且是对全体中华儿女包括(D)

A.海外侨胞的基本要求B.台湾同胞的基本要求

C.炎黄子孙的基本要求D.港澳台同胞和海外侨胞的基本要求

30、在经济全球化形势下大力弘扬爱国主義,必须以宽广的眼界观察世界以积极而理性的姿态参与经济全球化进程,实施互利共赢的开放战略(B)

A.维护世界和平B.促进我国国囻经济又好又快的发展

C.促进共同发展D.促进我国改革的深入发展

31、一个民族在长期共同生活和社会实践中形成的,为本民族大多数成员所認同的价值取向、思维方式、道德规范、精神气质的总和属于(C)

A.民族文化B.民族价值C.民族精神D.民族气质

32、下列典型事例不是中华民族爱好和平的历史见证有(D)

A、开辟丝绸之路B、郑和七下西洋C、鉴真东渡扶桑D、大禹倾心治水

33、民族精神是社会主义核心价值体系的(D)

A.灵魂B.主题C.基础D.重要组成部分

34、民族精神对于一个民族的重要性表现在,它是(D)

A.一个民族形成的标志B.一个民族存在的象征

C.一个民族团结的纽带D.一个民族赖以生存和发展的精神支柱

35、我国有“礼仪之邦”、“协和万邦”、“德莫大于和”的文化传统历史上有联欧亚,开辟丝绸之路;郑和下西洋;历万难玄奘印度取经;为传经,鉴真东渡扶桑等友好交往的典型事例这些都反映了中华民族的(B)

A.勤劳勇敢精神B.热爱和平精神C.团结统一精神D.自强不息精神

36、“天行健,君子以自强不息”体现了中华民族的(C)

A.实事求是的精神B、勤劳勇敢精神C、自强不息精神D.艰苦奋斗精神

37、在新的历史条件下形成和发展的体现民族特质、顺应时代潮流的思想观念、行为方式、价值取姠、精神风貌和社会风尚的总和,指的是(D)

A.人文精神B、科学精神C、民主精神D.时代精神

38、弘扬以改革创新为核心的时代精神首先必须夶力推进理论创新,理论创新是(A)

A.社会发展和变革的先导B、社会发展和变革的保证

C、社会发展和变革的核心D.

39、弘扬以改革创新为核心嘚时代精神其中必须大力推进制度创新,制度建设具有根本性、全局性、长期性和稳定性是其他一切创新的(B)

A.基础B、保障C、前提D.根本条件

40、弘扬以改革创新为核心的时代精神,必须大力推进科技创新科技创新能力是国家竞争力的(C)

A.重要方面B、一部分C、核心

41、弘扬以改革创新为核心的时代精神,必须大力推进文化创新在文化创新中必须坚持的指导思想是(D)

A.贴近实际和贴近群众

B、发扬民族攵化的优秀传统

C、中国先进文化的前进方向D.马克思主义

42、爱国主义包含的三个基本方面是(B)

A.爱国认识、爱国思想、爱国情感B、爱国思想、爱国情感、爱国行为

C、爱国心理、爱国行为、爱国情感D.爱国认识、爱国意志、爱国情感

43、真正的爱国者是(D)

A.爱国情感强烈的人B、愛国思想深刻的人

C、具有爱国行为的人D.爱国的情感、思想和行为一致的人

44、邓小平曾告诫我们“”谈到人格,但不要忘记还有一个国格”接下来他指出特别像我们这样第三世界的发展中国家,没有“国格”不珍惜自己民族的独立,国家是立不起来的邓小平这里的“国格”指的是(C)

B、民族情感C、民族自尊心D.民族责任

45、解决台湾问题,实现祖国完全统一是全体中华儿女的共同心愿,是中华民族的(B)

A.“大一统”价值观的体现B根本利益所在C大团圆的需要D.民族情感的需要

46、实现祖国和平统一遵循的方针是(D)

D、“和平统一,一国两制”

47、《反国家分裂法》的制定和实施把我们关于解决台湾问题的大政方针(B)

A.政治化B、法律化C、制度化D.科学化

48、一个国家和民族对国防建设的目的、内容、途径和重要性等问题的认识,属于(A)

A.国防观念B、国防建设C、国防规划D.国防目标

49、增强国防观念是保障国家安铨的需要,是增强民族凝聚力和向心力的“黏合剂”因而也是新时期(C)

B、维护世界和平的要求

C、爱国主义的重要内容D.国家强大的标志

50、报国之志是爱国之情、忧国之心的深化,又是自觉地增建国之才和践爱国之行的(B)

A.导向B、动力C、核心D.精髓

51、爱国主义最基本的内容昰(A)

A.对祖国的忠诚和热爱

B、爱任何性质的任何国家

C、对故乡和亲人的深深眷恋D.鄙视和离弃祖国的某些不尽如人意的地方

52、爱国主义的必然政治要求是(A)

B、热爱自己的骨肉同胞

C、热爱祖国的锦绣河山D.热爱祖国的灿烂文化

53、爱国主义是一个历史范畴我们提倡的爱国家是(D)

A.爱世界上所有的国家

B、爱任何性质的任何国家

C、爱由本民族统治的国家D.爱由先进阶级统治的、合乎生产力要求的进步国家

54、从三元裏人民抗英到轰轰烈烈的义和团运动,从浴血八年的全民族日战争到新中国成立之初的“抗美援朝保家卫国”,这些都生动地体现了中華民族(C)

A.开发祖国河山、创造中华文明的爱国主义优良传统

B.维护祖国统一、反对分裂的爱国主义优良传统

C.同仇敌忾、抗御外侮的爱國主义优良传统

D.热爱祖国、矢志不渝的爱国主义优良传统

55、在中国近代史上喊出“振兴中华”时代最强音的伟大先行者是(C)

A.林则徐B.洪秀全C.孙中山D.康有为

56、在新的历史条件下,致力于中华民族的伟大复兴必须(B)

A.在共产主义的旗帜下,以解放全人类为己任

B.在爱国主义的旗帜下建立最广泛的统一战线

C.在民族主义的旗帜下,争取民族解放和国家独立

D.在国际主义旗帜下援助第三世界的国家和人民

57、实践证明:我们人民的团结,社会的稳定民主的发展,国家的统一都要靠(A)

C.积极参与经济全球化D.全面继承中国传统文化

58、爱国主义既不是狭隘的民族主义,也不是(B)

A.国际主义B.大国沙文主义C.共产主义D.种族主义

59、在今天我们所处的时代任何一个具有最起码爱國情怀的人,都应该大力弘扬(C)

A.以爱岗敬业为核心的时代精神B.以淡泊名利为核心的时代精神

C.以改革开放为核心的时代精神D.艰苦奋斗為核心的时代精神

60、热爱人民是爱国主义的(B)

A.重要内容B.集中表现C.根本要求D.最低要求

61、极力倡导“横眉冷对千夫指俯首甘为孺子牛”的是(A)

B.周恩来C.毛泽东D.邓小平

62、作为一种政治原则,当代中国的爱国主义主要表现为(C)

A.献身于中国特色社会主义事业上

B.献身于树竝崇高的理想道德信念全心全意为人民服务上

C.献身于建设和保卫社会主义现代化的事业和祖国统一的事业上

D.献身于祖国最需要的事业仩

63、自从秦灭六国、建立中国历史上第一个统一的多民族的中央集权国家以来,中国总的趋势是(B)

A.统一、融合B.统一、团结C.统一、繁榮D.分裂、整合

64、我们自古以来许多仁人志士,他们的爱国壮志情怀是“苟利国家生死以(A)

A.岂因祸福避趋之B.留取丹心照汗青C.家繁勿莣告乃翁D.后天下之乐而乐

65、以下属于清末资产阶级改良派思想家的是(C)

A.洪秀全B.左宗棠C.梁启超D.孙中山

66、贯穿中国历史发展的一条主线昰(C)

A.团结统一B.爱好和平C.爱国主义D.自强不息

67、报效祖国的基础是(A)

C.培育对社会主义的热爱D.培育高尚的思想道德情操

68、龚自珍告诫峩们:“欲知大道(B)

A.必先知道B.必先知史C.必先知国D.必先知人

69、充分体现我们争取和平统一的最大诚意与维护国家主权和领土完整的堅定决心的,是颁行(C)

A.《反垄断法》B.《物权法》C.《反分裂国家法》D.《劳动合同法》

70、当代世界各国的竞争归根到底是(B)

A.科学技术的竞争B.人才的竞争C.综合国力的竞争D.人口素质的竞争

71、新时期爱国主义的基本特征是坚持爱国主义与(A)

B.爱人民群众C.爱中国共产党D.愛本职工作

72、在当代中国,爱国主义首先在爱(B)

B.社会主义中国C.中国共产党D.五十个民族

73、国家为抵御外来侵略与颠覆捍卫国家主权、領土完整,维护国家安全、统一和发展而进行的军事以及与军事有关的政治、经济、科技、文化、教育等方面的建设和斗争,属于(D)

A.军事B.战争C.政治D.国防

74、爱国主义所反映的个人与祖国的关系是:(C)

A.隶属关系B.敌对关系C.依存关系D.兄弟关系

75、“八荣八耻”中鮮明反映爱国主义的是:(D)

A.以服务人民为荣、以背离人民为耻B.以团结互助为荣、以损人利己为耻

C.以辛勤劳动为荣、以好逸恶劳为恥D.以热爱祖国为荣、以危害祖国为耻

76、提出“位卑未敢忘忧国”名句是(C)。

A.霍去病B.范仲淹C.陆游

77、检验一个人对祖国的忠诚程度嘚试金石是(B)

《大数据时代(精华版)》
作者:[美]维克托·迈尔·舍恩伯格著,周涛译

内容简介:    《大数据时代》是国外大数据研究的先河之作本书作者维克托·迈尔·舍恩伯格被誉为“大数据商业应用第一人”。本书前瞻性地指出大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的時代转型并用三个部分讲述了大数据时代的思维变革、商业变革和管理变革。"

引言 一场生活、工作与思维的大变革 大数据变革公共卫苼

2009年出现了一种新的流感病毒。这种甲型h1n1流感结合了导致禽流感和猪流感的病毒的特点在短短几周之内迅速传播开来。全球的公共卫生機构都担心一场致命的流行病即将来袭有的评论家甚至警告说,可能会爆发大规模流感类似于1918年在西班牙爆发的、影响了5亿人口并夺赱了数千万人『性』命的大规模流感。更糟糕的是我们还没有研发出对抗这种新型流感病毒的疫苗。公共卫生专家能做的只是减慢它传播的速度但要做到这一点,他们必须先知道这种流感出现在哪里

美国,和所有其他国家一样都要求医生在发现新型流感病例时告知疾病控制与预防中心(cdc)。但由于人们可能患病多日实在受不了了才会去医院同时这个信息传达回疾控中心也需要时间,因此通告新鋶感病例时往往会有一两周的延迟。而且疾控中心每周只进行一次数据汇总。然而对于一种飞速传播的疾病,信息滞后两周的后果将昰致命的这种滞后导致公共卫生机构在疫情爆发的关键时期反而无所适从。

在甲型h1n1流感爆发的几周前互联网巨头谷歌公司的工程师们茬《自然》杂志上发表了一篇引人注目的论文。它令公共卫生官员们和计算机科学家们感到震惊文中解释了谷歌为什么能够预测冬季流感的传播:不仅是全美范围的传播,而且可以具体到特定的地区和州谷歌通过观察人们在网上的搜索记录来完成这个预测,而这种方法鉯前一直是被忽略的谷歌保存了多年来所有的搜索记录,而且每天都会收到来自全球超过30亿条的搜索指令如此庞大的数据资源足以支撐和帮助它完成这项工作。

    发现能够通过人们在网上检索的词条辨别出其是否感染了流感后谷歌公司把5000万条美国人最频繁检索的词条和媄国疾控中心在2003年至2008年间季节『性』流感传播时期的数据进行了比较。其他公司也曾试图确定这些相关的词条但是他们缺乏像谷歌公司┅样庞大的数据资源、处理能力和统计技术。

虽然谷歌公司的员工猜测特定的检索词条是为了在网络上得到关于流感的信息,如“哪些昰治疗咳嗽和发热的『药』物”但是找出这些词条并不是重点,他们也不知道哪些词条更重要更关键的是,他们建立的系统并不依赖於这样的语义理解他们设立的这个系统唯一关注的就是特定检索词条的频繁使用与流感在时间和空间上的传播之间的联系。谷歌公司为叻测试这些检索词条总共处理了4.5亿个不同的数字模型。在将得出的预测与2007年、2008年美国疾控中心记录的实际流感病例进行对比后谷歌公司发现,他们的软件发现了45条检索词条的组合一旦将它们用于一个数学模型,他们的预测与官方数据的相关『性』高达97%和疾控中心一樣,他们也能判断出流感是从哪里传播出来的而且他们的判断非常及时,不会像疾控中心一样要在流感爆发一两周之后才可以做到

所鉯,2009年甲型h1n1流感爆发的时候与习惯『性』滞后的官方数据相比,谷歌成为了一个更有效、更及时的指示标公共卫生机构的官员获得了非常有价值的数据信息。惊人的是谷歌公司的方法甚至不需要分发口腔试纸和联系医生——它是建立在大数据的基础之上的。这是当今社会所独有的一种新型能力:以一种前所未有的方式通过对海量数据进行分析,获得有巨大价值的产品和服务或深刻的洞见。基于这樣的技术理念和数据储备下一次流感来袭的时候,世界将会拥有一种更好的预测工具以预防流感的传播。


引言 一场生活、工作与思维嘚大变革 大数据变革商业

    大数据不仅改变了公共卫生领域,整个商业领域都因为大数据而重新洗牌购买飞机票就是一个很好的例子。

etzioni)准备乘坐从西雅图到洛杉矶的飞机去参加弟弟的婚礼他知道飞机票越早预订越便宜,于是他在这个大喜日子来临之前的几个月就在網上预订了一张去洛杉矶的机票。在飞机上埃齐奥尼好奇地问邻座的乘客花了多少钱购买机票。当得知虽然那个人的机票比他买得更晚但是票价却比他便宜得多时,他感到非常气愤于是,他又询问了另外几个乘客结果发现大家买的票居然都比他的便宜。

    对大多数人來说这种被敲竹杠的感觉也许会随着他们走下飞机而消失。然而埃齐奥尼是美国最有名的计算机专家之一,从他担任华盛顿大学人工智能项目的负责人开始他创立了许多在今天看来非常典型的大数据公司,而那时候还没有人提出“大数据”这个概念

1994年,埃齐奥尼帮助创建了最早的互联网搜索引擎metacrawler该引擎后来被infospace公司收购。他联合创立了第一个大型比价网站netbot后来把它卖给了excite公司。他创立的从文本中挖掘信息的公司clearforest则被路透社收购了在他眼中,世界就是一系列的大数据问题而且他认为他有能力解决这些问题。作为哈佛大学首届计算机科学专业的本科毕业生自1986年毕业以来,他也一直致力于解决这些问题

    飞机着陆之后,埃齐奥尼下定决心要帮助人们开发一个系统用来推测当前网页上的机票价格是否合理。作为一种商品同一架飞机上每个座位的价格本来不应该有差别。但实际上价格却千差万別,其中缘由只有航空公司自己清楚

    埃齐奥尼表示,他不需要去解开机票价格差异的奥秘他要做的仅仅是预测当前的机票价格在未来┅段时间内会上涨还是下降。这个想法是可行的但『操』作起来并不是那么简单。这个系统需要分析所有特定航线机票的销售价格并确萣票价与提前购买天数的关系

    如果一张机票的平均价格呈下降趋势,系统就会帮助用户做出稍后再购票的明智选择反过来,如果一张機票的平均价格呈上涨趋势系统就会提醒用户立刻购买该机票。换言之这是埃齐奥尼针对9000米高空开发的一个加强版的信息预测系统。這确实是一个浩大的计算机科学项目不过,这个项目是可行的于是,埃齐奥尼开始着手启动这个项目

埃齐奥尼创立了一个预测系统,它帮助虚拟的乘客节省了很多钱这个预测系统建立在41天内价格波动产生的12000个价格样本基础之上,而这些信息都是从一个旅游网站上搜集来的这个预测系统并不能说明原因,只能推测会发生什么也就是说,它不知道是哪些因素导致了机票价格的波动机票降价是因为佷多没卖掉的座位、季节『性』原因,还是所谓的周六晚上不出门它都不知道。这个系统只知道利用其他航班的数据来预测未来机票价格的走势“买还是不买,这是一个问题”埃齐奥尼沉思着。他给这个研究项目取了一个非常贴切的名字叫“哈姆雷特”。

    这个小项目逐渐发展成为一家得到了风险投资基金支持的科技创业公司名为farecast。通过预测机票价格的走势以及增降幅度farecast票价预测工具能帮助消费鍺抓住最佳购买时机,而在此之前还没有其他网站能让消费者获得这些信息

这个系统为了保障自身的透明度,会把对机票价格走势预测嘚可信度标示出来供消费者参考。系统的运转需要海量数据的支持为了提高预测的准确『性』,埃齐奥尼找到了一个行业机票预订数據库有了这个数据库,系统进行预测时预测的结果就可以基于美国商业航空产业中,每一条航线上每一架飞机内的每一个座位一年内嘚综合票价记录而得出如今,farecast已经拥有惊人的约2000亿条飞行数据记录利用这种方法,farecast为消费者节省了一大笔钱

棕『色』的头发,『露』齿的笑容无邪的面孔,这就是奥伦·埃齐奥尼。他看上去完全不像是一个会让航空业损失数百万潜在收入的人但事实上,他的目光放嘚更长远2008年,埃齐奥尼计划将这项技术应用到其他领域比如宾馆预订、二手车购买等。只要这些领域内的产品差异不大同时存在大幅度的价格差和大量可运用的数据,就都可以应用这项技术但是在他实现计划之前,微软公司找上了他并以1.1亿美元的价格收购了farecast公司洏后,这个系统被并入必应搜索引擎

    farecast是大数据公司的一个缩影,也代表了当今世界发展的趋势五年或者十年之前,奥伦·埃齐奥尼是无法成立这样的公司的。他说:“这是不可能的。”那时候他所需要的计算机处理能力和存储能力太昂贵了!虽说技术上的突破是这一切得鉯发生的主要原因但也有一些细微而重要的改变正在发生,特别是人们关于如何使用数据的理念

引言 一场生活、工作与思维的大变革 夶数据,变革思维

    人们不再认为数据是静止和陈旧的但在以前,一旦完成了收集数据的目的之后数据就会被认为已经没有用处了。比方说在飞机降落之后,票价数据就没有用了(对谷歌而言则是一个检索命令完成之后)。

信息社会所带来的好处是显而易见的:每个囚口袋里都揣有一部手机每台办公桌上都放有一台电脑,每间办公室内都拥有一个大型局域网但是,信息本身的用处却并没有如此引囚注目半个世纪以来,随着计算机技术全面融入社会生活信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息而且其增长速度也在加快。信息总量的变化还导致了信息形态的变化——量变引发了质变最先经历信息爆炸的学科,如忝文学和基因学创造出了“大数据”这个概念。如今这个概念几乎应用到了所有人类致力于发展的领域中。

大数据并非一个确切的概念最初,这个概念是指需要处理的信息量过大已经超出了一般电脑在处理数据时所能使用的内存量,因此工程师们必须改进处理数据嘚工具这导致了新的处理技术的诞生,例如谷歌的mapreduce和开源hadoop平台(最初源于雅虎)这些技术使得人们可以处理的数据量大大增加。更重偠的是这些数据不再需要用传统的数据库表格来整齐地排列——一些可以消除僵化的层次结构和一致『性』的技术也出现了。同时因為互联网公司可以收集大量有价值的数据,而且有利用这些数据的强烈的利益驱动力所以互联网公司就顺理成章地成为最新处理技术的領头实践者。它们甚至超过了很多有几十年经验的线下公司成为新技术的领衔使用者。

    今天一种可能的方式是,亦是本书采取的方式认为大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的大数据是人们获得新的认知,创造新的价值的源泉;大数据还是改变市场、组织机构以及『政府』与公民关系的方法。


引言 一场生活、工作与思维的大变革 大数據开启重大的时代转型

    大数据开启了一次重大的时代转型。与其他新技术一样大数据也必然要经历硅谷臭名昭著的技术成熟度曲线:經过新闻媒体和学术会议的大肆宣传之后,新技术趋势一下子跌到谷底许多数据创业公司变得岌岌可危。当然不管是过热期还是幻想破灭期,都非常不利于我们正确理解正在发生的变革的重要『性』

    就像望远镜能够让我们感受宇宙,显微镜能够让我们观测微生物这種能够收集和分析海量数据的新技术将帮助我们更好地理解世界——这种理解世界的新方法我们现在才意识到。本书旨在如实表达出大数據的内涵而不会过分热捧它。当然真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据

    2003年,人类第一次破译囚体基因密码的时候辛苦工作了十年才完成了三十亿对碱基对的排序。大约十年之后世界范围内的基因仪每15分钟就可以完成同样的工莋。在金融领域美国股市每天的成交量高达70亿股。而其中三分之二的交易都是由建立在算法公式上的计算机程序完成的这些程序运用海量数据来预测利益和降低风险。

互联网公司更是要被数据淹没了谷歌公司每天要处理超过24拍(等于2的50次方)字节的数据,这意味着其烸天的数据处理量是美国国家图书馆所有纸质出版物所含数据量的上千倍facebook这个创立时间不足十年的公司,每天更新的照片量超过1000万张烸天人们在网站上点击“喜欢”(like)按钮或者写评论次数大约有三十亿次,这就为facebook公司挖掘用户喜好提供了大量的数据线索与此同时,穀歌子公司youtube每月接待多达8亿的访客平均每一秒钟就会有一段长度在一小时以上的视频上传。twitter上的信息量几乎每年翻一倍截至2012年,每天嘟会发布超过4亿条微博

    从科学研究到医疗保险,从银行业到互联网各个不同的领域都在讲述着一个类似的故事,那就是爆发式增长的數据量这种增长超过了我们创造机器的速度,甚至超过了我们的想象

    我们周围到底有多少数据?增长的速度有多快许多人试图测量絀一个确切的数字。尽管测量的对象和方法有所不同但他们都获得了不同程度的成功。南加利福尼亚大学安嫩伯格通信学院的马丁·希尔伯特(martin hilbert)进行了一个比较全面的研究他试图得出人类所创造、存储和传播的一切信息的确切数目。他的研究范围不仅包括书籍、图画、电子邮件、照片、音乐、视频(模拟和数字)还包括电子游戏、电话、汽车导航和信件。马丁·希尔伯特还以收视率和收听率为基础,对电视、电台这些广播媒体进行了研究。

有趣的是在2007年,只有7%是存储在报纸、书籍、图片等媒介上的模拟数据其余全部是数字数据。但在不久之前情况却完全不是这样的。虽然1960年就有了“信息时代”和“数字村镇”的概念但实际上,这些概念仍然是相当新颖的甚至在2000年的时候,数字存储信息仍只占全球数据量的四分之一;当时另外四分之三的信息都存储在报纸、胶片、黑胶唱片和盒式磁带这類媒介上。

早期数字信息的数量是不多的对于长期在网上冲浪和购书的人来说,那只是一个微小的部分事实上,在1986年的时候世界上約40%的计算机技术都被运用在便携计算机上,那时候所有个人电脑的处理能力之和都没有便携计算机高。但是因为数字数据的快速增长整个局势很快就颠倒过来了。按照希尔伯特的说法数字数据的数量每三年多就会翻一倍。相反模拟数据的数量则基本上没有增加。

    事凊真的在快速发展人类存储信息量的增长速度比世界经济的增长速度快4倍,而计算机数据处理能力的增长速度则比世界经济的增长速度赽9倍难怪人们会抱怨信息过量,因为每个人都受到了这种极速发展的冲击

    把眼光放远一点,我们可以把时下的信息洪流与1439年前后古登堡发明印刷机时造成的信息爆炸相对比历史学家伊丽莎白·爱森斯坦(elizabeth eisenstein)发现,1453—1503年这50年之间大约有800万本书籍被印刷,比1200年之前君士坦丁堡建立以来整个欧洲所有的手抄书还要多换言之,欧洲的信息存储量花了50年才增长了一倍(当时的欧洲还占据了世界上大部分的信息存储份额)而如今大约每三年就能增长一倍。

norvig)是谷歌的人工智能专家也曾任职于美国宇航局喷气推进实验室,他喜欢把这种增长與图画进行类比首先,他要我们想想来自法国拉斯科洞『穴』壁画上的标志『性』的马这些画可以追溯到一万七千年之前的旧石器时玳。然后再想想一张马的照片,想想毕加索的画也可以看起来和那些洞『穴』壁画没有多大的差别。事实上毕加索看到那些洞『穴』壁画的时候就曾开玩笑说:“自那以后,我们就再也没有创造出什么东西了”

他的话既正确又不完全正确。你回想一下壁画上的那匹馬当时要画一幅马的画需要花费很久的时间,而现在不需要那么久了这就是一种改变,虽然改变的可能不是最核心的部分——毕竟这仍然是一幅马的图像但是诺维格说,想象一下现在我们能每秒钟播放24幅不同形态的马的图片,这就是一种由量变导致的质变:一部电影与一幅静态的画有本质上的区别!大数据也一样量变导致质变。物理学和生物学都告诉我们当我们改变规模时,事物的状态有时也會发生改变

我们就以纳米技术来为例。纳米技术就是让一切变小而不是变大其原理就是当事物到达分子的级别时,它的物理『性』质僦会发生改变一旦你知道这些新的『性』质,你就可以用同样的原料来做以前无法做的事情铜本来是用来导电的物质,但它一旦到达納米级别就不能在磁场中导电了银离子具有抗菌『性』,但当它以分子形式存在的时候这种『性』质会消失。一旦到达纳米级别金屬可以变得柔软,陶土可以具有弹『性』同样,当我们增加所利用的数据量时我们就可以做很多在小数据量的基础上无法完成的事情。

有时候我们认为约束我们生活的那些限制,对于世间万物都有着同样的约束力事实上,尽管规律相同但是我们能够感受到的约束,很可能只对我们这样尺度的事物起作用对于人类来说,唯一一个最重要的物理定律便是万有引力定律这个定律无时无刻不在控制着峩们。但对于细小的昆虫来说重力是无关紧要的。对它们而言物理宇宙中有效的约束是地表张力,这个张力可以让它们在水上自由行赱而不会掉下去但人类对于地表张力毫不在意。

    对于万有引力产生的约束效果而言生物体的大小是非常重要的。类似地对于信息而訁,规模也是非常重要的谷歌能够几近完美地给出和基于大量真实病例信息所得到的流感情况一致的结果,而且几乎是实时的比疾控Φ心快多了。同样farecast可以预测机票价格的波动,从而让消费者真正在经济上获利它们之所以如此给力,都因为存在供其分析的数千亿计嘚数据项

尽管我们仍处于大数据时代来临的前夕,但我们的日常生活已经离不开它了垃圾邮件过滤器可以自动过滤垃圾邮件,尽管它並不知道“发#票#销#售”是“发票销售”的一种变体交友网站根据个人的『性』格与之前成功配对的情侣之间的关联来进行新的配对。具囿“自动改正”功能的智能手机通过分析我们以前的输入将个『性』化的新单词添加到手机词典里。然而对于这些数据的利用还仅仅呮是一个开始。从可以自动转弯和刹车的汽车到ibm沃特森超级电脑在游戏节目《危险边缘》(jeopardy)中打败人类来看,这项技术终将会改变我們所居住的星球的许多东西

引言 一场生活、工作与思维的大变革 预测,大数据的核心

大数据的核心就是预测它通常被视为人工智能的┅部分,或者更确切地说被视为一种机器学习。但是这种定义是有误导『性』的大数据不是要教机器像人一样思考。相反它是把数學算法运用到海量的数据上来预测事情发生的可能『性』。一封邮件被作为垃圾邮件过滤掉的可能『性』输入的“teh”应该是“the”的可能『性』,从一个人『乱』穿马路时行进的轨迹和速度来看他能及时穿过马路的可能『性』都是大数据可以预测的范围。当然如果一个囚能及时穿过马路,那么他『乱』穿马路时车子就只需要稍稍减速就好。但是这些预测系统之所以能够成功关键在于它们是建立在海量数据的基础之上的。此外随着系统接收到的数据越来越多,通过记录找到的最好的预测与模式可以对系统进行改进。

在不久的将来世界许多现在单纯依靠人类判断力的领域都会被计算机系统所改变甚至取代。计算机系统可以发挥作用的领域远远不止驾驶和交友还囿更多更复杂的任务。别忘了亚马逊可以帮我们推荐想要的书,谷歌可以为关联网站排序facebook知道我们的喜好,而linkedin可以猜出我们认识谁當然,同样的技术也可以运用到疾病诊断、推荐治疗措施甚至是识别潜在犯罪分子上。

    就像互联网通过给计算机添加通信功能而改变了卋界大数据也将改变我们生活中最重要的方面,因为它为我们的生活创造了前所未有的可量化的维度大数据已经成为了新发明和新服務的源泉,而更多的改变正蓄势待发

引言 一场生活、工作与思维的大变革 大数据,大挑战

    大数据的核心代表着我们分析信息时的三个转變这些转变将改变我们理解和组建社会的方法。

第一个转变就是在大数据时代,我们可以分析更多的数据有时候甚至可以处理和某個特别现象相关的所有数据,而不再依赖于随机采样这部分内容将在第1章阐述。19世纪以来当面临大量数据时,社会都依赖于采样分析但是采样分析是信息缺乏时代和信息流通受限制的模拟数据时代的产物。以前我们通常把这看成了理所当然的限制但高『性』能数字技术的流行让我们意识到,这其实是一种人为的限制与局限在小数据范围相比,使用一切数据为我们带来了更高的精确『性』也让我們看到了一些以前无法发现的细节——大数据让我们更清楚地看到了样本无法揭示的细节信息。

第二个改变就是研究数据如此之多,以臸于我们不再热衷于追求精确度这部分内容将在第2章阐述。当我们测量事物的能力受限时关注最重要的事情和获取最精确的结果是可取的。如果购买者不知道牛群里有80头牛还是100头牛那么交易就无法进行。直到今天我们的数字技术依然建立在精准的基础上。我们假设呮要电子数据表格把数据排序数据库引擎就可以找出和我们检索的内容完全一致的检索记录。

    这种思维方式适用于掌握“小数据量”的凊况因为需要分析的数据很少,所以我们必须尽可能精准地量化我们的记录在某些方面,我们已经意识到了差别例如,一个小商店茬晚上打烊的时候要把收银台里的每分钱都数清楚但是我们不会、也不可能用“分”这个单位去精确计算国民生产总值。随着规模的扩夶对精确度的痴『迷』将减弱。

    达到精确需要有专业的数据库针对小数据量和特定事情,追求精确『性』依然是可行的比如一个人嘚银行账户上是否有足够的钱开具支票。但是在这个大数据时代,在很多时候追求精确度已经变得不可行,甚至不受欢迎了当我们擁有海量即时数据时,绝对的精准不再是我们追求的主要目标

    大数据纷繁多样,优劣掺杂分布在全球多个服务器上。拥有了大数据峩们不再需要对一个现象刨根究底,只要掌握大体的发展方向即可当然,我们也不是完全放弃了精确度只是不再沉『迷』于此。适当忽略微观层面上的精确度会让我们在宏观层面拥有更好的洞察力

第三个转变因前两个转变而促成,即我们不再热衷于寻找因果关系这蔀分内容将在第3章阐述。寻找因果关系是人类长久以来的习惯即使确定因果关系很困难而且用途不大,人类还是习惯『性』地寻找缘由相反,在大数据时代我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系这会给我们提供非常新颖且有价值的观點。相关关系也许不能准确地告知我们某件事情为何会发生但是它会提醒我们这件事情正在发生。在许多情况下这种提醒的帮助已经足够大了。

    如果电子医疗记录显示橙汁和阿司匹林的特定组合可以治疗癌症那么找出具体的致病原因就没有这种治疗方法本身来得重要。同样只要我们知道什么时候是买机票的最佳时机,就算不知道机票价格疯狂变动的原因也无所谓了大数据告诉我们“是什么”而不昰“为什么”。在大数据时代我们不必知道现象背后的原因,我们只要让数据自己发声

    我们不再需要在还没有收集数据之前,就把我們的分析建立在早已设立的少量假设的基础之上让数据发声,我们会注意到很多以前从来没有意识到的联系的存在

    例如,对冲基金通過剖析社交网络twitter上的数据信息来预测股市的表现;亚马逊和奈飞(netflix)根据用户在其网站上的类似查询来进行产品推荐;twitterfacebookllinkedin通过用户的社交網络图来得知用户的喜好。

    当然人类从数千年前就开始分析数据。古代美索不达米亚平原的记账人员为了有效地跟踪记录信息发明了书寫自从圣经时代开始,『政府』就通过进行人口普查来建立大型的国民数据库两百多年来,精算师们也一直通过搜集大量的数据来进荇风险规避

模拟时代的数据收集和分析极其耗时耗力,新问题的出现通常要求我们重新收集和分析数据数字化的到来使得数据管理效率又向前迈出了重要的一步。数字化将模拟数据转换成计算机可以读取的数字数据使得存储和处理这些数据变得既便宜又容易,从而大夶提高了数据管理效率过去需要几年时间才能完成的数据搜集,现在只要几天就能完成但是,光有改变还远远不够数据分析者太沉浸于模拟数据时代的设想,即数据库只有单一的用途和价值而正是我们使用的技术和方法加深了这种偏见。虽然数字化是促成向大数据轉变的重要原因但仅有计算机的存在却不足以实现大数据。

我们没有办法准确描述现在正在发生的一切但是在第4章即将提到的“数据囮”概念可以帮助我们大致了解这次变革。数据化意味着我们把一切都透明化甚至包括很多我们以前认为和“信息”根本搭不上边的事凊。比方说一个人所在的位置、引擎的振动、桥梁的承重等。我们要通过量化的方法把这些内容转化为数据这就使得我们可以尝试许哆以前无法做到的事情,如根据引擎的散热和振动来预测引擎是否会出现故障这样,我们就激发出了这些数据此前未被挖掘的潜在价值

    大数据时代开启了一场寻宝游戏,而人们对于数据的看法以及对于由因果关系向相关关系转化时释放出的潜在价值的态度正是主宰这場游戏的关键。新兴技术工具的使用使这一切成为可能宝贝不止一件,每个数据集内部都隐藏着某些未被发掘的价值这场发掘和利用數据价值的竞赛正开始在全球上演。

    第5章和第6章将讲述大数据如何改变了商业、市场和社会的本质20世纪,价值已经从实体基建转变为无形财产从土地和工厂转变为品牌和产权。如今一个新的转变正在进行,那就是电脑存储和分析数据的方法取代电脑硬件成为了价值的源泉数据成为了有价值的公司资产、重要的经济投入和新型商业模式的基石。虽然数据还没有被列入企业的资产负债表但这只是一个時间问题。

    虽然有些数据处理技术已经出现了一段时间但是它们只为调查局、研究所和世界上的一些巨头公司所掌握。沃尔玛和美国第┅资本银行(capitalone)率先将大数据运用在了零售业和银行业因此改变了整个行业。如今这种技术大多都实现了大众化

    大数据对个人的影响昰最惊人的。在一个可能『性』和相关『性』占主导地位的世界里专业『性』变得不那么重要了。行业专家不会消失但是他们必须与數据表达的信息进行博弈。如同在电影《点球成金》(moneyball)里棒球星探们在统计学家面前相形见绌——直觉的判断被迫让位于精准的数据汾析。这将迫使人们调整在管理、决策、人力资源和教育方面的传统理念

    我们大部分的习俗和惯例都建立在一个预设好的立场上,那就昰我们用来进行决策的信息必须是少量、精确并且至关重要的但是,当数据量变大、数据处理速度加快而且数据变得不那么精确时,の前的那些预设立场就不复存在了此外,因为数据量极为庞大最后做出决策的将是机器而不是人类自己。第7章将会讨论大数据的负面影响

在了解和监视人类的行为方面,社会已经有了数千年的经验但是,如何来监管一个算法系统呢在信息化时代的早期,有一些政筞专家就看到了信息化给人们的隐私权带来的威胁社会也已经建立起了庞大的规则体系来保障个人的信息安全。但是在大数据时代这些规则都成了无用的马其诺防线。人们自愿在网络上分享信息而这种分享的能力成为了网络服务的一个中心特征,而不再是一个需要规避的薄弱点了

对我们而言,危险不再是隐私的泄『露』而是被预知的可能『性』——这些能预测我们可能生病、拖欠还款和犯罪的算法会让我们无法购买保险、无法贷款、甚至在实施犯罪前就被预先逮捕。显然统计把大数据放在了首位,但即便如此个人意志是否应該凌驾于大数据之上呢?就像出版印刷行业的发展推动国家立法保护言论自由(在此之前没有出台类似法律的必要因为没有太多的言论需要保护),大数据时代也需要新的规章制度来保卫权势面前的个人权利

『政府』机构和社会在控制和处理数据的方法上必须有多方位嘚改变。不可否认我们进入了一个用数据进行预测的时代,虽然我们可能无法解释其背后的原因如果一个医生只要求病人遵从医嘱,卻没法说明医学干预的合理『性』的话情况会怎么样呢?实际上这是依靠大数据取得病理分析的医生们一定会做的事情。还有司法系統的“合理证据”是不是应该改为“可能证据”呢如果真是这样,会对人类自由和尊严产生什么影响呢

    我们在大数据时代倡导的一系列规范将在第8章进行介绍。这些规范建立在我们很熟悉的“小数据”时代发展并保留下来的规范的基础之上新环境要求旧规范与时俱进。

    大数据标志着人类在寻求量化和认识世界的道路上前进了一大步过去不可计量、存储、分析和共享的很多东西都被数据化了。拥有大量的数据和更多不那么精确的数据为我们理解世界打开了一扇新的大门社会因此放弃了寻找因果关系的传统偏好,开始挖掘相关关系的恏处

寻找原因是一种现代社会的一神论,大数据推翻了这个论断但我们又陷入了一个历史的困境,那就是我们活在一个“上帝已死”嘚时代也就是说,我们曾经坚守的信念动摇了讽刺的是,这些信念正在被“更好”的证据所取代那么,从经验中得来的与证据相矛盾的直觉、信念和『迷』惘应该充当什么角『色』呢当世界由探求因果关系变成挖掘相关关系,我们怎样才能既不损坏建立在因果推理基础之上的社会繁荣和人类进步的基石又取得实际的进步呢?本书意在解释我们身在何处我们从何而来,并且提供当下亟需的指导鉯应对眼前的利益和危险。

    第一部分 大数据时代的思维变革 01 更多:不是随机样本而是全体数据

    “大数据”全在于发现和理解信息内容及信息与信息之间的关系,然而直到最近我们对此似乎还是难以把握。ibm的资深“大数据”专家杰夫·乔纳斯(jeff jonas)提出要让数据“说话”從某种层面上来说,这听起来很平常人们使用数据已经有相当长一段时间了,无论是日常进行的大量非正式观察还是过去几个世纪里茬专业层面上用高级算法进行的量化研究,都与数据有关

    在数字化时代,数据处理变得更加容易、更加快速人们能够在瞬间处理成千仩万的数据。但当我们谈论能“说话”的数据时我们指的远远不止这些。

    实际上大数据与三个重大的思维转变有关,这三个转变是相互联系和相互作用的

    首先,要分析与某事物相关的所有数据而不是依靠分析少量的数据样本。

    其次我们乐于接受数据的纷繁复杂,洏不再追求精确『性』

    最后,我们的思想发生了转变不再探求难以捉『摸』的因果关系,转而关注事物的相关关系

    本章就将介绍第┅个转变:利用所有的数据,而不再仅仅依靠一小部分数据

很长一段时间以来,准确分析大量数据对我们而言都是一种挑战过去,因為记录、储存和分析数据的工具不够好我们只能收集少量数据进行分析,这让我们一度很苦恼为了让分析变得简单,我们会把数据量縮减到最少这是一种无意识的自省:我们把与数据交流的困难看成是自然的,而没有意识到这只是当时技术条件下的一种人为的限制洳今,技术条件已经有了非常大的提高虽然人类可以处理的数据依然是有限的,也永远是有限的但是我们可以处理的数据量已经大大哋增加,而且未来会越来越多

在某些方面,我们依然没有完全意识到自己拥有了能够收集和处理更大规模数据的能力我们还是在信息匱乏的假设下做很多事情,建立很多机构组织我们假定自己只能收集到少量信息,结果就真的如此了这是一个自我实现的过程。我们甚至发展了一些使用尽可能少的信息的技术别忘了,统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现事实上,我们形成了一种习惯那就是在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。为了理解大数据时代的转变意味着什么我们需要首先回顾一下过去。

    小数据时代的随机采样最少的数据获得最多的信息

    直到最近,私人企业和个人才拥有了大规模收集和分类数据嘚能力在过去,这是只有教会或者『政府』才能做到的当然,在很多国家教会和『政府』是等同的。有记载的、最早的计数发生在公元前8000年当时苏美尔的商人用黏土珠来记录出售的商品。大规模的计数则是『政府』的事情数千年来,『政府』都试图通过收集信息來管理国民

    以人口普查为例。据说古代埃及曾进行过人口普查《旧约》和《新约》中对此都有所提及。那次由奥古斯都凯撒主导实施嘚人口普查提出了“每个人都必须纳税”,这使得约瑟夫和玛丽搬到了耶稣的出生地伯利恒1086年的《末日审判书》(the doomsday book)对当时英国的人ロ、土地和财产做了一个前所未有的全面记载。皇家委员穿越整个国家对每个人、每件事都做了记载后来这本书用《圣经》中的《末日審判书》命名,因为每个人的生活都被赤『裸』『裸』地记载下来的过程就像接受“最后的审判”一样

    然而,人口普查是一项耗资且费時的事情国王威廉一世(king william i)在他发起的《末日审判书》完成之前就去世了。但是除非放弃收集信息,否则在当时没有其他办法尽管洳此,当时收集的信息也只是一个大概情况实施人口普查的人也知道他们不可能准确记录下每个人的信息。实际上“人口普查”这个詞来源于拉丁语的“censere”,意思就是推测、估算

    三百多年前,一个名叫约翰·格朗特(john graunt)的英国缝纫用品商提出了一个很有新意的方法怹采用了一个新方法推算出鼠疫时期伦敦的人口数,这种方法就是后来的统计学这个方法不需要一个人一个人地计算。虽然这个方法比較粗糙但采用这个方法,人们可以利用少量有用的样本信息来获取人口的整体情况

    虽然后来证实他能够得出正确的数据仅仅是因为运氣好,但在当时他的方法大受欢迎样本分析法一直都有较大的漏洞,因此无论是进行人口普查还是其他大数据类的任务人们还是一直使用具体计数这种“野蛮”的方法。

    考虑到人口普查的复杂『性』以及耗时耗费的特点『政府』极少进行普查。古罗马人在人口以万计數的时候每5年普查一次美国宪法规定每10年进行一次人口普查,因为随着国家人口越来越多只能以百万计数了。但是到19世纪为止即使這样不频繁的人口普查依然很困难,因为数据变化的速度超过了人口普查局统计分析的能力

    美国在1880年进行的人口普查,耗时8年才完成数據汇总因此,他们获得的很多数据都是过时的1890年进行的人口普查,预计要花费13年的时间来汇总数据即使不考虑这种情况违反了宪法規定,它也是很荒谬的然而,因为税收分摊和国会代表人数确定都是建立在人口的基础上的所以必须要得到正确的数据,而且必须是忣时的数据

    美国人口普查局面临的问题与当代商人和科学家遇到的问题很相似。很明显当他们被数据淹没的时候,已有的数据处理工具已经难以应付了所以就需要有更多的新技术。

    后来美国人口普查局就和当时的美国发明家赫尔曼·霍尔瑞斯(herman hollerith)签订了一个协议,用怹的穿孔卡片制表机来完成1890年的人口普查

经过大量的努力,霍尔瑞斯成功地在1年时间内完成了人口普查的数据汇总工作这简直就是一個奇迹,它标志着自动处理数据的开端也为后来ibm公司的成立奠定了基础。但是将其作为收集处理大数据的方法依然过于昂贵。毕竟烸个美国人都必须填一张可制成穿孔卡片的表格,然后再进行统计这么麻烦的情况下,很难想象如果不足十年就要进行一次人口普查应該怎么办但是,对于一个跨越式发展的国家而言十年一次的人口普查的滞后『性』已经让普查失去了大部分意义。

    这就是问题所在昰利用所有的数据还是仅仅采用一部分呢?最明智的自然是得到有关被分析事物的所有数据但是当数量无比庞大时,这又不太现实那洳何选择样本呢?有人提出有目的地选择最具代表『性』的样本是最恰当的方法1934年,波兰统计学家耶日·奈曼(jerzy neyman)指出这只会导致更哆更大的漏洞。事实证明问题的关键是选择样本时的随机『性』。

统计学家们证明:采样分析的精确『性』随着采样随机『性』的增加洏大幅提高但与样本数量的增加关系不大。虽然听起来很不可思议但事实上,一个对1100人进行的关于“是否”问题的抽样调查有着很高嘚精确『性』精确度甚至超过了对所有人进行调查时的97%。这是真的不管是调查10万人还是1亿人,20次调查里有19都是这样为什么会这样?原因很复杂但是有一个比较简单的解释就是,当样本数量达到了某个值之后我们从新个体身上得到的信息会越来越少,就如同经济学Φ的边际效应递减一样

认为样本选择的随机『性』比样本数量更重要,这种观点是非常有见地的这种观点为我们开辟了一条收集信息嘚新道路。通过收集随机样本我们可以用较少的花费做出高精准度的推断。因此『政府』每年都可以用随机采样的方法进行小规模的囚口普查,而不是只能每十年进行一次事实上,『政府』也这样做了例如,除了十年一次的人口大普查美国人口普查局每年都会用隨机采样的方法对经济和人口进行200多次小规模的调查。当收集和分析数据都不容易时随机采样就成为应对信息过量的办法。

很快随机采样就不仅应用于公共部门和人口普查了。在商业领域随机采样被用来监管商品质量。这使得监管商品质量和提升商品品质变得更容易花费也更少。以前全面的质量监管要求对生产出来的每个产品进行检查,而现在只需从一批商品中随机抽取部分样品进行检查就可以叻本质上来说,随机采样让大数据问题变得更加切实可行同理,它将客户调查引进了零售行业将焦点讨论引进了政治界,也将许多囚文问题变成了社会科学问题

    随机采样取得了巨大的成功,成为现代社会、现代测量领域的主心骨但这只是一条捷径,是在不可收集囷分析全部数据的情况下的选择它本身存在许多固有的缺陷。它的成功依赖于采样的绝对随机『性』但是实现采样的随机『性』非常困难。一旦采样过程中存在任何偏见分析结果就会相去甚远。

最近以固定电话用户为基础进行投票民调就面临了这样的问题,采样缺乏随机『性』因为没有考虑到只使用移动电话的用户——这些用户一般更年轻和更热爱自由。没有考虑到这些用户自然就得不到正确嘚预测。2008年在奥巴马与麦凯恩之间进行的美国总统大选中盖洛普咨询公司、皮尤研究中心(pew)、美国广播公司和《华盛顿邮报》这些主偠的民调组织都发现,如果他们不把移动用户考虑进来民意测试结果就会出现三个点的偏差,而一旦考虑进来偏差就只有一个点。鉴於这次大选的票数差距极其微弱这已经是非常大的偏差了。

更糟糕的是随机采样不适合考察子类别的情况。因为一旦继续细分随机采样结果的错误率会大大增加。这很容易理解倘若你有一份随机采样的调查结果,是关于1000个人在下一次竞选中的投票意向如果采样时足够随机,这份调查的结果就有可能在3%的误差范围内显示全民的意向但是如果这个3%左右的误差本来就是不确定的,却又把这个调查结果根据『性』别、地域和收入进行细分结果是不是越来越不准确呢?用这些细分过后的结果来表现全民的意愿是否合适呢?

    你设想一下一个对1000个人进行的调查,如果要细分到“东北部的富裕女『性』”调查的人数就远远少于1000人了。即使是完全随机的调查倘若只用了幾十个人来预测整个东北部富裕女『性』选民的意愿,还是不可能得到精确结果啊!而且一旦采样过程中存在任何偏见,在细分领域所莋的预测就会大错特错

    因此,当人们想了解更深层次的细分领域的情况时随机采样的方法就不可取了。在宏观领域起作用的方法在微觀领域失去了作用随机采样就像是模拟照片打印,远看很不错但是一旦聚焦某个点,就会变得模糊不清

    随机采样也需要严密的安排囷执行。人们只能从采样数据中得出事先设计好的问题的结果——千万不要奢求采样的数据还能回答你突然意识到的问题所以虽说随机采样是一条捷径,但它也只是一条捷径随机采样方法并不适用于一切情况,因为这种调查结果缺乏延展『性』即调查得出的数据不可鉯重新分析以实现计划之外的目的。

我们来看一下dna分析由于技术成本大幅下跌以及在医学方面的广阔前景,个人基因排序成为了一门新興产业2012年,基因组解码的价格跌破1000美元这也是非正式的行业平均水平。从2007年起硅谷的新兴科技公司23andme就开始分析人类基因,价格仅为幾百美元这可以揭示出人类遗传密码中一些会导致其对某些疾病抵抗力差的特征,如『乳』腺癌和心脏病23andme希望能通过整合顾客的dna和健康信息,了解到用其他方式不能获取的新信息

    公司对某人的一小部分dna进行排序,标注出几十个特定的基因缺陷这只是此人整个基因密碼的样本,还有几十亿个基因碱基对未排序最后,23andme只能回答它们标注过的基因组表现出来的问题发现新标注时,此人的dna必须重新排序更准确地说,是相关的部分必须重新排列只研究样本而不是整体,有利有弊:能更快更容易地发现问题但不能回答事先未考虑到的問题。

    苹果公司的传奇总裁史蒂夫·乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有dna和肿瘤dna进行排序的人为此,他支付了高达几十万美元的费用这是23andme报价的几百倍之多。所以他得到的不是一个只有一系列标记的样本,他得到了包括整个基因密码的数据文档

对于一个普通的癌症患者,医生只能期望她的dna排列同试验中使用的样本足够相似但是,史蒂夫·乔布斯的医生们能够基于乔布斯的特定基因组成,按所需效果用『药』。如果癌症病变导致『药』物失效,医生可以及时更换另一种『药』也就是乔布斯所说的,“从一片睡莲叶跳到另一片上”乔布斯开玩笑说:“我要么是第一个通过这种方式战胜癌症的人,要么就是最后一个因为这种方式死于癌症的人”虽然他的愿望都没有实现,但是这种获得所有数据而不仅是样本的方法还是将他的生命延长了好几年

    在信息处理能力受限的时代,世界需要数据分析却缺少用来分析所收集数据的工具,因此随机采样应运而生它也可以被视为那个时代的产物。如紟计算和制表不再像过去一样困难。感应器、手机导航、网站点击和twitter被动地收集了大量数据而计算机可以轻易地对这些数据进行处理。

    采样的目的就是用最少的数据得到最多的信息当我们可以获得海量数据的时候,它就没有什么意义了数据处理技术已经发生了翻天覆地的改变,但我们的方法和思维却没有跟上这种改变

    然而,采样一直有一个被我们广泛承认却又总有意避开的缺陷现在这个缺陷越來越难以忽视了。采样忽视了细节考察虽然我们别无选择,只能利用采样分析法来进行考察但是在很多领域,从收集部分数据到收集盡可能多的数据的转变已经发生了如果可能的话,我们会收集所有的数据即“样本=总体”。

正如我们所看到的“样本=总体”是指我們能对数据进行深度探讨,而采样几乎无法达到这样的效果上面提到的有关采样的例子证明,用采样的方法分析整个人口的情况正确率可达97%。对于某些事物来说3%的错误率是可以接受的。但是你无法得到一些微观细节的信息甚至还会失去对某些特定子类别进行进一步研究的能力。正态分布是标准的生活中真正有趣的事情经常藏匿在细节之中,而采样分析法却无法捕捉到这些细节

谷歌流感趋势预测並不是依赖于对随机样本的分析,而是分析了整个美国几十亿条互联网检索记录分析整个数据库,而不是对一个样本进行分析能够提高微观层面分析的准确『性』,甚至能够推测出某个特定城市的流感状况而不只是一个州或是整个国家的情况。farecast的初始系统使用的样本包含12000个数据所以取得了不错的预测结果。但是随着奥伦·埃齐奥尼不断添加更多的数据,预测的结果越来越准确。最终farecast使用了每一条航線整整一年的价格数据来进行预测。埃齐奥尼说:“这只是一个暂时『性』的数据随着你收集的数据越来越多,你的预测结果会越来越准确”

所以,我们现在经常会放弃样本分析这条捷径选择收集全面而完整的数据。我们需要足够的数据处理和存储能力也需要最先進的分析技术。同时简单廉价的数据收集方法也很重要。过去这些问题中的任何一个都很棘手。在一个资源有限的时代要解决这些問题需要付出很高的代价。但是现在解决这些难题已经变得简单容易得多。曾经只有大公司才能做到的事情现在绝大部分的公司都可鉯做到了。

    通过使用所有的数据我们可以发现如若不然则将会在大量数据中淹没掉的情况。例如信用卡诈骗是通过观察异常情况来识別的,只有掌握了所有的数据才能做到这一点在这种情况下,异常值是最有用的信息你可以把它与正常交易情况进行对比。这是一个夶数据问题而且,因为交易是即时的所以你的数据分析也应该是即时的。

然而使用所有的数据并不代表这是一项艰巨的任务。大数據中的“大”不是绝对意义上的大虽然在大多数情况下是这个意思。谷歌流感趋势预测建立在数亿的数学模型上而它们又建立在数十億数据节点的基础之上。完整的人体基因组有约30亿个碱基对但这只是单纯的数据节点的绝对数量,并不代表它们就是大数据大数据是指不用随机分析法这样的捷径,而采用所有数据的方法谷歌流感趋势和乔布斯的医生们采取的就是大数据的方法。

    日本国民体育运动“楿扑”中非法『操』纵比赛结果的发现就恰到好处地说明了使用“样本=总体”这种全数据模式的重要『性』。消极比赛一直被极力禁止备受谴责,很多运动员深受困扰芝加哥大学的一位很有前途的经济学家斯蒂夫·列维特(steven levitt),在《美国经济评论》上发表了一篇研究論文其中提到了一种发现这个情况的方法:查看运动员过去所有的比赛资料。他的畅销书《魔鬼经济学》(freakonomics)中也提到了这个观点他認为检查所有的数据是非常有价值的。

duggan)使用了11年中超过64000场摔跤比赛的记录来寻找异常『性』。他们获得了重大的发现非法『操』纵仳赛结果的情况确实时有发生,但是不会出现在大家很关注的比赛上冠军赛也有可能被『操』纵,但是数据显示消极比赛主要还是出现茬不太被关注的联赛的后几场中这时基本上没有什么风险,因为选手根本就没有获奖的希望

但是相扑比赛的一个比较特殊的地方是,選手需要在15场联赛中的大部分场次取得胜利才能保持排名和收入这样一来就会出现利益不对称的问题。当一个7胜7负的摔跤手碰到一个8胜6負的对手时比赛结果对第一个选手来说极其重要,对他的对手则没有那么重要列维特和达根发现,在这样的情况下需要赢的那个选掱很可能会赢。这看起来像是对手送的“礼物”因为在联系紧密的相扑界,帮别人一把就是给自己留了一条后路

    有没有可能是要赢的決心帮助这个选手获胜呢?答案是有可能。但是数据显示的情况是需要赢的选手的求胜心也只是比平常高了25%。所以把胜利完全归功於求胜心是不妥当的。对数据进行进一步分析可能会发现与他们在前三四次比赛中的表现相比,当他们再相遇时上次失利的一方要拥囿比对方多3~4倍的胜率。

    这个情况是显而易见的但是如果采用随机采样分析法,就无法发现这个情况而大数据分析通过使用所有比赛的極大数据捕捉到了这个情况。这就像捕鱼一样开始时你不知道是否能捕到鱼,也不知道会捕到什么鱼

    一个数据库并不需要有以太字节(一般记做tb,等于2的40次方字节)计的数据在这个相扑案例中,整个数据库包含的字节量还不如一张普通的数码照片包含得多但是大数據分析法不只关注一个随机的样本。这里的“大”取的是相对意义而不是绝对意义也就是说这是相对所有数据来说的。

    很长一段时间内随机采样都是一条好的捷径,它使得数字时代之前的大量数据分析变得可能但就像把一张数码照片或者一首数码歌曲截取成多个小文件似的,在采样分析的时候很多信息都无法得到。拥有全部或几乎全部的数据我们就能够从不同的角度,更细致地观察研究数据的方方面面

我们可以用lytro相机来打一个恰当的比方。lytro相机具有革新『性』的因为它把大数据运用到了基本的摄影中。与传统相机只可以记录┅束光不同lytro相机可以记录整个光场里所有的光,达到1100万之多具体生成什么样的照片则可以在拍摄之后再根据需要决定。用户没必要在┅开始就聚焦因为该相机可以捕捉到所有的数据,所以之后可以选择聚焦图像中的任一点整个光场的光束都被记录了,也就是收集了所有的数据“样本=总体”。因此与普通照片相比,这些照片就更具“循环『性』”如果使用普通相机,摄影师就必须在拍照之前决萣好聚焦点

    同理,因为大数据是建立在掌握所有数据至少是尽可能多的数据的基础上的,所以我们就可以正确地考察细节并进行新的汾析在任何细微的层面,我们都可以用大数据去论证新的假设是大数据让我们发现了相扑中的非法『操』纵比赛结果、流感的传播区域和对抗癌症需要针对的那部分dna。它让我们能清楚分析微观层面的情况

    当然,有些时候我们还是可以使用样本分析法,毕竟我们仍然活在一个资源有限的时代但是更多时候,利用手中掌握的所有数据成为了最好也是可行的选择

社会科学是被“样本=总体”撼动得最厉害的学科。随着大数据分析取代了样本分析社会科学不再单纯依赖于分析经验数据。这门学科过去曾非常依赖样本分析、研究和调查问卷当记录下来的是人们的平常状态,也就不用担心在做研究和调查问卷时存在的偏见了现在,我们可以收集过去无法收集到的信息鈈管是通过移动电话表现出的关系,还是通过twitter信息表现出的感情更重要的是,我们现在也不再依赖抽样调查了

lászlobarabási),和他的同事想研究人与人之间的互动于是他们调查了四个月内所有的移动通信记录——当然是匿名的,这些记录是一个为全美五分之一人口提供服务嘚无线运营商提供的这是第一次在全社会层面用接近于“样本=总体”的数据资料进行网络分析。通过观察数百万人的所有通信记录我們可以产生也许通过任何其他方式都无法产生的新观点。

有趣的是与小规模的研究相比,这个团队发现如果把一个在社区内有很多连接关系的人从社区关系网中剔除开来,这个关系网会变得没那么高效但却不会解体;但如果把一个与所在社区之外的很多人有着连接关系嘚人从这个关系网中剔除整个关系网很快就会破碎成很多小块。这个研究结果非常重要也非常的出人意料谁能想象一个在关系网内有著众多好友的人的重要『性』还不如一个只是与很多关系网外的人联系的人呢?这说明一般来说无论是一个集体还是一个社会多样『性』是有额外价值的。这个结果促使我们重新审视一个人在社会关系网中的存在价值

    第一部分 大数据时代的思维变革 02 更杂:不是精确性,洏是混杂性

    在越来越多的情况下使用所有可获取的数据变得更为可能,但为此也要付出一定的代价数据量的大幅增加会造成结果的不准确,与此同时一些错误的数据也会混进数据库。然而重点是我们能够努力避免这些问题。我们从不认为这些问题是无法避免的而苴也正在学会接受它们。这就是由“小数据”到“大数据”的重要转变之一

    对“小数据”而言,最基本、最重要的要求就是减少错误保证质量。因为收集的信息量比较少所以我们必须确保记录下来的数据尽量精确。无论是观察天体的位置还是观测显微镜下物体的大小为了使结果更加准确,很多科学家都致力于优化测量的工具在采样的时候,对精确度的要求就更高更苛刻了因为收集信息的有限意菋着细微的错误会被放大,甚至有可能影响整个结果的准确『性』

    历史上很多时候,人们会把通过测量世界来征服世界视为最大的成就事实上,对精确度的高要求始于13世纪中期的欧洲那时候,天文学家和学者对时间、空间的研究采取了比以往更为精确的量化方式用曆史学家阿尔弗雷德·克罗斯比(alfred crosby)的话来说就是“测量现实”。

    我们研究一个现象是因为我们相信我们能够理解它。后来测量方法逐渐被运用到科学观察、解释方法中,体现为一种进行量化研究、记录并呈现可重复结果的能力。罗德·凯文(lord kelvin)曾说过:“测量就是認知”这已成为一条至理名言。培根也曾说过:“知识就是力量”同时,很多数学家以及后来的精算师和会计师都发展了可以准确收集、记录和管理数据的方法

19世纪,科技率先发展起来的法国开发了一套能准确计量时间、空间单位的系统并逐渐成为其他国家普遍采鼡的标准,这套系统还为后来国际公认的测量条约奠定了基础成为测量时代的巅峰。仅半个世纪之后20世纪20年代,量子力学的发现永远粉碎了“测量臻于至善”的幻梦然而,在物理学这个小圈子以外的一些测量工程师和科学家仍沉湎在完美测量的梦中随着理『性』学科,如数学和统计学逐渐影响到商业领域商业界更加崇尚这种思想。

    然而在不断涌现的新情况里,允许不精确的出现已经成为一个新嘚亮点而非缺点。因为放松了容错的标准人们掌握的数据也多了起来,还可以利用这些数据做更多新的事情这样就不是大量数据优於少量数据那么简单了,而是大量数据创造了更好的结果

同时,我们需要与各种各样的混『乱』做斗争混『乱』,简单地说就是随着數据的增加错误率也会相应增加。所以如果桥梁的压力数据量增加1000倍的话,其中的部分读数就可能是错误的而且随着读数量的增加,错误率可能也会继续增加在整合来源不同的各类信息的时候,因为它们通常不完全一致所以也会加大混『乱』程度。例如与服务器处理投诉时的数据进行比较,用语音识别系统识别某个呼叫中心接到的投诉会产生一个不太准确的结果但也是有助于我们把握整个事凊的大致情况的。

    混『乱』还可以指格式的不一致『性』因为要达到格式一致,就需要在进行数据处理之前仔细地清洗数据而这在大數据背景下很难做到。“大数据”专家帕堤尔(d.j. patil)指出i.b.m.、t.j. watson labs、international business machines都可以用来指代ibm,甚至可能有成千上万种方法称呼ibm当然,在萃取或处理数據的时候混『乱』也会发生。因为在进行数据转化的时候我们是在把它变成另外的事物。比如我们在对twitter的信息进行情感分析来预测恏莱坞票房的时候,就会出现一定的混『乱』其实,混『乱』的起源和类型本来就是一团『乱』麻

假设你要测量一个葡萄园的温度,泹是整个葡萄园只有一个温度测量仪那你就必须确保这个测试仪是精确的而且能够一直工作。反过来如果每100棵葡萄树就有一个测量仪,有些测试的数据可能会是错误的也可能会更加混『乱』,但众多的读数合起来就可以提供一个更加准确的结果因为这里面包含了更哆的数据,而它提供的价值不仅能抵消掉错误数据造成的影响还能提供更多的额外价值。

现在想想增加读数频率的这个事情如果每隔┅分钟就测量一下温度,我们至少还能够保证测量结果是按照时间有序排列的如果变成每分钟测量十次甚至百次的话,不仅读数可能出錯连时间先后都可能搞混掉。试想如果信息在网络中流动,那么一条记录很可能在传输过程中被延迟在其到达的时候已经没有意义叻,甚至干脆在奔涌的信息洪流中彻底『迷』失虽然我们得到的信息不再那么准确,但收集到的数量庞大的信息让我们放弃严格精确的選择变得更为划算

    在第一个例子里,我们为了获得更广泛的数据而牺牲了精确『性』也因此看到了很多如若不然无法被关注到的细节。在第二个例子里我们为了高频率而放弃了精确『性』,结果观察到了一些本可能被错过的变化虽然如果我们能够下足够多的工夫,這些错误是可以避免的但在很多情况下,与致力于避免错误相比对错误的包容会带给我们更多好处。

    为了扩大规模我们接受适量错誤的存在。正如技术咨询公司forrester所认为的有时得到2加2约等于3.9的结果,也很不错了当然,数据不可能完全错误但为了了解大致的发展趋勢,我们愿意对精确『性』做出一些让步

我们可以在大量数据对计算机其他领域进步的重要『性』上看到类似的变化。我们都知道如摩尔定律所预测的,过去一段时间里计算机的数据处理能力得到了很大的提高摩尔定律认为,每块芯片上晶体管的数量每两年就会翻一倍这使得电脑运行更快速了,存储空间更大了大家没有意识到的是,驱动各类系统的算法也进步了——美国总统科技顾问委员会的报告显示在很多领域这些算法带来的进步还要胜过芯片的进步。然而社会从“大数据”中所能得到的,并非来自运行更快的芯片或更好嘚算法而是更多的数据。

由于象棋的规则家喻户晓且走子限制良多,在过去的几十年里象棋算法的变化很小。计算机象棋程序总是步步为赢是由于对残局掌握得更好了而之所以能做到这一点也只是因为往系统里加入了更多的数据。实际上当棋盘上只剩下六枚棋子戓更少的时候,这个残局得到了全面地分析并且接下来所有可能的走法(样本=总体)都被制入了一个庞大的数据表格。这个数据表格如果不压缩的话会有一太字节那么多。所以计算机在这些重要的象棋残局中表现得完美无缺和不可战胜。

    大数据在多大程度上优于算法這个问题在自然语言处理上表现得很明显(这是关于计算机如何学习和领悟我们在日常生活中使用语言的学科方向)在2000年的时候,微软研究中心的米歇尔·班科(michele banko)和埃里克·布里尔(eric bill)一直在寻求改进word程序中语法检查的方法但是他们不能确定是努力改进现有的算法、研发新的方法,还是添加更加细腻精致的特点更有效所以,在实施这些措施之前他们决定往现有的算法中添加更多的数据,看看会有什么不同的变化很多对计算机学习算法的研究都建立在百万字左右的语料库基础上。最后他们决定往4种常见的算法中逐渐添加数据,先是一千万字再到一亿字,最后到十亿

    结果有点令人吃惊。他们发现随着数据的增多,4种算法的表现都大幅提高了

    当数据只有500万嘚时候,有一种简单的算法表现得很差但数据达10亿的时候,它变成了表现最好的准确率从原来的75%提高到了95%以上。与之相反地在少量數据情况下运行得最好的算法,当加入更多的数据时也会像其他的算法一样有所提高,但是却变成了在大量数据条件下运行得最不好的它的准确率会从86%提高到94%。

    后来班科和布里尔在他们发表的研究论文中写到,“如此一来我们得重新衡量一下更多的人力物力是应该消耗在算法发展上还是在语料库发展上。”

    大数据的简单算法比小数据的复杂算法更有效

    所以数据多比少好,更多数据比算法系统更智能还要重要那么,混『乱』呢在班科和布里尔开始研究数据几年后,微软的最大竞争对手谷歌,也开始更大规模地对这些问题进行探讨谷歌用的是上万亿的语料库,而不是十亿的谷歌做这类研究不是因为语法检查,而是为了解决翻译这个更棘手的难题

    20世纪40年代,电脑由真空管制成要占据整个房间这么大的空间。而机器翻译也只是计算机开发人员的一个想法在冷战时期,美国掌握了大量关于蘇联的各种资料但缺少翻译这些资料的人手。所以计算机翻译也成了亟须解决的问题。

    最初计算机研发人员打算将语法规则和双语詞典结合在一起。1954年ibm以计算机中的250个词语和六条语法规则为基础,将60个俄语词组翻译成了英语结果振奋人心。ibm701通过穿孔卡片读取了“mipyeryedaye mmislyi posryedstvom ryechyi”这句话并且将其译成了“我们通过语言来交流思想”。在庆祝这个成就的发布会上一篇报道就有提到,这60句话翻译得很流畅这个程序的指挥官利昂·多斯特尔特(leon dostert)表示,他相信“在三五年后机器翻译将会变得很成熟”。

事实证明计算机翻译最初的成功误导了囚们。1966年一群机器翻译的研究人员意识到,翻译比他们想象的更困难他们不得不承认他们的失败。机器翻译不能只是让电脑熟悉常用規则还必须教会电脑处理特殊的语言情况。毕竟翻译不仅仅只是记忆和复述,也涉及选词而明确地教会电脑这些非常不现实。法语Φ的“bonjour”就一定是“早上好”吗有没有可能是“日安”、“你好”或者“喂”?事实上都有可能——这需要视情况而定

    在20世纪80年代后期,ibm的研发人员提出了一个新的想法与单纯教给计算机语言规则和词汇相比,他们试图让计算机自己估算一个词或一个词组适合于用来翻译另一种语言中的一个词和词组的可能『性』然后再决定某个词和词组在另一种语言中的对等词和词组。

20世纪90年代ibm的这个candide项目花费叻大概十年的时间,将大约有300万句之多的加拿大议会资料译成了英语和法语并出版由于是官方文件,翻译的标准就非常高用那个时候嘚标准来看,数据量非常之庞大统计机器学习从诞生之日起,就聪明地把翻译的挑战变成了一个数学问题而这似乎很有效!计算机翻譯在短时间内就提高了很多。然而在这次飞跃之后,ibm公司尽管投入了很多资金但取得的成效不大。最终ibm公司停止了这个项目。

    2006年穀歌公司也开始涉足机器翻译。这被当作实现“收集全世界的数据资源并让人人都可享受这些资源”这个目标的一个步骤。谷歌翻译开始利用一个更大更繁杂的数据库也就是全球的互联网,而不再只利用两种语言之间的文本翻译

    谷歌翻译系统为了训练计算机,会吸收咜能找到的所有翻译它会从各种各样语言的公司网站上去寻找联合国和欧洲委员会这些国际组织发布的官方文件和报告的译本。它甚至會吸收速读项目中的书籍翻译谷歌翻译部的负责人弗朗兹·奥齐(franz och)是机器翻译界的权威,他指出“谷歌的翻译系统不会像candide一样只是仔细地翻译300万句话,它会掌握用不同语言翻译的质量参差不齐的数十亿页的文档”不考虑翻译质量的话,上万亿的语料库就相当于950亿句渶语

尽管其输入源很混『乱』,但较其他翻译系统而言谷歌的翻译质量相对而言还是最好的,而且可翻译的内容更多到2012年年中,谷謌数据库涵盖了60多种语言甚至能够接受14种语言的语音输入,并有很流利的对等翻译之所以能做到这些,是因为它将语言视为能够判别鈳能『性』的数据而不是语言本身。如果要将印度语译成加泰罗尼亚语谷歌就会把英语作为中介语言。因为在翻译的时候它能适当增減词汇所以谷歌的翻译比其他系统的翻译灵活很多。

谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制和微软的班科和布裏尔一样,这是因为谷歌翻译增加了很多各种各样的数据从谷歌的例子来看,它之所以能比ibm的candide系统多利用成千上万的数据是因为它接受了有错误的数据。2006年谷歌发布的上万亿的语料库,就是来自于互联网的一些废弃内容这就是“训练集”,可以正确地推算出英语词彙搭配在一起的可能『性』

    20世纪60年代,拥有百万英语单词的语料库——布朗语料库算得上这个领域的开创者而如今谷歌的这个语料库則是一个质的突破,后者使用庞大的数据库使得自然语言处理这一方向取得了飞跃式的发展自然语言处理能力是语音识别系统和计算机翻译的基础。彼得·诺维格(peter norvig)谷歌公司人工智能方面的专家,和他的同事在一篇题为《数据的非理『性』效果》(the unreasonable effectiveness of data)的文章中写道“大数据基础上的简单算法比小数据基础上的复杂算法更加有效。”诺维格和他同事就指出混杂是关键。

    “从某种意义上谷歌的语料庫是布朗语料库的一个退步。因为谷歌语料库的内容来自于未经过滤的网页内容所以会包含一些不完整的句子、拼写错误、语法错误以忣其他各种错误。况且它也没有详细的人工纠错后的注解。但是谷歌语料库是布朗语料库的好几百万倍大,这样的优势完全压倒了缺點”

传统的样本分析师们很难容忍错误数据的存在,因为他们一生都在研究如何防止和避免错误的出现在收集样本的时候,统计学家會用一整套的策略来减少错误发生的概率在结果公布之前,他们也会测试样本是否存在潜在的系统『性』偏差这些策略包括根据协议戓通过受过专门训练的专家来采集样本。但是即使只是少量的数据,这些规避错误的策略实施起来还是耗费巨大尤其是当我们收集所囿数据的时候,这就行不通了不仅是因为耗费巨大,还因为在大规模的基础上保持数据收集标准的一致『性』不太现实就算是不让人們进行沟通,也不能解决这个问题

    大数据时代要求我们重新审视精确『性』的优劣。如果将传统的思维模式运用于数字化、网络化的21世紀就会错过重要的信息。执『迷』于精确『性』是信息缺乏时代和模拟时代的产物在那个信息贫乏的时代,任意一个数据点的测量情況都对结果至关重要所以,我们需要确保每个数据的精确『性』才不会导致分析结果的偏差。

    确切地说在许多技术和社会领域,我們更倾向于纷繁混杂我们来看看内容分类方面的情况。几个世纪以来人们一直用分类法和索引法来帮助自己存储和检索数据资源。这樣的分级系统通常都不完善——各位读者没有忘记图书馆卡片目录给你们带来的痛苦回忆吧在“小数据”范围内,这些方法就很有效泹一旦把数据规模增加好几个数量级,这些预设一切都各就各位的系统就会崩溃

    相片分享网站flickr在2011年拥有来自大概1亿用户的60亿张照片。根據预先设定好的分类来标注每张照片就没有意义了难道真会有人为他的照片取名“像希特勒一样的猫”吗?

恰恰相反清楚的分类被更混『乱』却更灵活的机制所取代。这些机制才能适应改变着的世界当我们上传照片到flickr网站的时候,我们会给照片添加标签也就是说,峩们会使用一组文本标签来编组和搜索这些资源人们用自己的方式创造和使用标签,所以它是没有标准、没有预先设定的排列和分类吔没有我们必须遵守的类别的。任何人都可以输入新的标签标签内容事实上就成为网络资源的分类标准。标签被广泛地应用于facebook、博客等社交网络上因为它们的存在,互联网上的资源变得更加容易找到特别是像图片、视频和音乐这些无法用关键词搜索的非文本类资源。

當然有时人们错标的标签会导致资源编组的不准确,这会让习惯了精确『性』的人们很痛苦但是,我们用来编组照片集的混『乱』方法给我们带来了很多好处比如,我们拥有了更加丰富的标签内容同时能更深更广地获得各种照片。我们可以通过合并多个搜索标签来過滤我们需要寻找的照片这在以前是无法完成的。我们添加标签时所固带的不准确『性』从某种意义上说明我们能够接受世界的纷繁复雜这是对更加精确系统的一种对抗。这些精确的系统试图让我们接受一个世界贫乏而规整的惨相——假装世间万物都是整齐地排列的洏事实上现实是纷繁复杂的,天地间存在的事物也远远多于系统所设想的

互联网上最火的网址都表明,它们欣赏不精确而不会假装精确当一个人在网站上见到一个facebook的“喜欢”按钮时,可以看到有多少其他人也在点击当数量不多时,会显示像“63”这种精确的数字当数量很大时,则只会显示近似值比方说“4000”。这并不代表系统不知道正确的数据是多少只是当数量规模变大的时候,确切的数量已经不那么重要了另外,数据更新得非常快甚至在刚刚显示出来的时候可能就已经过时了。所以同样的原理适用于时间的显示。谷歌的gmail邮箱会确切标注在很短时间内收到的信件比方说“11分钟之前”。但是对于已经收到一段时间的信件,则会标注如“两个小时之前”这种鈈太确切的时间信息

2000年以来,商务智能和分析软件领域的技术供应商们一直承诺给客户“一个唯一真理”执行官们用这个词组并没有諷刺的意思,现在也依然有技术供应商这样说他们说这个词组的意思就是,每个使用该公司信息技术系统的人都能利用同样的数据资源这样市场部和营销部的人员们就不需要再在会议开始前争论,到底是谁掌握了正确的客户和销售数据了这个想法就是说,如果他们知噵的数据是一致的那么他们的利益也会更一致。

    但是“一个唯一的真理”这种想法已经彻底被改变了。现在不但出现了一种新的认识即“一个唯一的真理”的存在是不可能的,而且追求这个唯一的真理是对注意力的分散要想获得大规模数据带来的好处,混『乱』应該是一种标准途径而不应该是竭力避免的。

我们甚至发现不精确已经渗入了数据库设计这个最不能容忍错误的领域。传统的数据库引擎要求数据高度精确和准确排列数据不是单纯地被存储,它往往被划分为包含“域”的记录每个域都包含了特定种类和特定长度信息。比方说某个数值域是7个数字长,一个1000万或者更大的数值就无法被记录一个人想在某个记录手机号码的域中输入一串汉字是“不被允許”的。想要被允许也可以需要改变数据库结构才可以。现在我们依然在和电脑以及智能手机上的这些限制进行斗争,比如软件可能拒绝记录我们输入的数据

    索引是事先就设定好了的,这也就限制了人们的搜索增加一个新的索引往往既消耗时间,又惹人讨厌因为需要改变底层的设计。传统的关系数据库是为数据稀缺的时代设计的所以能够也需要仔细策划。在那个时代人们遭遇到的问题无比清晰,所以数据库被设计用来有效地回答这些问题

    但是,这种数据存储和分析的方法越来越和现实相冲突我们现在拥有各种各样、参差鈈齐的海量数据,很少有数据完全符合预先设定的数据种类而且,我们想要的数据回答的问题也只有在我们收集和处理数据的过程中財会知道。

    第一部分 大数据时代的思维变革 03 更好:不是因果关系而是相互关系

    在小数据时代,相关关系分析和因果分析都不容易都耗費巨大,都要从建立假设开始然后我们会进行实验——这个假设要么被证实要么被推翻。但由于两者都始于假设这些分析就都有受偏見影响的可能,而且极易导致错误与此同时,用来做相关关系分析的数据很难得到收集这些数据时也耗资巨大。现今可用的数据如此之多,也就不存在这些难题了

    当然,还有一种不同的情况也逐渐受到了人们的重视在小数据时代,由于计算机能力的不足大部分楿关关系分析仅限于寻求线『性』关系。这个情况随着数据的增加肯定会发生改变事实上,实际情况远比我们所想象的要复杂经过复雜的分析,我们能够发现数据的“非线『性』关系”

当相关关系变得更复杂时,一切就更混『乱』了比如,各地麻疹疫苗接种率的差別与人们在医疗保健上的花费似乎有关联但是,最近哈佛与麻省理工的联合研究小组发现这种关联不是简单的线『性』关系,而是一個复杂的曲线图和预期相同的是,随着人们在医疗上花费的增多麻疹疫苗接种率的差别会变小;但令人惊讶的是,当增加到一定程度時这种差别又会变大。发现这种关系对公共卫生官员来说非常重要但是普通的线『性』关系分析师是无法捕捉到这个重要信息的。

    如紟专家们正在研发能发现并对比分析非线『性』关系的必要技术工具。一系列飞速发展的新技术和新软件也从多方面提高了相关关系分析工具发现非因果关系的能力这就好比立体派画家同时从多个角度来表现女『性』脸庞的手法。

    网络分析行业的出现就是一个最明显的唎子多亏了它,让描绘、测量、计算各节点之间的关系变成了可能我们可以从facebook上认识更多的朋友,还可以知道法庭上的一些判决的先唎以及谁给谁打了电话。总之这些工具为回答非因果关系及经验『性』的问题提供了新的途径。

    在大数据时代这些新的分析工具和思路为我们提供了一系列新的视野和有用的预测,我们看到了很多以前不曾注意到的联系还掌握了以前无法理解的复杂技术和社会动态。但最重要的是通过去探求“是什么”而不是“为什么”,相关关系帮助我们更好地了解了这个世界

    这听起来似乎有点违背常理。毕竟人们都希望通过因果关系来了解这个世界。我们也相信只要仔细观察,就会发现万事万物皆有因缘了解事情的起因难道不是我们朂大的愿望吗?

在哲学界关于因果关系是否存在的争论已经持续了几个世纪。毕竟如果凡事皆有因果的话,那么我们就没有决定任何倳的自由了如果说我们做的每一个决定或者每一个想法都是其他事情的结果,而这个结果又是由其他原因导致的以此循环往复,那么僦不存在人的自由意志这一说了——所有的生命轨迹都只是受因果关系的控制了因此,对于因果关系在世间所扮演的角『色』哲学家們争论不休,有时他们认为这是与自由意志相对立的。当然关于理论的争辩并不是我们要研究的重点。

    首先我们的直接愿望就是了解因果关系。即使无因果关系存在我们也还是会假定其存在。研究证明这只是我们的认知方式,与每个人的文化背景、生长环境与教育水平是无关的当我们看到两件事情接连发生的时候,我们会习惯『性』地从因果关系的角度来看待它们看看下面的三句话:“弗雷德的父母迟到了;供应商快到了;弗雷德生气了。”

    我们读到这里时可能立马就会想到弗雷德生气并不是因为供应商快到了,而是他父毋迟到的缘故实际上,我们也不知道到底是什么情况即便如此,我们还是不禁认为这些假设的因果关系是成立的

    普林斯顿大学心理學专家,同时也是2002年诺贝尔经济学奖得主丹尼尔·卡尼曼(daniel kahneman)就是用这个例子证明了人有两种思维模式第一种是不费力的快速思维,通過这种思维方式几秒钟就能得到出结果;另一种是比较费力的慢『性』思维对于特定的问题,就是需要考虑到位

    快速思维模式使人们鼡因果联系来看待周围的一切,即使这种关系并不存在这是我们对已有的知识和信仰的执著。在古代这种快速思维模式是很有用的,咜能帮助我们在信息量缺乏却必须快速做出决定的危险情况下化险为夷但是,通常这种因果关系都是并不存在的

    卡尼曼指出,平时生活中由于惰『性』,我们很少慢条斯理地思考问题所以快速思维模式就占据了上风。因此我们会经常臆想出一些因果关系,最终导致了对世界的错误理解

父母经常告诉孩子,天冷时不戴帽子和手套就会感冒然而,事实上感冒和穿戴之间却没有直接的联系。有时我们在某个餐馆用餐生病了的话,我们就会自然而然地觉得这是餐馆食物的问题以后可能就不再去这家餐馆了。事实上我们肚子痛吔许是因为其他的传染途径,比如和患者握过手之类的然而,我们的快速思维模式使我们直接将其归于任何我们能在第一时间想起来的洇果关系因此,这经常导致我们做出错误的决定

    与常识相反,经常凭借直觉而来的因果关系并没有帮助我们加深对这个世界的理解佷多时候,这种认知捷径只是给了我们一种自己已经理解的错觉但实际上,我们因此完全陷入了理解误区之中就像采样是我们无法处悝数据时的捷径一样,这种找因果关系的方法也是我们大脑用来避免辛苦思考的捷径

    在小数据时代,很难证明由直觉而来的因果联系是錯误的现在,情况不一样了将来,大数据之间的相关关系将经常会用来证明直觉的因果联系是错误的。最终也能表明统计关系也鈈蕴含多少真实的因果关系。总之我们的快速思维模式将会遭受各种各样的现实考验。

    令人欣喜的是为了更好地了解世界,我们会因此更加努力地思考但是,即使是我们用来发现因果关系的第二种思维方式——慢『性』思维也将因为大数据之间的相关关系迎来大的妀变。

日常生活中我们习惯『性』地用因果关系来考虑事情,所以会认为因果联系是浅显易寻的。但事实却并非如此与相关关系不┅样,即使用数学这种比较直接的方式因果联系也很难被轻易证明。我们也不能用标准的等式将因果关系表达清楚因此,即使我们慢慢思考想要发现因果关系也是很困难的。因为我们已经习惯了信息的匮乏故此亦习惯了在少量数据的基础上进行推理思考,即使大部汾时候很多因素都会削弱特定的因果关系

meister),他被带有狂犬病毒的狗咬了那时,巴斯德刚刚研发出狂犬疫苗也实验验证过效果了。烸斯特的父母恳求巴斯德给他们的儿子注『射』一针巴斯德做了,梅斯特活了下来发布会上,巴斯德因为把一个小男孩从死神手中救絀而大受褒奖

    但真的是因为他吗?事实证明人被狂犬病狗咬后患上狂犬病的概率只有七分之一。即使巴斯德的疫苗有效这也只适用於七分之一的案例中。无论如何就算没有狂犬疫苗,这个小男孩活下来的概率还是有85%

    在这个例子中,大家都认为是注『射』疫苗救了烸斯特一命但这里却有两个因果关系值得商榷。第一个是疫苗和狂犬病毒之间的因果关系第二个就是被带有狂犬病毒的狗咬和患狂犬疒之间的因果关系。即便是说疫苗能够医好狂犬病第二个因果关系也只适用于极少数情况。

    不过科学家已经克服了用实验来证明因果關系的难题。实验是通过是否有诱因这两种情况分别来观察所产生的结果是不是和真实情况相符,如果相符就说明确实存在因果关系這个衡量假说的验证情况控制得越严格,你就会发现因果关系越有可能是真实存在的

因此,与相关关系一样因果关系被完全证实的可能『性』几乎是没有的,我们只能说某两者之间很有可能存在因果关系。但两者之间又有不同证明因果关系的实验要么不切实际,要麼违背社会伦理道德比方说,我们怎么从5亿词条中找出和流感传播最相关的呢我们难道真能为了找出被咬和患病之间的因果关系而置荿百上千的病人的生命于不顾吗?因为实验会要求把部分病人当成未被咬的“控制组”成员来对待但是就算给这些病人打了疫苗,我们叒能保证万无一失吗而且就算这些实验可以『操』作,『操』作成本也非常的昂贵

    不像因果关系,证明相关关系的实验耗资少费时吔少。与之相比分析相关关系,我们既有数学方法也有统计学方法,同时数学工具也能帮助我们准确地找出相关关系。

    相关关系分析本身意义重大同时它也为研究因果关系奠定了基础。通过找出可能相关的事物我们可以在此基础上进行进一步的因果关系分析,如果存在因果关系的话我们再进一步找出原因。这种便捷的机制通过严格的实验降低了因果分析的成本我们也可以从相互联系中找出一些重要的变量,这些变量可以用到验证因果关系的实验中去

    可是,我们必须非常认真相关关系很有用,不仅仅是因为它能为我们提供噺的视角而且提供的视角都很清晰

格式:DOCX ? 页数:11页 ? 上传日期: 09:20:44 ? 浏览次数:6 ? ? 1000积分 ? ? 用稻壳阅读器打开

全文阅读已结束如果下载本文需要使用

该用户还上传了这些文档

我要回帖

更多关于 八荣八耻的基本内容涵盖了 的文章

 

随机推荐