大数据很时髦,那它薛岳和林彪到底谁厉害有多厉害

中国领先的IT技术网站
51CTO旗下网站
2016年大数据到底还算不算个 “东西” (附2016 大数据版图)
在喜新厌旧的技术初创企业界,已有 3年 历史 “大数据” 听起来似乎已经过气了。抛开不可避免的炒作周期曲线态势不管,我们的 “大数据版图” 已经进入第 4 个年头了,趁这个时候退一步来反思一下去年发生了什么,思考一下这个行业的未来会怎样是很有意义的。
作者:来源:| 10:32
原文编者注:原文是 FirstMark Capital 的 Matt Turck
的文章。本文全面总结了大数据领域的发展态势,分析认为尽管大数据作为一个术语似乎已经过气,但是大数据分析与应用才刚刚开始兴起,在与
AI、人工智能等新兴技术的结合下,大数据的机会也许要比大家想象的还要大。
在喜新厌旧的技术初创企业界,已有 3年 历史 &大数据& 听起来似乎已经过气了。虽然 Hadoop 在 2006年 已经出来,但 &大数据&
这个概念大概是在 2011 到 2014年 左右才真正火起来的。也就是在这段时间里,至少是在媒体或者专家眼里,&大数据& 成为了新的 &金子& 或者
&石油&。然而,至少在我跟业界人士交谈中,大家越来越感觉到这项技术已经在某种程度上陷入了停滞。2015年 可能是数据领域的那些酷小子转移兴趣,开始沉迷于 AI
以及机器智能、深度学习等许多相关概念的年份。
抛开不可避免的炒作周期曲线态势不管,我们的 &大数据版图& 已经进入第 4
个年头了,趁这个时候退一步来反思一下去年发生了什么,思考一下这个行业的未来会怎样是很有意义的。
2016 大数据版图
(查看大图)
那么 2016年 大数据到底还算不算个 &东西& 呢?我们不妨探讨一下。
企业技术=艰苦工作
大数据有趣的一点在于,它不再像当初经历过那样有可能成为炒作的题材了。
经过炒作周期后仍能引起广泛兴趣的产品和服务往往那些大家能够接触、可以感知,或者与大众相关联的:比如移动应用、社交网络、可穿戴、虚拟现实等。
但大数据基本上就是管道设施的一种。当然,大数据为许多消费者或商业用户体验提供了动力,但它的核心是企业技术:数据库、分析等,这些东西都是在后端运行的,没几个人能看得见。就像在那个世界工作的任何人都知道那样,用一个晚上的时间就想适应企业端的新技术是不可能的。
大数据现象在早期主要是受到了与一批骨干互联网公司(尤其是 Google、Facebook、Twitter
等)的共生关系的推动,这些公司既是核心大数据技术的重度用户,同时也是这些技术的创造者。这些公司突然间面对着规模前所未有的庞大数据时,由于本身缺乏传统的(昂贵的)基础设施,也没有办法招募到一些最好的工程师,所以只好自己动手来开发所需的技术。后来随着开源运动的迅速发展,一大批此类新技术开始共享到更广的范围。然后,一些互联网大公司的工程师离职去创办自己的大数据初创企业。其他的一些
&数字原生&
公司,包括崭露头角的独角兽公司,也开始面临着互联网大公司的类似需求,由于它们自身也没有传统的基础设施,所以自然就成为了那些大数据技术的早期采用者。而早期的成功又导致了更多的创业活动发生,并获得了更多的
VC 资助,从而带动了大数据的起势。
快速发展了几年之后,现在我们面临的是更加广阔、但也更加棘手的机遇:让中等规模到跨国公司级别的更大一批企业采用大数据技术。这些公司跟 &数字原生&
公司不一样的是,他们没有从零开始的有利条件。而且他们失去的会更多:这些公司绝大部分的现有技术基础设施都是成功的。那些基础设施当然未必是功能完备的,组织内部许多人也意识到对自己的遗留基础设施进行现代化应该是早点好过晚点,但他们不会一夜间就把自己的关键业务取代掉。任何革命都需要过程、预算、项目管理、试点、局部部署以及完备的安全审计等。大企业对由年轻的初创企业来处理自己基础设施的关键部分的谨慎是可以理解的。还有,令创业者感到绝望的是,许多(还是大多数?)企业仍顽固地拒绝把数据迁移到云端(至少不愿迁移到公有云)。
还需要理解的另一个关键是:大数据的成功不在于实现技术的某一方面(像 Hadoop
什么的),而是需要把一连串的技术、人和流程糅合到一起。你得捕捉数据、存储数据、清洗数据、查询数据、分析数据并对数据进行可视化。这些工作一部分可以由产品来完成,而有的则需要人来做。一切都需要无缝集成起来。最后,要想让所有这一切发挥作用,整个公司从上到下都需要树立以数据驱动的文化,这样大数据才不仅仅是个
&东西&,而且就是那个(关键的)&东西&。
换句话说:有一堆艰苦的工作要做。
所以,这就是在经过几年引人瞩目的初创企业如雨后春笋冒头,VC 投资频等头条后,我们开始步入大数据的部署期和早期成熟期的原因。
更有前瞻性的大公司(姑且称之为传统技术采用周期的 &早期采用者&)在 2011 到 2013年 间开始实验大数据技术,推出了若干的 Hadoop
试点计划(往往是因为赶时髦)或者尝试一些点方案。他们招募了各种各样此前并不存在的岗位(如 &数据科学家& 或
&首席数据官&)。他们进行了各种努力,包括吧全部数据都堆到一个数据容器(&data
lake&),然后希望紧跟着就会发生奇迹(往往不会)。他们逐步建设自己的内部能力,试验了各种供应商,从试点计划到生产中的局部部署,然后到现在争论要不要全企业铺开(全范围铺开实施的情况还很罕见)。许多情况下,他们正处在这样一个重要的拐点上,即经过大数据基础设施的数年建设后,能够展示的成果还不多,至少在公司内部的商业用户看来是这样的。但是大量吃力不讨好的工作已经做完了,现在开始进入到有影响力的应用部署阶段了。只是从目前来看,这种建构在核心架构之上的应用数量还不成比例。
接下来的一波大公司(称之为传统技术采用周期的
&早期多数使用者&)大多数时候对大数据技术是持观望态度的,对于整个大数据方面的东西,他们还在心存一定程度困惑中观望。直到最近,他们还在指望某个大型供应商(比如
IBM)会提供一个一站式的解决方案,不过现在看来这种情况近期内并不会出现。他们看待这个大数据版图的态度是心怀恐惧,在想自己是不是真的需要跟这一堆看起来并没有什么不同的初创企业合作,然后修补出各种解决方案。
生态体系正在成熟
与此同时,在初创企业 / 供应商这一块,整个第一波的大数据公司(2009 至 2013年
间成立的那批)现在已经融了数轮的资金,企业规模已经得到了扩大,并且从早期部署的成功或失败中学到了东西,现在他们已经能够提供更成熟的、经受过考验的产品了。少数一些已经成为了上市公司(包括
2015年 上市的 HortonWorks 和 New Relic),而有的(比如 Cloudera、MongoDB 等)融资已经达上亿美元了。
这个领域的 VC 融资活动仍然很有生气,2016年 的前几周我们见证好几轮相当可观的后期阶段大数据融资事件:DataDog(9400
万美元),BloomReach(5600 万美元),Qubole(3000 万美元),PlaceIQ(2500 万美元)等。2015年
大数据初创企业拿到的融资额达到了 66.4 亿美元,占整个技术 VC 总融资额额 11%。
并购活动则开展得中规中矩(自从上一版大数据版图发布以来完成了 34 项并购,具体可参见附注)
随着该领域的创业活动持续进行以及资金的不断流入,加上适度的少量退出,以及越来越活跃的技术巨头(尤其是
Amazon、Google、IBM),使得这个领域的公司日益增多,最后汇成了这幅 2016 版的大数据版图。
显然这张图已经很挤了,而且还有很多都没办法列进去(关于我们的方法论可以参见附注)
在基本趋势方面,行动开始慢慢从左转到右(即创新、推出新产品和新公司),从基础设施层(开发者 /
工程师的世界)转移到分析层(数据科学家和分析师的世界)乃至应用层(商业用户和消费者的世界),&大数据原生应用&
已经在迅速冒头&这多少符合了我们原先的一些预期。
大数据基础设施:仍有大量创新
Google 关于 MapReduce 和 BigTable 的论文(Cutting 和 MikeCafarella 因为这个而做出了
Hadoop)的诞生问世已有 10年 了,在这段时间里,大数据的基础设施层已经逐渐成熟,一些关键问题也得到了解决。
但是,基础设施领域的创新仍然富有活力,这很大程度上是得益于可观的开源活动规模。
2015 年 无疑是 Apache Spark 之年。自我们发布上一版大数据版图以来,这个利用了内存处理的开源框架就开始引发众多讨论。自那以后,Spark
受到了从 IBM 到 Cloudera 的各式玩家的拥护,让它获得了可观的信任度。Spark 的出现是很有意义的,因为它解决了一些导致 Hadoop
采用放缓的关键问题:Spark 速度变快了很多(基准测试表明 Spark 比 Hadoop 的 MapReduce 快 10 到 100
倍),更容易编程,并且跟机器学习能够很好地搭配。
除了 Spark 以外,还出现了其他的一些令人兴奋的框架,比如 Flink、Ignite、Samza、Kudu
等,这些框架的发展势头也很好。一些思想领袖认为,Mesos(数据中心资源管理系统,把数据中心当作一台大计算资源池进行编程)的出现也刺激了对 Hadoop
即便在数据库的世界里,新兴的玩家似乎也越来越多。多到市场已经难以承受的地步,这里发生了很多令人兴奋的事情,从图形数据库(如 Neo4j
)的成熟,到专门数据库的推出(如统计时序数据库 InfluxDB),乃至于 CockroachDB 的出现(受 Google Spanner
灵感启发诞生的融合了 SQL 与 NoSQL 长处的新型数据库)。数据仓库也在演变(如云数据仓库 Snowflake)。
大数据分析:现在跟 AI 结合了
大数据分析过去几个月出现的一股趋势是,越来越关注利用人工智能(形式和风格各异)来帮助分析大规模的数据,从而获得预测性的洞察。
其实最近出现复兴的 AI 很大程度上算是大数据的产物。深度学习(最近受到关注最多的 AI
领域)背后的算法基本上是几十年前就诞生了的,但直到最近能够以足够便宜、足够快速地应用到大规模数据之后才发挥出了它的最大潜能。AI
与大数据之间的关系如此紧密,以至于业界专家现在认为 AI 已经令人懊恼地 &与大数据陷入了热恋当中&。
不过反过来,AI 现在也在帮助大数据实现后者的承诺。分析对 AI/
机器学习越来越多的关注也符合大数据下一步演进的趋势:现在数据我都有了,但究竟从中能得到什么样的洞察呢?当然,这件事情可以让数据科学家来解决,从一开始他们的角色就是实现机器学习,否则的话就得想出模型来发现数据的意义。但是机器智能现在正在逐渐发挥辅助数据科学家的作用&只需要倒腾数据,新兴的产品就能从中提炼出数学公式(如
Context Relevant)或者自动建立和推荐最有可能返回最佳结果的数据科学模型(如 DataRobot)。一批新的 AI
公司提供的产品能够自动识别像图像这样的复杂实体(如 Clarifai、Dextro),或者提供强大的预测性分析(如 HyperScience)。
同时,随着基于无监督学习的产品的传播和改善,看看它们与数据科学家之间的关系如何演变将非常有趣&将来这两者是敌还是友呢?AI
当然不会很快取代数据科学家的位置,但预计会看到数据科学家通常执行的更简单一点的工作越来越多的自动化,从而可以极大提高生产力。
但不管怎样,AI/ 机器学习绝不是大数据分析唯一值得关注的趋势。大数据 BI 平台的普遍成熟及其日益增强的实时能力也是一个令人兴奋的趋势(如
SiSense、Arcadia Data 等)。
大数据应用:真正的加速
随着一些核心基础设施的挑战得到解决,大数据应用层正在快速构建。
在企业内部,已经出现了各种工具来帮助跨多个核心职能的企业用户。比方说,销售和营销的大数据应用通过处理大规模的内外部数据来帮助找出哪位客户可能会购买、续约或者流失,且速度越来越实时化。客服应用帮助个性化服务。人力应用帮助找出如何吸引和挽留最好的员工等。
专门的大数据应用几乎在任何一个垂直行业都有出现,从医疗保健(尤其是基因组学和药物研究)到金融、时尚乃至于执法(如 Mark43)。
有两个趋势值得强调一下。
首先,这些应用很多都是 &大数据原生&
的,本身都是依托在最新的大数据技术基础上开发的,代表了一种客户无须部署底层大数据技术即可利用大数据的有趣方式&因为那些底层技术已经是打包的,至少对于特定功能来说是这样的。比方说,ActionIQ
就是在 Spark 基础上开发的(或者说是 Spark 的一个派生),所以它的客户能够在营销部门利用 Spark 的威力而不需要自己部署
Spark,这种情况下是没有 &装配线& 的。
其次,AI 在应用层也有很强大的存在。比方说,在猫捉老鼠的安全领域中,AI 被广泛用来对付黑客,实时识别和对抗网络攻击。去年已经出现了一个 AI
驱动的数字助手行业,支持从任务自动化到会议安排(如 x.ai)以及购物等几乎一切事情。这些解决方案对 AI 的依赖程度不一,从几乎 100%自动化到
&有人参与& 等情况各不相同,但是可以明确的是,人的能力在 AI 帮助下得到了增强。
从很多方面来看,我们仍然处在大数据现象的早期发展阶段。尽管已经花费了数年时间,但减少基础设施来存储和处理大规模数据还只是第一阶段。AI/
机器学习已经成为大数据应用层的一股迅猛趋势。大数据与 AI 的结合将会推动很多行业的惊人创新。从这个角度来说,大数据的机会也许要比大家想象的还要大。
然而,随着大数据继续走向成熟,这个术语本身可能会消失,或者变得太过时以至于没有人会再使用这个词。这就是成功赋能技术令人讽刺的命运归宿&由于技术的广泛传播,然后到达无所不在的地步,最后被人熟视无睹。
1)由于不可能把大数据的所有公司都列到图表上,所以我们只能按照一定原则筛选部分公司出来,筛选原则一是进行过 1 轮或多轮 VC
融资的初创企业,二是把一些我们特别感兴趣的较早期初创企业列进去。
2)值得注意的收购包括 Revolution Analytics(微软 2015年1月 收购),Mortar(DataDog2015年2月
收购),Acunu 和 FoundationDB(2015年3月 被苹果收购),AlchemyAPI(2015年3月 被 IBM
收购),Amiato(2015年4月 被 Amazon 收购),Next Big Sound(2015年5月 被 Pandora
收购),1010Data(Advance/Newhouse 2015年8月 收购),Boundary(BMC 2015年8月 收购),Bime
Analytics(Zendesk 2015年10月 收购),CleverSafe(IBM 2015年10月 收购),ParStream(2015年11月
被思科收购),Lex Machine(2015年11月 被 LexisNexis 收购),DataHero(2016年1月 被 Cloudability
收购)。【编辑推荐】【责任编辑: TEL:(010)】
大家都在看猜你喜欢
原创原创原创头条热点
24H热文一周话题本月最赞
讲师:5人学习过
讲师:1人学习过
讲师:4人学习过
精选博文论坛热帖下载排行
osCommerce是一款免费的、开放源代码的专业电子商务解决方案。本书以通俗易懂的语言向读者展示了该软件强大的功能和简易的操作方法,主要内...
订阅51CTO邮刊(活动家小明)
(四月是你的谎言)
(活动家小明)
(大侠西红柿)
(大侠西红柿)
第三方登录:  大数据,自从这个“高大上”的概念出现,便像病毒一样蔓延,以至于对于我们这种搞IT的人员来说,不了解这个概念似乎都不好意思承认自己是干这一行的,估计各大软件公司也都已经或者准备涉足这个领域。本人所在的公司也一样,近期一直强行推广相关的技术。不过,不清楚我们的那些大BOSS们到底是装懂呢,还是装懂呢,还是装懂呢,总感觉这种推广的方式有些偏离了大数据的实际含义。  本人自认为一直从事着数据处理方面的工作,长期以来,工作的流程一直是:各运营商会提供各自的接口(比如FTP),从接口处取得各种类型的文件(例如csv格式、xml格式,甚至包括二进制文件),解析文件并将所需要的信息取出后load到数据库中;入库后,有些数据会针对时间粒度或者空间粒度进行汇总处理;然后,对于本人来说就木有然后了,会有另外一批人员进行上层界面的开发,根据数据库中的原始数据或者汇总后的数据,做出一个很炫的界面以显示这些信息,并提供给客户使用。  之所以要推广大数据相关的技术,是因为需要处理的数据量越来越大,而且以后还会有继续增大的趋势;而由于数据采集的实时性,需要对处理的效率有一定的要求(一般数据是每小时都会生成的,如果一次处理在一小时只能还无法完成,那结果可想而知)。基于这些原因,引进了大数据相关的诸如Hadoop的技术。然而,这就是唯一的区别,仅仅是将数据处理部分从原先的程序改成通过那种“高科技”的方式实现,仅有的区别就是直接得到汇总后的结果并将其导入到数据库中。处理后,相关的数据将彻底完成历史使命,并于一段时间以后“灰飞烟灭”。  这就是传说中的大数据乎?深表怀疑,也许充其量就是数据量比较大的数据罢了。  于是乎,在工作之余,研究了一下传说中的“大数据”,发现它确实不是这个样子的,它是一种全新的思维模式,甚至跟数据量的大小本身没有半毛钱关系。与此同时,也深深的感受到,长时间在这么一个安逸的工作环境下,自己确实已经有些out了。也许,真到了应该充充电、全面提升自己的时候了。  不过,出于多年以来的习惯,总是有反权威的倾向,喜欢按照自己的方式理解,而不是对所有理论完全照搬;而且,总喜欢将自己的理解用一种完全另类的方式表达出来,于是,才有了下面的文字。在此声明,本作品纯属自娱自乐,如果其中的某些部分对各位有那么一丁点儿帮助,能够成为各位的非物质文化遗产,那也算功德一件;如果感觉没有任何实际的价值,那也不要浪费各位的宝贵时间,直接无视即可。当然,由于是初学者,理解上势必会有一些偏差或者不足,所以也欢迎各位能够以“就事论事”的方式进行学术上的探讨。
楼主发言:33次 发图:0张 | 更多
  第一部分 大数据  1.1 引言  诈骗短信、广告推销短信,都是让人很闹心的;如果再被这些短信骗了一下,那估计就更闹心了。然而,如果留意一下这些短信,会发现这类短信的精确性越来越强:比如刚买完房子的,就收到了装修类的广告短信;刚有了小孩,就收到了婴儿产品的广告短信;刚到银行准备准备汇款,就收到了陌生的汇款账号……确实,随着时代的进步,骗子这个行业也在与时俱进。  最开始的时候,这类骗子们还属于完全没有技术含量,就是单纯的随机发送,或者对某个号码段进行全覆盖发送。然而这种方式确实很不实惠,就算短信一毛钱一条,这样疯狂的发送也是很耗成本的;而且这种方式会出现将大量的信息发给空号或者废号,即使是发给正在使用的号码,如果接收方都是那些不太可能上钩或者对相应内容完全不感兴趣的,那也只能“点儿背不能怨社会”了。  接下来,骗子们就通过买一些相关信息,从而更有针对性的发送短信。但随着社会的进步,人们也重视了个人信息的安全性,更多的相关人员也提高的职业操守,导致了相关信息的购买成本提高以至于可能达到不划算的程度,甚至有可能出多少钱都买不到相关信息。  然而,一个好东西的出现解决了骗子们的困境,而且这个东西的构造并不复杂,只需要一部手机、一个短信发射器、一台电脑、一根天线、一个电瓶,以及一个电源转化器,将这六个并不昂贵的机器其组装到一起,就可以使用了。这个东西又一个学名,叫做“伪基站”。  它的工作原理也很简单,就是在一定范围内,屏蔽掉所有运营商的信号,使其只能接受到这个伪基站的信号,同时搜索在这个范围内的所有手机号,通过这个伪基站的信号将短信发送到这些手机中。这样就可以用很低的成本,定点的发送诈骗或者广告推销短信。比如,在售楼处附近安装一个伪基站,用来发送装修类的广告短信,就可以基本达到他们想要的效果。只要拥有这么一个“伪基站”,就可能获得意想不到的收益,绝对的商机无限,而且该工具价格公道、童叟无欺,是居家旅行必备“神器”……  不对呀,作为一个社会主义好公民,貌似是不应该干这种违法的事情的。确实,对于这种违法行为,确实需要严厉打击。但关键是,怎么打击呢?  这类违法行为的最大特点是没有特点,因为可以把这个“伪基站”放在任意一个角落:出租屋、宾馆客房,甚至可以放在行进中的车里(只要车速低于一个值,这种“伪基站”依然可以正常工作)。它不像抓扒手那样,只要盯着了车站、商场这类地点就可以了,而是需要关注几乎全部的角落。  如果加大警力,也许可以实现上面的目标(同时顺便解决一些人的就业问题),但这里还有一个更让人头疼的问题。对于扒手,不管多么有技术含量的,它都是需要在公共场所进行的,所以那些有经验的反扒警察们可以直接看到扒手们工作的全过程,这样就可以将其抓个现行。然而这种利用“伪基站”的人们,是绝对不可能脑残到把这个东西安装在公共场所的,必然是安装在封闭的空间中:比如门窗都上锁并且拉上窗帘的房间中,或者车窗为黑色以至于无法从外面看到里面情形的车里。在正常情况下,除非得到准确情报,否则的话,警察是没有权利进入室内或者车上进行搜查的。这种对公民自由权、隐私权的保护,反而给骗子们留下了生存的空间。  当然,还有“除非得到准确情报”这个例外,接下来的问题就是,这个情报从何而来。至少,从骗子那里直接获取的可能性几乎没有,应该不会有哪个骗子会脑残到自己发一个类似“在哪儿安装的伪基站真好用,赚了多少前”这样的微博。  既然这种“伪基站”是因为技术的进步而生产出来的,那么同样通过技术方式是否就解决这种问题呢?貌似还有些希望。由于在使用伪基站的时候,在相应范围内的手机会出现短暂断网的现象,如果某个区域内的大部分手机都出现这种断网的现象,并且紧接着就会收到相关的短信息,就可以认为那附近可能有人安装了伪基站。原理很简单,而且似乎也有实现的可能(毕竟这种断网导致的客户满意度的下降也是各运营商所不愿意看到的,所以运营商和警方之间是有合作意愿的),但仔细想来,这还远远不够。  首先,由于它需要覆盖一个很大的范围,会涉及到大量的数据。即便是单单一个城市,统计在整个区域内的所有手机在所有时间点内的信息,那都不是一件容易的事情。就算是仅仅保存,也需要很大的空间;如果再加上分析处理呢,难易想象。  其次,骗子们可不会老老实实的等着警察来抓,也许我们辛辛苦苦分析出来了他们位置的时候,他们已经完成了当天的工作并将相应工具藏好了,或者换到了另外一个地方(最典型的情形就是将“伪基站”安装在车里,等确定位置再来抓捕的时候,可能已经不知道那辆车开到哪里去了,这里还没包括可能由于遇到上下班高峰期导致在路上所消耗的时间)。  这样看来,此题似乎要无解了。  确实,在传统的技术手段上,它是无解的。但我们现在有了一个新的思路,通过它,我们就能够解决这个问题。它的名字叫做——“大数据”。
  1.2 什么是大数据  随着业务量的增加,需要处理的数据量也在增加,当然,相应服务器的处理能力也在提高。就目前而言,如果数据没有达到上万条记录,处理它所耗费的时间基本上可以忽略不计;对于处理几万条记录的情况,消耗的时间完全可以实现以秒为单位(当然,这个秒数不会很大);对于上十万数量级的情况,只要处理流程合理,分分钟解决战斗的可能性也是有的;到了上百万数量级的情况,只要处理流程足够合理、服务器足够给力,所消耗的时间也是在可以忍受的范围之内;如果是上千万数量级的情况呢,最多就是需要一些耐心,当然,前提同样是处理流程足够合理以及服务器足够给力;对于上亿条记录呢……如果还能忍受的话,这个数量级还会不断增加,直至无法处理。  也许某些人会认为,对于那种数据量超过一定数值,以至于传统的技术无法实现的,就是传说中的“大数据”。而实际上真的是这样吗?  数据量达到多少的才能被称为“大数据”?这似乎是个伪命题,就像“有多少根头发才不会被认为是秃子”一样,是一个没有确切答案的问题。当然,我们可以认为,头发少于100根的就算作秃子,但有101根头发的算吗,102根的呢……这个数加到多少才合适呢?这已经够纠结的了,但更重要的一点是,即使存在这么一个数,能够成为秃子和非秃子之间的分水岭,那谁会有闲工夫去数一个人到底又多少根头发,即便那个人没多少根毛儿。对于大数据也一样:首先,没有一个确切的数值或者数量级能够作为是否是大数据的分界线;其次,对于海量的数量来说,谁会闲的没事一条记录、一条记录的数。  其实,“大数据”并不是一个确切的名称,它本身就带有一定的欺骗性。所谓的“大数据”,并不在于它的数据量大,而是在于它的数据——“全”。通过分析全部的数据找到相应的规律从而对未来进行预测,这才是大数据的主要思想。  维克托?迈尔?舍恩伯格同学曾在他的作品《大数据时代》中总结了相对于传统的思维模式,大数据时代需要做出的三个转变,也可以说是大数据思维模式的三个理念。这里也不准备标新立异了,还是沿着这个思路。不过,对于这种观点,我们还是需要批判的看待,既不能像网上某些人的评论那样将其批判的一无是处,也不能不假思索的全盘接受。用马克思主义哲学的说法,只有使用去粗取精、去伪存真的方式,取其精华,弃其糟粕,才能真正了解其精髓,从而实现继承和发扬。
  1.1.1 大数据的理念之:用全量代替样本  1841年埃德加?爱伦?坡发表了文学史上的第一部侦探小说《莫格街谋杀案》,尽管这部小说的解答有些欠抽,但不可否认,它开创了侦探小说的一种模式——“密室”,而这种模式被后来人所追随,以至于似乎没有写过这种类型小说的都不算是侦探小说作家。所谓的“密室”,就是在一个封闭的空间内犯下的凶案,终极目标就是解答出凶手的犯案方式以及如何从密室中逃脱。在一代又一代的侦探小说家的努力下,密室的难度越来越大,从正常人无法进入到所有人类都无法进入,直至正常情况下所有生物都无法进入。然而即便这样,如果严格来说的话,绝对的密室是不存在的,它肯定会有空隙,就算看起来密不透风也从微观的角度找到某些空隙。既然不可能达到绝对的封闭,只能使用相对的概念,对于正常人无法进入的空间都属于密室,否则整个侦探小说界就少了一个很重要的组成部分。  刚接触化学课的时候,接触到了纯净物和混合物的概念,与此同时也提到了,绝对的纯净物是不存在的,即使是再精确的提纯。于是,对于一种物质,只要没有提到存在杂质,默认按照纯净物来看待,否则就不仅仅是几道考试题的问题了,可能整个化学学科的研究都没法开展下去了。例如两种物质发生反应,如果按照实际情况都当作混合物看待,不断的纠结于各种杂质的问题,那就偏离了真正的研究方向。  举了上面两个貌似不相干的例子,想表达的观点就是,和多、少这类的相对概念一样,实际上全也是一个相对的概念,绝对的全也是不存在的。之所以这么说,主要有两方面的原因:  首先,当数据量超过一个范围之后,取得全部信息会很复杂,以至于可能根本是无法完成的任务。如果要获取一个学校所有学生的某个信息,这个很容易,只需要将全校的学生聚集起来一起获取,或者以班级为单位单独获取之后再进行汇总,因为一个学校不管有多大,学生人数都不会太大。而如果要获取全市所有人的某个信息呢,这似乎就是不可能的了:如果在大街上随机询问,对于那些不出门的宅男、宅女们的信息就没法获取;如果挨家挨户进行询问,对于那种经常不在家的就不太容易能遇到,而且那种无家可归的流浪汉的信息也没有办法获取;如果通过电话询问,也肯定有因为某种原因无非接电话的人,或者看到是陌生号码就是不接的;也许互联网可以解决这种问题,但肯定有那种一心只跳广场舞、对网络世界一窍不通的大爷、大妈们,就算是网络一族,也有可能因为不关注或者不感兴趣而对此完全无视。就算可以获取全市所有人的信息,那推广到全省、全国呢。要知道,所谓的所有人,包括那种没有户籍的“黑户”,以及那种隐姓埋名的在逃犯等人群。  就算这个问题可以随着技术的进步得以解决,那么接下来的问题就是在理论上都无法解决的,那就是有些属性是连续的,比如时间、空间的概念。就像无法穷尽(0,1)之间的所有有理数一样,取某个时间范围内所有时间点的某个信息,或者某个空间区域中所有位置的某个信息,从理论上讲都是不可能的,因为所有的数据都只能获取离散的信息点。  综上,获取全部数据,在理论上和实际上都是不可能实现的,那么就只能变通一下。对于第一种情况,可以缩小调查范围,只关注某种类型的信息,毕竟对于另外类型的信息有可能根本没有实际意义,比如电商们不会关注那些从来不网购的人们是怎么想的;同时默认,只要获取的信息量超过总量的一个比例,就认为它是全部数据。而对于第二种情况,可以通过细分相应属性来实现,比如在某个时间范围内每隔0.1秒获取一次信息,就可以认为是全部的时间点,毕竟这基本上是人类的最快反应速度,要知道,百米比赛中发令枪响之后0.1秒之内起跑的也属于抢跑。  当然,随着技术的发展,在数据全面这一点上,会越来越趋近这个目标。尽管离这个目标还有一定的距离,但现在已经默认我们掌握了全部的数据。之所以可以这样假设,是因为所谓的“大数据”,更多的是一种思想,通过这种思想可以得到之前无法得到的结论。  之所以这么说,是因为“大数据”思维和传统的思维有本质的区别。  记得当年学习关于抽样检验相关知识的时候,举过的一个例子,验证一批灯泡的使用寿命,需要随机抽取一定数量的灯泡,通过这些灯泡的测试结果来验证这一批灯泡的合格率大约是多少。由于灯泡在测试完之后就没法再使用了,所以无法采取全量的方式,因为如果那样做的话,最终得到的会是一个绝对正确的结论和一堆废品。  由于上述原因,只能通过抽样的方式进行这样的检验,于是形成了一套抽样检验的理论,包括如果进行随机抽样,以及形成了期望、方差等统计学概念,最终形成了概率论与数理统计这样的学科。  接下来的问题就是,对于那些没被抽样检测的灯泡,它的使用寿命信息就没有实际意义了吗?显然不是。如果通过某种方式可以获取了某工厂生产的所有使用过的灯泡的寿命(以目前的技术,这种信息应该是可以获取的),就可以得到一些可能更有用的信息,比如可以通过找到哪些因素可以让灯泡的使用寿命更长,提高制作工艺从而提升整体的产品质量。当然,这仅仅是最容易想到的,实际上能够获取的信息会更多。  而这种思维方式就是“大数据”的思维方式,它是处理那些已经完成历史使命的数据,在这种海量的历史数据中找出规律,从而对未来进行预测;或者找到相关的影响因素,从而改善方案以达到利益最大化。  数据,和普通的商品不同,并不会随着它的使用而消失;只要有足够的存储空间存放,它便会一直保留着。而“大数据”思维,恰恰是在处理这种已经使用过的数据,并从中获取到想要的信息。也许对于一次交易,只要结算完毕,交易信息就完成了历史使命;对于一次实时检测,只要得到结果并判断是否需要人工干预,检测信息就完成了历史使命;对于一次网络检索,只要找到需要的信息,查询结果信息就完成了历史使命……然而,只要把这些已经完成历史使命的数据都汇集起来,也许会得到意想不到的结果。因为随着数量的累积,它会慢慢的诱发质变。  中国古人有一句谚语:“熟读唐诗三百首,不会作诗也会吟。”西方侦探小说里的人物福尔摩斯也曾经曰过:“你掌握一百个案子的来龙去脉,第一百零一个案子一定不会在你的算计之外。”这两个貌似风马牛不相及的言论,恰恰反映了同一个理论,就是上学的时候政治课上经常讲的“量变到质变”的理论,只要量变达到了一定程度,就会带来质的飞跃。  其实分析一下,道理是一样的:  对于唐诗,只要被创造出来,抒发了诗人的情感,它就已经完成了历史使命。而通过熟读前人的诗词,只要达到了一定的数量(肯定是不止三百首了),以至于几乎熟读过所有前人的诗词,就能够分析出怎样才能写好一首诗,从而创造出新的诗篇来。  对于案件,只要经过调查分析,找到凶手及相关信息,最终结案,它就已经完成了历史使命。而通过研究前人侦破的案件,只要达到了一定的数量(肯定是不止一百个了),以至于几乎研究过所有案件的所有相关信息,就能够获得破案的思路和方法,从而当遇到新的案件时,就可以按照正确的侦破方向进行。  当然,上面的言论有人为拔高的成分,不能这些言论都算作大数据的思维方式,然而所谓的“大数据”思维方式肯定不是凭空产生的,而它的来源其实就是这种“量变到质变”的理论。毕竟,在一定的范围内,没有比全部数据的量更大的数据集了。
  1.1.2 大数据的理念之:兼容不精确  自然博物馆,一游客问馆里的讲解员某个古生物化石距今有多少年,讲解员答曰:“五百万零二十年。”游客不解,问这二十年是哪儿来的,讲解员说:“我刚参加工作的时候,这个古生物化石距今有五百万年;我现在工作了二十年,所以,这个古生物化石距今有五百万零二十年。”当然,这仅仅是个段子。但从另一方面也说明了,当数量超过了一定的范围之后,其精确性已经不重要了。  然而,什么属于精确性呢?  上学的时候应该都听老师讲过这样的故事,说美国挑战者号出现故障即将坠毁的时候,给航天员对自己亲人做最后嘱托的机会。其中一个航天员对自己的儿子说,挑战者号之所以出现故障,就是因为错了一个小数点。当然,正常情况下这个时候老师都会用富含感情的话语表达,就那么一个小小的错误就导致了那么大的灾难,所以在以后的学习生活中,要认真、仔细、严谨……  先不去纠结这个故事是否是中国教育界的原创,仔细想一下,小数点的错误真的是一个小小的错误吗?  小数点本身是不会出错的,没有人会把它写成别的符号。这里说的小数点错误,只有一种可能,就是小数点的位置有误,包括该有小数点的地方没加小数点,以及不该有小数点的地方却加上了小数点,这意味着,整个的数量级都是错误的。而航天相关的计算中,很少使用加减法,更多的是乘、除,以及乘方等运算,这样会导致最终的结果也会出现数量级的错误,而这种错误,与正确结果至少相差十倍。这样看来,这个小数点还能算作小问题吗?  而与此同时,在高中物理课上,关于万有引力相关的部分(包括一些航天相关的),很多情况下的计算结果并不要求十分精确,只要数量级是正确的、并且前面的数值在某个范围内,就算正确,甚至高考的时候都是这样。也就是说,在这种特殊的领域,对于小数点后几位的值,是没必要十分精确的,尽管它的绝对数值也许会很大(如果数量级很大的话,小数点之后很多位所代表的实际数值也会是很大的)。  就像这部分开头的段子那样,对于人来说,二十年是一个很大的数量,人生能有几个二十年呢;但对于远古时期的化石来说,甚至两百年、两千年都是可以被忽略不计的。同样,对于地球上生活的人类来说,一公里是一个比较长的距离,但是在茫茫宇宙,它也是可以被忽略不计的部分。我们会用几万年前、几百万年前或者几亿年前来记录古生物所处的时期,会用光年作为单位去衡量宇宙中的距离,尽管这样的数值是不需要精确到具体多少年或者具体多少公里,但如果年限的数量级、光年前面的整数位数值都是错误的,那这样的数据也就是失去了它的意义。  这就是大数据所谓的不要求精确性,它仅仅是不去纠结于那些被忽略不计的小数点后多少位的具体值;然而,它并不意味着准确性也不做要求,如果整数位、甚至数量级本身就是错误的,那得出的结论就会与实际情况相差很远,也就失去了它的意义和价值。  当然,之所以可以不要求精确性,也是因为“大数据”处理的是历史数据。对于一些正在使用的数据来说,是需要精确性的:银行账户上的金额,以及支付宝、余额宝相关的交易金额,这些都是需要完全精确的,以保证社会的公平;某些观测数据也是需要精确性的,也许小数点后的某一位的区别,都可能得到不同的结果;甚至对于一些医疗相关的数据,也许几毫克的差别都会影响着一个生命是否会消逝;更别说还有其他意义更加重大的数据了。然而,等到“大数据”进行处理的时候,它实际上已经完成了历史使命,那么即使它不是十分精确,至少不会造成严重的后果。  而事实上,当数据量达到一定程度的时候,数据本身就无法保证其准确性了。比如,当每小时只测量一次的时候,可以认认真真、仔仔细细的进行测量,这样的数据可以说是准确的;但如果每几分钟就要测一次呢,就无法保证每一次都非常认真,就不可能十分精确;当每几秒钟就需要测一次的话,人工就无法实现了,必须借助工具,数据的准确程度就与相应的工具息息相关;而如果一秒中要测量多次呢,也许再精妙的工具都无法保证每一条数据都是非常精确的。  各种理论直接往往都是相通的,量子物理学里有一个“测不准原理”,而在大数据领域也有类似的原理,即在测量的密度增大之后,测量值的不确定性就会增加。当然,这并不能阻碍大数据的使用,因为这样的数据之间是可以进行相互印证的。  一般情况下,“大数据”是不会只使用一种数据来源的,它会将多个数据来源进行综合分析,从而实现各数据信息之间的相互印证。而这种互相印证的过程,也是去粗取精、去伪存真的过程,这样一来利用不精确的数据源,反而能够获得更加准确的结论。  不过,这导致了数据的结构化程度降低了。对于传统技术而言,一般处理的都是结构化的数据,即每条记录都有同样的结构,而且几乎包含了所有指标的信息。然而,“大数据”所处理的数据,还包含半结构化或者非结构化的,甚至是图片、音频、视频等非文本的。这也就是相对于传统技术而言,大数据技术的一个飞跃性的提升。  也许在面对这种所谓的“大数据”的情形,很类似一名警官面对一桩复杂的案件。在他的面前有各种线索:有可能让人的消化道不舒服的死者的状态,有现场的情况(包括实地观测及相关的照片信息),有与死者相关的人物信息及与死者的关系情况(主要是利益关系以及是否彼此之间有矛盾),有目击者或者相关人员的证词,有通过法医学测验得出的各种结论,甚至包括现场周围监控录像的内容……最终的目的就是将这些信息整合成一个完整的证据链,发现以及证明谁是凶手。类似的,这些线索中,有跟案件紧密联系的,也有跟本案毫无关系的干扰信息,也有因为种种原因导致的不完全准确甚至完全不准确的信息,甚至也有凶手为了干扰办案人员故意给出的假线索。当处理这些浩如烟海的线索的时候,不仅需要通过单个线索获得相应的结论,还需要将各线索的得出的结论进行综合分析、互相印证,这样才能最终得到正确的结论。  其实人生也一样,一方面,生活本身就是繁杂的(写这篇文章的方式也尽可能符合这一点,即尽可能包罗万象),“结构化”的只是其中的一小部分,更多的是“非结构化”的。  哪怕是仅仅作为一个“码农”,也是一样的:如果只了解所使用的技术,哪怕研究得再深入,那也是一个低层次的“码农”;想要成为一名高层次的“码农”,还需要了解一些看起来跟编码没有半毛钱关系的知识。  我们都知道爱因斯坦作为一名科学家所获得的成绩,而与此同时,他还是一个优秀的小提琴手,在音乐上也有很深的造诣。很难想象,如果爱因斯坦的脑子里只有一个个冰冷的物理公式,他是否还能做出这么大的成绩。  随着信息时代的到来,我们已经不需要陈景润式的人物了,更需要的是对多个领域都有所了解的人才,或者说是“一专多能”式的人才,这样才能整合各领域的信息,在更高的层面上有所建树。  另一方面,生活本身也是不完美的。当然,我们需要有追求完美的精神;但是,如果刻意的追求完美,一味的纠结于各种细节,反而会“因为一片树叶而失去了整个森林”。同样的,精确性是我们的努力的目标,但我们应该清楚,绝对的精确是不存在的。
  1.1.2 大数据的理念之:兼容不精确  自然博物馆,一游客问馆里的讲解员某个古生物化石距今有多少年,讲解员答曰:“五百万零二十年。”游客不解,问这二十年是哪儿来的,讲解员说:“我刚参加工作的时候,这个古生物化石距今有五百万年;我现在工作了二十年,所以,这个古生物化石距今有五百万零二十年。”当然,这仅仅是个段子。但从另一方面也说明了,当数量超过了一定的范围之后,其精确性已经不重要了。  然而,什么属于精确性呢?  上学的时候应该都听老师讲过这样的故事,说美国挑战者号出现故障即将坠毁的时候,给航天员对自己亲人做最后嘱托的机会。其中一个航天员对自己的儿子说,挑战者号之所以出现故障,就是因为错了一个小数点。当然,正常情况下这个时候老师都会用富含感情的话语表达,就那么一个小小的错误就导致了那么大的灾难,所以在以后的学习生活中,要认真、仔细、严谨……  先不去纠结这个故事是否是中国教育界的原创,仔细想一下,小数点的错误真的是一个小小的错误吗?  小数点本身是不会出错的,没有人会把它写成别的符号。这里说的小数点错误,只有一种可能,就是小数点的位置有误,包括该有小数点的地方没加小数点,以及不该有小数点的地方却加上了小数点,这意味着,整个的数量级都是错误的。而航天相关的计算中,很少使用加减法,更多的是乘、除,以及乘方等运算,这样会导致最终的结果也会出现数量级的错误,而这种错误,与正确结果至少相差十倍。这样看来,这个小数点还能算作小问题吗?  而与此同时,在高中物理课上,关于万有引力相关的部分(包括一些航天相关的),很多情况下的计算结果并不要求十分精确,只要数量级是正确的、并且前面的数值在某个范围内,就算正确,甚至高考的时候都是这样。也就是说,在这种特殊的领域,对于小数点后几位的值,是没必要十分精确的,尽管它的绝对数值也许会很大(如果数量级很大的话,小数点之后很多位所代表的实际数值也会是很大的)。  就像这部分开头的段子那样,对于人来说,二十年是一个很大的数量,人生能有几个二十年呢;但对于远古时期的化石来说,甚至两百年、两千年都是可以被忽略不计的。同样,对于地球上生活的人类来说,一公里是一个比较长的距离,但是在茫茫宇宙,它也是可以被忽略不计的部分。我们会用几万年前、几百万年前或者几亿年前来记录古生物所处的时期,会用光年作为单位去衡量宇宙中的距离,尽管这样的数值是不需要精确到具体多少年或者具体多少公里,但如果年限的数量级、光年前面的整数位数值都是错误的,那这样的数据也就是失去了它的意义。  这就是大数据所谓的不要求精确性,它仅仅是不去纠结于那些被忽略不计的小数点后多少位的具体值;然而,它并不意味着准确性也不做要求,如果整数位、甚至数量级本身就是错误的,那得出的结论就会与实际情况相差很远,也就失去了它的意义和价值。  当然,之所以可以不要求精确性,也是因为“大数据”处理的是历史数据。对于一些正在使用的数据来说,是需要精确性的:银行账户上的金额,以及支付宝、余额宝相关的交易金额,这些都是需要完全精确的,以保证社会的公平;某些观测数据也是需要精确性的,也许小数点后的某一位的区别,都可能得到不同的结果;甚至对于一些医疗相关的数据,也许几毫克的差别都会影响着一个生命是否会消逝;更别说还有其他意义更加重大的数据了。然而,等到“大数据”进行处理的时候,它实际上已经完成了历史使命,那么即使它不是十分精确,至少不会造成严重的后果。  而事实上,当数据量达到一定程度的时候,数据本身就无法保证其准确性了。比如,当每小时只测量一次的时候,可以认认真真、仔仔细细的进行测量,这样的数据可以说是准确的;但如果每几分钟就要测一次呢,就无法保证每一次都非常认真,就不可能十分精确;当每几秒钟就需要测一次的话,人工就无法实现了,必须借助工具,数据的准确程度就与相应的工具息息相关;而如果一秒中要测量多次呢,也许再精妙的工具都无法保证每一条数据都是非常精确的。  各种理论直接往往都是相通的,量子物理学里有一个“测不准原理”,而在大数据领域也有类似的原理,即在测量的密度增大之后,测量值的不确定性就会增加。当然,这并不能阻碍大数据的使用,因为这样的数据之间是可以进行相互印证的。  一般情况下,“大数据”是不会只使用一种数据来源的,它会将多个数据来源进行综合分析,从而实现各数据信息之间的相互印证。而这种互相印证的过程,也是去粗取精、去伪存真的过程,这样一来利用不精确的数据源,反而能够获得更加准确的结论。  不过,这导致了数据的结构化程度降低了。对于传统技术而言,一般处理的都是结构化的数据,即每条记录都有同样的结构,而且几乎包含了所有指标的信息。然而,“大数据”所处理的数据,还包含半结构化或者非结构化的,甚至是图片、音频、视频等非文本的。这也就是相对于传统技术而言,大数据技术的一个飞跃性的提升。  也许在面对这种所谓的“大数据”的情形,很类似一名警官面对一桩复杂的案件。在他的面前有各种线索:有可能让人的消化道不舒服的死者的状态,有现场的情况(包括实地观测及相关的照片信息),有与死者相关的人物信息及与死者的关系情况(主要是利益关系以及是否彼此之间有矛盾),有目击者或者相关人员的证词,有通过法医学测验得出的各种结论,甚至包括现场周围监控录像的内容……最终的目的就是将这些信息整合成一个完整的证据链,发现以及证明谁是凶手。类似的,这些线索中,有跟案件紧密联系的,也有跟本案毫无关系的干扰信息,也有因为种种原因导致的不完全准确甚至完全不准确的信息,甚至也有凶手为了干扰办案人员故意给出的假线索。当处理这些浩如烟海的线索的时候,不仅需要通过单个线索获得相应的结论,还需要将各线索的得出的结论进行综合分析、互相印证,这样才能最终得到正确的结论。  其实人生也一样,一方面,生活本身就是繁杂的(写这篇文章的方式也尽可能符合这一点,即尽可能包罗万象),“结构化”的只是其中的一小部分,更多的是“非结构化”的。  哪怕是仅仅作为一个“码农”,也是一样的:如果只了解所使用的技术,哪怕研究得再深入,那也是一个低层次的“码农”;想要成为一名高层次的“码农”,还需要了解一些看起来跟编码没有半毛钱关系的知识。  我们都知道爱因斯坦作为一名科学家所获得的成绩,而与此同时,他还是一个优秀的小提琴手,在音乐上也有很深的造诣。很难想象,如果爱因斯坦的脑子里只有一个个冰冷的物理公式,他是否还能做出这么大的成绩。  随着信息时代的到来,我们已经不需要陈景润式的人物了,更需要的是对多个领域都有所了解的人才,或者说是“一专多能”式的人才,这样才能整合各领域的信息,在更高的层面上有所建树。  另一方面,生活本身也是不完美的。当然,我们需要有追求完美的精神;但是,如果刻意的追求完美,一味的纠结于各种细节,反而会“因为一片树叶而失去了整个森林”。同样的,精确性是我们的努力的目标,但我们应该清楚,绝对的精确是不存在的。
  1.1.3 大数据的理念之:更加关注相关规律  在这一点上,我们的维克托同学给出了一个“标新立异”的观点,即只关注关联关系,不关注因果关系。这也许是很多人,包括翻译那部作品的那位同学,坚决持反对态度的一个观点。然而,是不是我们没有理解作者的意图呢?  经过了八年的豌豆实验,孟德尔先生发现了遗传学的两大定律:分离定律和自由组合定律。而此时他发现的仅仅是关联关系,即对于某一类相对性状,存在显性和隐性,如果将两个不同性状的物种进行杂交,其后代呈现显性性状;而如果将这些呈现显性性状的第二代物种彼此之间进行杂交,其第三代中所呈现的显性性状与隐性性状的比例约为3:1。而至于为什么会是这样,以当时的情况,是无法解释的。  在此之后,科学家们在细胞核内发现的染色体,并在染色体中发现的遗传基因,同时也发现了染色体是成对出现的,以及在细胞的有丝分裂和减数分裂时染色体的状态,甚至发现了遗传基因的载体DNA的双螺旋结构。在此基础上提出的显性基因和隐性基因的理论,从而解释了孟德尔的遗传定律。  然而,这就是根本原因吗?显然不是,至少为什么第二代会呈现出显性基因的性状,这还是一个未解之谜。要想知道这个的原因,需要了解关于DNA的更多的信息,甚至在此之外还有更多需要研究的地方。  而这里的第一部分,我们可以理解成另外一个大数据分析的步骤,通过对海量的数据进行分析处理之后得到了一个关联关系。然后呢,就木有然后了。如果想要知道因果关系,即这个关联关系的相关原理,需要从理论高度进行研究,或者通过其他途径得到其本质原因,而大数据本身对此是无能为力的。  其实很多的科学研究的过程都是这样:先通过一些实验数据得到一个结论或者假说(即上面提到的关联关系),再通过理论推导或者更高层次的研究,了解其本质(即因果关系)。而大数据所扮演的仅仅是先前的实验过程而已。  故曰,之所以说大数据不关注因果关系,是因为它本身是无法得到因果关系的,并不是说因果关系不重要。  由于因果关系需要进行严谨的分析,甚至需要一点点的灵感,它并不是在短时间内能够得到的。而经过大数据的分析,已经基本上可以保证关联关系的准确性,而且其本身还属于“仅供参考”的范畴,直接使用得到的结论,至少结果不会太糟(除非分析方法严重有误)。在追求效率的今天,这种“先斩后奏”还是值得尝试的。  况且,如果没有通过大数据得到的关联关系,对于相关因果关系的探求就没有了方向。所以说,大数据仅仅是第一步,唯一的区别就是,在没有得到因果关系之前,相应的结论就可以放心大胆的使用;而对于相应的因果关系,那是给想要获得诺贝尔奖的人们准备的。  当然,上面的例子是有关自然科学方面的,而对于社会科学方面,情况会更加复杂。  依在下的愚见,社会学中的结论,只有规律,无法找到本质的原因,因为人的行动本身就是复杂的、不确定的,它跟自然科学的严谨性、必然性是有区别的。就像大数据中的一个经典案例,在季节性飓风来临之前,一种蛋挞的销售量会增加。而这个结论只能说明,在那个时期,某一部分人更想要购买蛋挞这种食物,至于为什么他们会做出这种选择,可能每个人都会有各自的原因。而这个结论肯定是有地域性的,至少它仅仅在西方有效,对于在中国的沃尔玛超市肯定不会使用这个结论。尽管自己也是生长于大城市里的,而且也尚属年轻,但对于蛋挞这种食物,也仅仅是在广告中遇到过;对于自己的长辈来说,可能根本不知道这个世界上还有那么一个东东,更别说那些小城镇、甚至乡村里的人们了。当然,如果非要在咱们中国使用这个结论也未尝不可,因为这里不会出现飓风。在这里,这种类似的灾难性气候的学名叫做“台风”。  就跟上面的例子一样,往往通过大数据获取的结论都是让人匪夷所思的,或者跟人们正常的观点不同的,甚至有可能是“毁三观”的。毕竟,如果所有的结论都和使用传统的方式得出的结论类似,大数据本身就没有存在的意义了。
  在此声明,下面的例子都是我个人的观点,未经过大数据的验证。只不过在我看来,如果使用大数据进行分析的话,很有可能得到类似的结论。  近几年,出现了很多关于富二代的负面新闻,比如早期的“七十码”事件,以及后来的“我爸是李刚”事件,包括文艺界的李某某事件、龙公子事件,这几个富二代中的熊孩子完全玷污了他们所在的这个群落。于是各大媒体都开始关注富二代教育的问题,然而,最需要关注的是这类人群吗?  再往前推几年,出现了一个马加爵事件,但由于仅仅是一个孤立,更多的是对其本身的关注,并没有推广到对所谓的“穷二代”甚至“穷N代”的教育问题。然而在我看来,教育工作者们更应该关注的反而是这些人。  不知道是我的经历特殊还是其他原因,至少在我上学的那个年级,那些成天在网吧包宿打游戏最终导致“大红灯笼高高挂”的,基本上都是贫困生,而且绝对不是那种伪造的。其中我寝室里就有那么一位,来自河南(客观情况,没有特殊含义)农村,平时吃的都是最便宜的白菜豆腐,据说家里还有一个弟弟和一个妹妹,还指望他毕业之后能供他们读书。然而就是这样一个家庭条件的,最终却因为这个原因导致需要延期毕业。我班还有几个类似的同学,基本上也都属于贫困生,那种中产阶级出身的反而不存在这种情况。  尽管我们已经摆脱了那种“越穷越光荣”的思维模式了,但在大多数人心目中,那些从穷山沟里出来的孩子,都是那种吃苦耐劳、勤奋刻苦的典型,不会出现沉迷网络的情况;反而那些蜜罐里泡大的孩子,从小娇生惯养,出现这种情况不足为奇。然而事实很有可能是相反的,有些“毁三观”,但如果通过大数据分析之后的结论真是这样的话,也许我们的教育理念真的要改一下了。  当然,最近也有人提出了“为啥寒门出不了贵子”这样的问题,这也许是个好的开始。既然“寒门出贵子”这样的情况已经越来越少了,对于这种好不容易进入高等学府的“穷N代”们,作为教育工作者,还是多关心一下更好。如果能够早期进行相应的心理疏导,也许马加爵的悲剧就不会上演。  好了,不提这么沉重的话题了。  每年毕业季到来的时候,是毕业生忙碌的时候,同时也是各大用人单位忙碌的时候。对于如何挑选毕业生,最传统的方法应该就是看成绩,然后就是所谓的综合素质。然而,对于综合素质方面,往往凭借的就是面试官的感觉;相比之下,作为实实在在的存在,成绩往往是一个很重要的标准。然而,成绩真的那么重要吗?  当然,自己没有做面试官的权限,这里也只能自己YY一下:如果我是面试官,我会选择什么样的毕业生。这里做几个限定:首先,做的是校园招聘,所有参加面试的都是来自同一所高校;其次,招聘的职位是软件开发,即传说中的“码农”,主要原因是其他领域的我也不了解;同时,由于职位原因,所有参加面试的都是理工科出身。  在这个前提下,我会给出这么几个选择方法:  首先,正常情况下,不要女生。也许这句话会引起女权主义者的口诛笔伐,不过这里声明一下,我的理由跟你们想的不一样。这里绝对没有诸如产假这样的原因,最主要的原因是,作为软件开发人员,需要很强的逻辑思维能力以及理性的思维模式,而在这方面,女生普遍是不擅长的。当然,并不是说女生不能从事这类工作,如果天生是个女汉子,天生喜欢用男性的思维模式考虑问题,这就属于非正常情况。此外,即使这样,也不是说女生不能进入IT公司,因为除了开发工作,还会有类似需求、测试,甚至管理工作,这些都是男女平等的;对于单纯的开发工作,还是让女人走开为好。  其次,正常情况下,不要研究生。这里不是给公司节省成本,完全是因为,在这个领域,研究生真的没有本科生好用。自己也带过几个刚毕业的小孩儿,一般思维活跃的、有创造性的都是本科生;而研究生,效果就没有那么好了;同时在我所在的部门,所有的技术骨干(厚着脸皮把自己也算在内),他们的学历也都是本科。  最重要的一点,那种成天“不是在上自习,就是在上自习的路上”的所谓学霸级人物,坚决不要。其实前两点也可以包含在这一点之中:由于世界性的“男孩危机”,导致即便是理工科院系,前几名的往往也都是女生,而且学霸中多数都是女生;而在研究生方面,至少在传统认识里,研究生中学霸的比例更高(当然,还有连学霸都不如的,这句话是不是有点儿“学历歧视”呀)。或许,第三点是本质,前两点是典型表现吧。  自己最倾向于招聘的条件是:成绩中等,各科成绩从60分到90分(如果90分的都是类似外语、马哲这样的科目,也不予考虑)各分数段都包含;平时不怎么学习,喜欢研究课外的知识;有自己独特的见解,不迷信权威。当然,之所以制定这样的标准,是因为本人当年就是这样的。  软件开发,这个偏技术的职位,在传统理念上来看,可能是成绩更好的人会更适合。然而事实很可能是,即使是这种岗位,学霸们也是不适合的。  某有关部门做过一个调查,在这些年各省的高考状元中,在毕业后各领域中做出成绩的人数几乎为零,即使是在学术研究领域。还有曾经中国科技大学的那个神童班,最终做出成绩的只有一个,而且是当时最不出奇的一位;而当时最出名的宁铂,最终皈依了佛门。  没准,经过大数据的分析,会发现,这个社会中最不需要的恰恰是学霸,尤其是有中国特色的学霸,这个最适应目前我们的教育制度的类型。也许,西方的学霸们还可以在实验室中实现自己的价值,而中国特色的学霸们,可能真的只适合呆在考场。  如果结论真的是这样的话,这个结论不仅能够帮助用人单位选取毕业生,还能够修正教育理念,可谓功德无量。  当然,以上仅仅是本人自己的看法,没有任何依据,只是感觉如果通过大数据进行分析,得到的很有可能就是类似的结论而已。而之所以写了那么大一个篇幅,主要目的就是要说明,通过大数据获得的结论很有可能跟传统理念的相反。而这恰恰就是大数据的作用,毕竟传统观念并不都是真理。虽然不能说大数据分析的结论就是绝对真理,但它至少提供了一个方向,指引这人们向正确的道路上偏移,这就足够了。
  1.3 为啥要使用大数据  经过上面的描述,可以了解到,所谓的“大数据”,并不是在于它的数据量有多么大,而是通过对相对全量的、繁杂的数据进行分析,找出相关的规律,从而实现对未来的预测,或者用来改善原先的方案。这就是我们使用大数据的原因。  还是回到上面那个“伪基站”的例子吧,只要得到了全部的数据——包括某个区域内、某个时间段内所有的手机信息,就可以分析出,在哪个区域、哪个时间段,有人安装了“伪基站”,由此,我们就可以预计出,近期在哪个区域使用这种“伪基站”的可能性较大,从而更有针对性的进行执法;或者可以通过这些信息找到某规律,比如哪些指标出现异常的情况说明该区域使用了“伪基站”,以后再出现这种情况就可以在第一时间采取行动。  尽管通过大数据得到的结论并不是百分之百准确的,但它至少指明了一个大方向,这总比像没头苍蝇一样满城市里乱找要好得多。更关键的是,如果能够利用大数据的思维完成这套系统,使其预测的成功率达到一个很高的水平,并且能够较短时间内得到相应的结论,骗子们被逮到的可能性变得很高,没准他们就不会再选择这种“高危行业”了。可以说,若能做出这样的系统,对于黎民苍生、江山社稷,都是一件功德无量的事情。当然,骗子们会恨死你哒。
  教主大才,千秋万代,一统江湖
  1.5 大数据与“码农”  当然,关于大数据能够在多大程度上造福人类,或者在多大程度上能够从中获得利益,那是有关部门以及某些资本家们的事情,所谓的“肉食者谋之”。对于我们这些生活在社会底层的劳动人民,更多的还是考虑一下自己的生计问题更实际一些。  随着大数据时代的到来,对于“码农”这个群体,有人认为将会是一个很大的机遇,能够从中得到一个大展拳脚的机会;而还有一些人认为这将会是一个很大的挑战,传统的技术将会逐渐被淘汰,而某些跟不上形式的也会随之一起被淘汰。  然而,用脚后跟好好想一想,事实真的是这样吗?  随着技术的不断进步,我们能够获得更多的数据,并且越来越多的数据能够被保留。然而,保留再多的数据,它也仅仅是数据,并没有体现出它的价值。就算是保存了几万年,它的价值可能还不如你自己在那个时候的价值(如果你变成了化石的话),它需要进行分析处理之后才能展现出自己的价值。而问题就出在这里。  关于大数据的处理,有一个很明显的特点,就是其不确定性:我们不知道通过它能够得到多么“毁三观”的结论,也不知道什么时候能够得到这个结论,甚至不知道能不能得到这个结论。这就跟传统的开发领域背道而驰,要知道在传统的生命周期型的开发模式,需要所有的步骤都在一个可控的范围内,尽管实际情况往往不是这样的,但如果长时间无法得到一个相应的产品,就不会有人再愿意往这里进行投入了,除非是陷在其中无法自拔的。  如果把这套思路沿用的大数据领域,就会衍生出一个很诡异的逻辑:大数据会带来很大的收益,所以需要一些投入用于开展数据的分析处理工作;然而什么时候能够带来收益、需要在这上面做多大的投入,这一切都是未知的;未来的收益这张大饼,很大、很圆,高端大气上档次,然而它毕竟是画出来的,没准跟某些2B领导对其员工的承诺一样不靠谱。面对着这一切不确定因素,作为一个理智的“经济”人来说,会做出什么样的决定呢。结论是很明显的:除了一些灰常具备冒险精神的,或者一些财大气粗不在乎这点儿投入的人,正常人是不会在这方面进行投入的。毕竟,就算真能够得到那么巨大的收益,那也是未来的事情;而现在的投入那可是真金白银,花掉这种辛苦赚来的钱,没有人会不心疼。这就类似你们人类都知道吸烟有害健康,但烟鬼们却很少能戒掉烟瘾的。  目前做大数据业务的公司,无外乎就那么几种类型:要么是一个或一群有创意并有冒险精神的人组织的团队,要么就是像百度这样的大型公司,要么就是政府机构组织的。对于做传统业务的公司,不是谁都有勇气介入大数据领域的。也许很多公司都在推广与大数据相关的hadoop技术,但这和大数据行业没有半毛钱关系。
  1.5.1 大数据意味着更高的标准  之所以很多公司都在不懂装懂般的推广大数据的相关技术,是因为随着数据量的逐渐增大,一些传统的技术多少有些hold不住了。  作为一个“码农”,正常情况下每时每刻都在接触数据:在金融、保险等领域,会接触到交易信息等数据;在电信领域,会接触到基站信号强度等数据;在互联网领域,会接触到点击次数、登陆时长等数据。不过,对于传统的开发来说,所处理的数据量并不是很大,而且基本上是实时的,并且数据本身也基本上属于结构化的。然而,随着业务量的增加,数据量开始飞速增长;同时,一些结构化程度相对较低的数据也出现。这就给传统的技术领域带来了一下困扰。  在传统技术中,诸如oracle(本意为神谕,不知道被那位仁兄给翻译成了甲骨文)这样的关系型数据库一直大行其道,可以说如果不懂SQL语句,根本不好意思跟别人说自己是IT公司的。长期以来,它都是比较给力的,主要原因在于:数据量相对较小,以及数据的结构化程度较高。然而由于它的处理机制,导致的它在处理大数据的时候出现了瓶颈。  于是,一些类似hadoop、NoSQL等高科技手段应运而生,以满足大数据的需求。  由于长期以来“软件民工化”的趋势,新技术越来越呈现其“傻瓜型”属性,即它去除了很多繁杂的部分(比如内存管理这种恼人的问题),并形成了一套标准化的模板,通过它,一个刚接触的新人都能够很快的上手。这一方面的一个最明显的特征就是,很多情况下,一个刚毕业的小孩儿写出来的代码和工作很长时间的老头儿写出来的代码,没有太大区别。同时,一下相配套的工具也大行其道,方便了开发及调试。在这一点上,那些大数据相关的技术手段也是类似的,这很容易让人们误认为,掌握大数据领域的开发是一件很容易的事情,而那些高级的技术人员已经不重要的,只要对相关技术有一点儿了解,懂一点儿相关的开发语言,就完全可以胜任这种开发的工作。然而,事实真的如此吗?  在传统的技术领域中,作为开发人员,准确性、性能、稳定性、易用性、可扩展性,这些都是需要在考虑范围之内的,虽说不属于“排名不分先后”,但至少没有可以被完全忽略掉的因素。在大数据领域其实也一样:尽管大数据不追求精确,但起码的准确性还是需要的;虽然对于大数据的处理,不可能是分分钟就能完成的,但如果是需要以年为单位,那会也让人随时受不了;大数据并不是一个静止的概念,它会实时的追加新的数据,如果一有新数据就hold不住,或者一有异常的数据就无法正常使用,那也不是好的系统;不管什么性质的系统,都是给人用的,正常情况下没有哪个系统是只能由少部分高素质的人使用,即便如此,如果使用方法灰常繁琐的话,也没有人愿意使用;如果仅仅是加一个很小的新的分析算法,就需要重新进行开发,那也不算一个好的系统。就像没有人会相信一个初中数学都没学好的家伙能研究明白微积分一样,别跟我提爱因斯坦小时候的故事,人家小爱同学当年仅仅是动手能力比较差而且,他的学习成绩是很perfect的。  也就是说,大数据领域中,对“码农”的要求并没有降低;相反,由于数据量的增加,想要兼顾上面的要求,会比传统领域的难度更大。至少我是不相信,那种写出的代码在处理几万条数据的时候下都“根本停不下来”的主儿,他写出的代码能在较短时间内将大数据分析处理完;或者一个只会“Ctrl-C”+“Ctrl-V”的主儿,他能够实现大数据分析过程中很精妙的算法。  其实,对于那些大数据技术,它仅仅是工具,属于硬件范畴内的;能否获得需要的效果,关键还在于使用工具的人,即软件层面上。举个不太恰当的例子,它就好比手枪,对于那种不会使用的或者总是打不准的人来说,它的作用甚至不如板砖、菜刀、警棍;随着技术的进步,现在也有了高精狙,不需要进行校准,但估计如果我这样的人使用的话,脱靶的可能性还是极高的。  关于硬件层面和软件层面的问题,举一个简单的例子就能够说明。比如某个人想以从家里出来到附近的车站,他可以使用不同的方式:可以直接两条腿走过去,也可以像柯南那样使用滑板滑过去,也可以像怪盗基德那样使用滑翔翼飞过去;从另一方面,也可以有多种方式:可以走最短的路线,也可以绕小区一圈从较远的那一边过去,也可以走相反的方向以证明地球是圆的。前面一点属于硬件层面,在技术领域对应的是服务器的配置情况,包括集群相关的情况;而后一点就属于软件层面,在技术领域对于的是算法的实现。如果算法的实现方式很坑爹,效率低下并且极其耗费服务器资源,这个时候还在埋怨服务器配置不够;这在上述事例中就相当于某人正在试图证明地球是圆的,却还在埋怨没有给他滑翔翼。  当然,这仅仅是基于效率方面的一个例子,其他方面也是类似的。  现在还有人觉得大数据领域的开发是一件很简单的事情了吗?  没错,在大数据时代,尽管有高科技的工具进行辅助,但更多的还是要依靠人才,依靠那种高水平的研发人才。所以说,它并不是那种不适应传统开发领域的人们的避难所,而是一个更高层次的平台。所以,那些想在这个领域中大展身手的人们,还是先把自身的能力提升了之后再说。
  1.5.2 传统技术不会消亡  设想一个场景,一家银行要开展一个新的业务,需要做一套系统来处理这个新业务。此时,某位大数据的拥趸者通过一顿忽悠,获得了做这套系统的资格。于是他就全面使用大数据的思维方式,带领团队对这套系统进行设计、研发,最终经历千辛万苦做出了相应的系统。那结果会是什么样子的呢?  也许这就是一个普通的计费系统,需要每一笔交易都很精确。然而,由于是大数据思维,不去“纠结”这种精确性,每一笔交易都只追求数量级层面的准确,那结果肯定是一塌糊涂。那些占到便宜的交易者肯定是不会有什么意见的,但吃亏的交易者肯定会有所不满;而且,其交易量如果比较频繁的话,每个交易者其实都有占到便宜或者吃亏的时候,而作为一般人来说,占便宜的时候会选择性无视,而吃亏的时候就很有可能发飙。当然,那些人不会找开发这套系统的人,而是直接去找银行算账,然后选择彻底告别这加银行。  但是不要忽略了,银行是会来找这个人算总账的,因为在这种情况下,银行是最大的受害方。撇开客户流失这一点不提,就单看这个事件的直接影响:那种来找事儿的肯定都是吃亏总数大于占便宜总数的,来闹事的目的都是从银行那儿讨回自己的损失;而那种占便宜总数大于吃亏总数的,那种境界高到主动交付自己不当得利的人应该不多,  而如果想把这些人都找出来,也是一个大的工程,也许所需要的成本比当前损失的还要高。不要以为银行就不差钱,一个很明显的例子,如果取款机少吐了钱,可以跟银行的客服说哪儿哪儿的取款机多吐了多少钱,这样他们肯定会在第一时间赶到现场,没准比警车还快。  举上面的那个例子,想说明的就是,不管社会怎么发展,在某些领域还是需要有精确性的,或者说大数据不可能完全占领所有的技术领域。  现代物理学有了很大的发展,出现了量子力学等高端的科学,但是对于我们平常的生活来说,所用到的物理学知识更多的还是牛顿的经典力学;同样,在数学领域,尽管微积分、拓扑学这种学科已经有了很大的发展,但在平时生活中,所用到的还是最普通的加减乘除。  在社会学科中也一样,尽管现在的机械化生产使得农业生产效率有了很大的提升,但依然存在着铁器牛耕的生产方式(刀耕火种的方式有没有了不清楚),而且美其名曰绿色食品,反而成为了高档的产品;尽管早就已经进入了大工业时代,采取了自动化流水线生产,但人们喜爱的一些类似驴牌(LV)的奢侈品,还都是通过最传统的手工方式生产的。  同样,尽管大数据时代到来的趋势无法避免,但这并不意味着传统技术会被彻底淘汰。所以说,对于那些无法融入大数据领域的“码农”们,无论是因为原先的思维模式已经根深蒂固了,还是因为上了年纪不愿意接受新的事物,都没有必要悲观失落,因为传统的技术和思维模式永远不会消亡。没准在一段时间之后,反而会成为稀缺资源。  更重要的一点是,对于“码农”来说,技术本身并不是最重要的,更重要的是是否具备缜密的逻辑思维能力。具一个很简单的例子就可以,对于开发者来说,重要的不是判断语句或者循环语句该如何写,而是知道“什么时候该用判断语句,判断条件该怎么设定,或者什么时候该用循环语句,循环的条件该怎么设定,什么情况下可以跳过或者跳出循环”等这类逻辑性问题。  讨论什么技术最好,实际上它跟讨论中国武术和外国的各种搏击术哪个更厉害一样无聊。武术本身没有高下之分,只有练武人的水平有高低;同样,各种技术之间没有好坏之分,只有哪些技术更适合哪些领域,以及使用技术的人的水平有高低。也许像我这种体格的人,就算练会了降龙十八掌、乾坤大挪移也照样会被人KO掉;同样,用再好的技术手段,让程序依然“根本停不下来”,那也不是一件很困难的事情。  可以安心的是,在一般情况下,那种在传统技术领域中游刃有余的高手,在大数据领域也不会做的很差;而那种在传统技术领域都懵懵懂懂的菜鸟,在大数据领域能够做出成绩,那也基本上属于神话。  而是否介入大数据领域,迎接新的挑战,那完全取决于自己的选择,没有必要跟风,也没有必要因为自己无法在大数据领域立足而感到前途渺茫。
  1.6 大数据不是万能的  大数据会将对人们带来很多好处,这应该是一个不争的事实,甚至它已经给人们带来了好处:谷歌通过它进行了流感的预测,使得相关部门可以早期介入,以控制其蔓延,如果继续研究下去,没准连埃博拉病毒都可以进行早期预测,避免出现当年类似“非典”的灾难;沃尔玛通过它对货物组合进行了重组,比如将啤酒和尿不湿放在相邻的位置,尽管这么做的目的是出于商业性的,但不可否认它也为消费者提供了方便。然而,是否可以说,大数据就是可以解决所有问题的“万能钥匙”呢?  随着信息化时代及互联网时代的到来,人们获取信息的途径越来越方便,能够获取的信息量也越来越大,这也直接促进了大数据领域的发展。然而,它的弊端也慢慢的显示出来了。  首先,随着信息量的增加,人们逐渐对篇幅长的信息失去了耐心,信息碎片化的趋势越来越严重。由于微博、微信等工具的出现,这种情况也愈演愈烈,往往对超过一千字的文章就不愿意去拜读,更倾向于去看140字以内的文章,甚至仅仅去看图片或视频。这有一种返璞归真的感觉,印象里小时候的自己就是这么干的。当然,造成这样的原因是多元的,但对于大多数人来说,面对着海量的信息的那种茫然不知所措,应该是主要的一个原因。  这就引发了更大的一个弊端,那就是,随着信息量的增加,信息本身的“质”却在整体下降。这应该是一个无法避免的情况,因为信息量之所以增大,主要是信息源的增加,而信息源本身却是良莠不齐的。即便是不歪曲事实,以不同的立场、视角来看待,得出的结论很有可能是截然不同的,甚至是完全相反的。而如何从这些繁杂的信息中获取到真正有价值的信息,那绝对是一种考验。  所以,不要以为信息量大就一定是好事。要知道,好莱坞史上最大的悬案“黑色大丽花”之所以没有被侦破,并不是因为没有人最终认罪,反而是因为认罪的人太多了。只有那些真正有价值的信息才属于多多益善的;而那种无意义的,或者有误导性的,甚至是错误的信息,还是少一些为妙。  当然,我们可以认为,如果能够分析出哪些信息是真正有价值的,并且以这部分有价值的数据作为原料,进行大数据处理,就可以得出放之四海而皆准的结论。然而,大数据真的有那么神吗?
  1.6 大数据不是万能的  大数据会将对人们带来很多好处,这应该是一个不争的事实,甚至它已经给人们带来了好处:谷歌通过它进行了流感的预测,使得相关部门可以早期介入,以控制其蔓延,如果继续研究下去,没准连埃博拉病毒都可以进行早期预测,避免出现当年类似“非典”的灾难;沃尔玛通过它对货物组合进行了重组,比如将啤酒和尿不湿放在相邻的位置,尽管这么做的目的是出于商业性的,但不可否认它也为消费者提供了方便。然而,是否可以说,大数据就是可以解决所有问题的“万能钥匙”呢?  随着信息化时代及互联网时代的到来,人们获取信息的途径越来越方便,能够获取的信息量也越来越大,这也直接促进了大数据领域的发展。然而,它的弊端也慢慢的显示出来了。  首先,随着信息量的增加,人们逐渐对篇幅长的信息失去了耐心,信息碎片化的趋势越来越严重。由于微博、微信等工具的出现,这种情况也愈演愈烈,往往对超过一千字的文章就不愿意去拜读,更倾向于去看140字以内的文章,甚至仅仅去看图片或视频。这有一种返璞归真的感觉,印象里小时候的自己就是这么干的。当然,造成这样的原因是多元的,但对于大多数人来说,面对着海量的信息的那种茫然不知所措,应该是主要的一个原因。  这就引发了更大的一个弊端,那就是,随着信息量的增加,信息本身的“质”却在整体下降。这应该是一个无法避免的情况,因为信息量之所以增大,主要是信息源的增加,而信息源本身却是良莠不齐的。即便是不歪曲事实,以不同的立场、视角来看待,得出的结论很有可能是截然不同的,甚至是完全相反的。而如何从这些繁杂的信息中获取到真正有价值的信息,那绝对是一种考验。  所以,不要以为信息量大就一定是好事。要知道,好莱坞史上最大的悬案“黑色大丽花”之所以没有被侦破,并不是因为没有人最终认罪,反而是因为认罪的人太多了。只有那些真正有价值的信息才属于多多益善的;而那种无意义的,或者有误导性的,甚至是错误的信息,还是少一些为妙。  当然,我们可以认为,如果能够分析出哪些信息是真正有价值的,并且以这部分有价值的数据作为原料,进行大数据处理,就可以得出放之四海而皆准的结论。然而,大数据真的有那么神吗?
  1.6.1 大数据的概率属性  当大数据彻底进入千家万户的时候,有一个领域肯定会介入其中,那就是所谓的“成功学”。到时候,各大“砖家”都会打着大数据的幌子,通过具体的数据作为依据,以阐述他们所谓的观点,其目的和现在没啥两样,就是通过忽悠使得自己赚得盆满钵满。  有些理智的人们都知道,目前所有的“成功学著作”,都是忽悠无知者的,其价值跟小品中白云的《月子》没啥区别,只能用于糊墙。如果这种骗小孩的玩意儿配合上大数据,它就会有实际的价值了吗?  确实,大数据能够进行相应的分析,比如将某个领域古今中外所有的成功人士有生之年的所有经历(包括华盛顿小时候砍树的经历)都统计出来,配上该领域所有的loser的所有经历,从而找到相关的规律,最终得出该领域的成功与哪些因素有关,或者说该领域的成果者需要具备什么样的条件。  应该承认,在不久的将来,这个是完全可以实现的,甚至包括“能够成功逃脱法律制裁”需要什么条件都能分析出来。但是,就算分析出了这些,它真的有用吗?  马云只有一个,然而在那么大的中国范围内,和马云有类似的个人素质、类似的想法、类似的冒险精神、类似的经历,这样的人可以说会有很多。就算知道了在这个领域中的成功者需要具备什么条件,最终的成功者同样也只能是少数人,至少大多数人是不可能达到这样的高度的。  其实应该把这一点当作一个常识,就是成功只有必要条件。如果不满足某些条件(比如不具备某些素质或能力),就无法获得成功;但并不能说,只要具备某些条件,就一定能够成功。古人曾经曰过的“谋事在人,成事在天”,其实就是这个道理,成功有时候真的需要那么一点儿运气。  当然,我们可以把这种大数据的结论当成自己努力的方向,但是不能将其作为一种必然性的结论。这其实就是大数据的一个缺陷,那就是它的概率属性。  由于大数据本身并不关注因果关系,导致它得到的规律、结论只是表层的,并不是其本质的体现,所以它也不可能满足结论的完全准确,而是以概率的形式出现,即有百分之多少的可能性会出现某个结果。虽然通过技术手段的提升及数据量的增加,可以将这里的百分比提升到一个很高的水平,甚至是百分之九十九点几,但永远无法达到百分之百。  也就是说,在大数据的相关产品中应该做某些奸商在宣传材料上类似的那种声明:“该结论仅供参考,请以实际情况为准。”  正所谓:“盲目相信有风险,结论参考需谨慎。”  这一点举一个简单的例子就可以说明,至少我是坚决不相信,通过任何高科技的手段能够把下一期的双色球或者大乐透的中奖号预测出来。就算能够预测出来,估计也不敢拿出来使用,更不敢当成产品进行推广。因为那样的话,开发出这个工具的哥们,就算上不了A级通缉令,被跨省通缉那是必须的。  当然,我们可以将这种预测的准确性达到一个很高的标准,甚至有可能达到百分之百的准确,但这真的是好事情吗?  其实恰恰相反,大数据带来的最大的灾难,并不在它预测不准确的时候出现,反而会出现在它能够完全预测准确的时候。想象一下,如果一切的事情,都能够预先知道最终的结果,这是一件多么可怕的事情。“绳命”之所以如此“回晃”,就是在于它的不确定性;如果所有者一切都变成了确定的,那“绳命”的意义又在哪里呢?  还是通过一个例子进行说明吧。  四年一度的世界杯,应该是全世界最关注的事件之一。在那段时间里,不管是真球迷,还是伪球迷,都借助着这样的机会,一边享受着世界杯带来的乐趣,一边发泄着自己的情绪。其中的结果竞猜应该是比较大的一种乐趣:跟熟悉的人一起,彼此为自己支持的球队跟别人争吵一番,甚至可以带一点儿彩头,能够增进彼此之间的友谊;跟不熟悉的人一起,发表自己的观点并互相惊喜切磋,能够借此机会认识更多的人。总之,只要不陷入赌球集团的泥沼中,做什么都能够从中获益。然而,之所以能够这样,完全是因为,在比赛结束之前,除了已知最终夺冠的不可能是中国队之外,都是未知的。  如果通过大数据的分析,能够准确的预测出所有的比赛结果,从而预测出最终的冠亚季军,甚至预测出进球、金靴、金手套奖的获得者以及最佳阵容,那世界杯带来的乐趣还能剩下多少。到时候甚至根本就没必要让双方球员在太阳下踢90分钟甚至120分钟的比赛,直接在抽签仪式结束后,各参赛国家的主教练给出23人名单及主力阵容,并将所有参赛队员当前的情况输入计算机,再结合场地、天气、裁判等因素,从而得出每一场比赛的过程和结果,并根据这个结果颁发各种奖项。然后,就木有然后了,所有的球员都可以按照这样的结果选择狂欢庆祝,还是做一个安静的美男子。  确实,这种高科技产品,可以让主办方减少相应的成本,也可以让球员减轻比赛负荷,甚至不用担心受到恐怖袭击或者发生球迷骚乱事件。然而,这样的世界杯还有什么意义呢,又有多少人愿意看这样的世界杯呢?与其看这样的比赛,还不如自己在家里踢实况呢。  所以说,对于世界杯预测这种事情,还是交给章鱼哥、乌贼姐们去吧,高科技领域就不要搀和了。
  1.6.2 大数据更多是在锦上添花  假设我本人开发出了一套系统,将世界上所有乒乓球选手的比赛情况进行分析,得出了非常全面的数据结论,包括发球、接发球可能采取的方式,相持阶段喜欢采取什么策略,扣杀的时候习惯用什么方式,甚至球的飞行方向都能够准确预测出来,比国家队相关工作人员整理出来的情报还要全面。只要有了这样的系统及相关数据,并且得出了上述的结论,那我就是世界上水平最高的乒乓球运动员了,什么世锦赛、奥运会金牌都不在话下。思维正常的人都知道,我这纯属做梦。  确实,在咱们的国球称霸世界的过程中,相关的信息确实起到了一定的作用,但起决定作用的,还是运动员本身的刻苦训练及拼搏精神。像我这种二把刀的水平,就算知道了对方的球路,也照样接不住。  再举一个例子。沃尔玛通过大数据分析,将货物进行合理的排列组合,从而提高了利润。既然是提高,说明他们之前也是盈利的,只是大数据能够让盈利增加了而已。而他们之所以能够盈利,主要原因还是在于产品的质量有保障,从而有一个好的口碑,获得了足够的市场份额。如果不具备这些特点,想通过大数据来实现扭亏为盈,估计不是太可能。想象一下,如果隔壁老王开了个小超市,即使他作再多的排列组合,估计营业额也提高不了多少。也许对于隔壁老王来说,最需要做的是争取更多的客户,而不是仅仅将货物放在合适的位置上。  这一点还有一个更极端的例子,就是通过大数据,能够让三鹿起死回生,不管你信不信,反正至少我是不信。  确实,大数据能够提供很多帮助,但更多的却并不是决定性因素,它只能在一些条件的基础上,才能发挥其效果。换句话说,大数据做的事情,更多的时候是在“锦上添花”,而不是“雪中送炭”。  这样的例子可能比比皆是:通过大数据可以分析出客户喜欢什么样的商品,从而进行个性化推荐,然而就算推荐得再合适,如果商品的质量有问题,或者价格比其他地方的贵很多,那也没有人在这里消费;通过大数据可以找出一个制作工艺中容易出问题的部分,从而可以更有针对性的进行改进,以提高产品质量,但如果所有的步骤都存在问题,而且还都不是可以忽略的问题的话,估计就没必要进行分析了,直接推翻了重新调研没准还更好一些。哪怕是预防和打击违法犯罪行为的领域,也是一样的。就拿文章开头的“伪基站”为例,就算通过大数据能够精确预测到骗子们的行动轨迹,或者能够第一时间检测到“伪基站”的使用,如果没有第一线公安人员的认真执法,也是没有实际意义的。  大数据几乎对各个领域都能够有很大的帮助,这个应该没错;但大数据是否能够起决定性的作用,这个在一帮情况下,答案是否定的。大数据,无论看起来有多么高大上,它所起的作用,更多还是停留在辅助作用层面上。起决定作用的,往往还是那些亘古不变的普世价值,比如货真价实、精益求精等等。
  1.6.3 大数据面对新事物的无奈  “You don’t know love,Far High.”  这句英文是什么意思,估计只要听过龚阿姨某首神曲的,都知道。但是,翻译软件目前还都不了解这句话的真

我要回帖

更多关于 魔域雷索到底多厉害 的文章

 

随机推荐