如何正确理解大数据？

中央处理器(cpu) | AutoCAD | 人生 | 硬盘 | 投资 | 梦幻西游电脑版 | 院校信息 | QQ飞车（游戏） | 魔兽争霸3混乱之治 | PHP | 总决赛 | solidworks | 产品经理 | 机器学习 | 塞尔达传说（游戏） | 卡牌游戏 | 休闲游戏 | 经济 | 刷单 | Xbox One | 游戏开发 | 任天堂 | C4D | 部落冲突（游戏） | 建筑 | HTML | 办公室 | 游戏策划 | 网络直播 | 扫地机器人 | 电源 | centos | 水浒传 | 陶渊明 | 高德地图（amap） | 少数民族 | 女性主义 | ios游戏 | 健身教练 | 尧山 | 移民 | 正则表达式 | 游戏手柄 | 植保无人机 | Spss数据分析 | 婚姻 | 鱼类 | 云主机 | 极限挑战(综艺节目) | 电学 | pdf | ICEY（游戏） | 显卡 | 教育 | 虚拟机 | 率土之滨 | 中国 | 魔兽争霸3冰封王座 | 社会 | 外国人 | CSS | Adobe After Effects | iPad | 航拍 | 智能手环 | 舰队 collection | 化妆 | 炉石传说 | 热血传奇（游戏） | 办公软件 | 职业规划 | 法律咨询 | 哔哩哔哩 | mysql | 书法 | 生辰八字 | 运载火箭 | 网盘 | 环境保护 | 洗发水 | 对联 | 心理咨询 | 家庭 | 金庸小说 | 3D Max | 怪物猎人：世界 | 广告 | 拼多多 | 遗传学 | 义乌市 | 星系 | 计算机专业 | 机械 | 钢铁雄心4 | 恐怖游戏 | 街机游戏 | 地图应用 | 食品 | 谷歌（Google） | 飞机 | 名言 | 艺术 | 社会学 | 央视 | 植物种植 | matlab | OneNote | 任天堂3ds | 护肤品 | 细胞生物学 | 古剑奇谭ol | 美团 | 著作权 | 最终幻想（游戏） | 分子生物学 | galgame | 香港特别行政区 | 300英雄 | 超级机器人大战 | 徐州市 | 刀塔（dota2） | 哈尔滨市 | 按键精灵 | 金庸 | 球球大作战 | 电脑游戏 | 爬虫（计算机网络） | 心理 | 校服 | 马克思主义 | 电视 | Microsoft SQL Server | 道教 | 应届毕业生 | 完美世界（游戏） | 赚钱 | 游戏直播 | 智商 | 声音 | 眼镜 | 创业 | 春节联欢晚会 | 汽车保险 | 洛克王国 | 天涯明月刀 | 乌海市 | 汉服 | 奶茶 | 动画 | 命令与征服：红色警戒2（游戏） | 广州 | 中药 | 演员 | 电气工程及其自动化专业 | 建筑设计 | 日本漫画 | 恐怖黎明 | 软件开发 | 黑洞 | 空调 | 进化论 | 杨紫 | C#编程 | 星座爱情 | 新浪微博 | 超级战队 | 网站建设 | 食物 | 眼睛 | 蓄电池 | 直播 | 天下贰 | 摩托车 | 医疗保险 | 历史人物 | 史莱姆 | 陌陌 | 经济学 | 姓氏 | 英雄传说：闪之轨迹（游戏） | 天下2（游戏） | 烹饪 | 中国历史 | Microsoft Visual Studio | 星际 | 快捷键 | 街头霸王（游戏） | 生存游戏 | 恐龙 | 输入法 | 滑雪 | 上海市 | 勇者斗恶龙（游戏） | 飞船 | 手机游戏开发 | 充电器 | 刺客信条2 | 格斗游戏（ftg） | 火影忍者 | 减肥方法 |

你的位置：网站首页 >> 频道首页 >>数据分析 >>如何正确理解大数据？

如何正确理解大数据？

来源：蜘蛛抓取(WebSpider) 时间：2022-07-04 00:07 标签：关于大数据的来源以下理解正确的是

在百度大数据开放大会上，搞计算机学术理论的怀进鹏校长的演讲犹如给所有听众的一记闷棍，怀校长的学术演讲把大家弄得云里雾里，把所有人弄晕了，现场能够听懂的绝对是少数，可能都会觉得怀校长有点像个外星人一般在那自顾自的演讲。但我作为一个曾经有志从事人工智能研究但失之交臂的又是学计算机毕业的人却越听越兴奋，冥冥中似乎找到了未来的人工智能所能抵达的可能性，那么我现在就尝试把怀教授的演讲转换为人类也能够听懂的语言吧。

1，当前大数据的四大特征：规模大、变化快、种类杂、价值密度低。

其实这理解起来很简单，我们来看新浪微博的大数据，为什么变现那么困难就知道了，新浪微博拥有庞大海量的用户大数据，但用这些行为数据变现却步履维艰，原因就在于微博上所产生的数据不够垂直，涉及面极广，而能够与商业相关的价值就更加难以挖掘了。

怀校长列举了三块内容，百度和谷歌熟悉用户浏览行为，进而提供个性化的搜索。淘宝亚马逊因为熟悉用户购物习惯，可以为用户提供精准的喜好物品。微博和twitter了解用户思维习惯和社会认知，可以为国家和企业提供民众情绪等系列数据。

大数据带给我们在研究以及实践策略上的思维转变。

1，从抽样到全样，大数据的大决定了大而全的特性，在传统工业中教会我们做统计的最大方式就是抽样，诸如系统抽样，分层抽样，定额抽样......，这些统计方法将会在大数据时代越来越不复存在。大数据的信息化可以统计到一切想要统计的数据，将工业时代的统计方法淘汰掉。

我们将会利用技术获得一切想要统计到的数据。

2，从精确到非精确。关于这一点其实也很好理解，我们就拿传统时代的搜索来说，在传统的搜索时代，当我们去查询某个信息时，我们需要得到的是全部的数据，但是搜索引擎则完全改变了我们这种认识，搜索引擎提供的只是前几项内容，而这几项内容则完全满足了我们的信息需求。

搜索引擎其实在做的是一套模糊算法，经过一系列的算法计算，将最优秀的结果带到用户面前，而这种结果上的呈现也颠覆了传统所认知的对于目标的定义，在大数据时代，我们追求的不再是绝对目标，而是一个从宏观趋势下推导出的一些模糊的不精确的未知目标。

我们将追求无限的近似而不是绝对的正确。

3，从因果到关联。而这也直接导致了西方又产生了惊人的言论—“理论已死”，这是继“上帝之死”，“人之死”，“作者已死”“历史的终结"，“哲学已死”后的又一大胆的言论。以往的决策者要想决定某件事，必须参考各种理论，对其中的因果进行判定后才能达成，但是大数据时代则让决策变得更加容易，比如超市大数据可能会用清晰的图表告诉你每当下雨天时，超市里的蛋糕会卖的多，这时候决策者根本不需要知道任何理论，任何因果，只需要在天气预报预测明天将要下雨时提前准备蛋糕就行了。

而这种只依赖相关性不再依赖因果性的决策思想，正在慢慢的渗透到拥有大数据的各行各业，互联网业，零售业，旅游业，金融业......

三，大数据到大数据计算

1，大数据膨胀，如何解决搜索问题？传统的算法在搜索数据时完全没有问题，因为数据量很小，但是当数据海量增长时问题就会凸显出来，用原来的算法去计算肯定是不行的，按照当前最快的硬盘检索速度(60GPS)，线性扫描完1PB（10TB的15次方）的数据需要1.9天的时间，所以当数据海量膨胀时，必须重构算法策略来做数据的处理。百度目前的处理量是一天处理10PB的网页数据，这其中包括了运算和读取，算是目前最好的算法了。

2，大数据膨胀，如何处理算法以及数据的问题？上面提到的是通过改变算法来达到遍历数据的目的，但是在真正处理数据时依然是无法做到高效的，毕竟机器CPU的运算瓶颈摆在那里，算法工程师本质上在做的事情就是在现有的运算条件下，设计出最优方案，来求得最好的结果。

而怀校长告诉我们的这个挑战就是，在大数据的膨胀后，不仅要将原来的算法更换为近似算法，同样还要将数据更换为近似数据，只有二者合力改变才有可能在现有机器运算能力的情况下抵达最优的结果。

同样是说起来容易做起来难，在这样的近似算法以及近似数据的改变下，到底该近似到何种程度，才能够最接近原算法的结果？要知道，在计算机世界里，差之毫厘失之千里，改变的量也许很小，但是如果一旦改错，就会造成巨大的错误结果，稍懂程序的人都知道，几行简短的代码就能让无论CPU运算能力多强的电脑彻底死机，而搜索引擎则更是一个更加庞大的试错工程。

最后，怀校长展示了两个学术前沿发展，第一，是定义易解类问题，从现实应用中找到这类易搜索问题，将之归类并应用于其他实践当中。第二，是将大数据进行小数据处理，寻找转化的精度度量，也就是他之前所说的寻找数据的近似值。

写完这段不禁感慨，其实算法工程师本质上是在机器CPU条件不够的情况下为满足大众需求的博弈，机器的配置条件永远无法跟上人类的需求，而为了满足人类需求，算法工程师们必须绞尽脑汁的去设计在现有条件下能够产出的最优答案，而不是考虑标准答案。而这又让我想到了深蓝电脑击败国际象棋大师的事情，事实上只要是懂一些程序的人甚至连我也都可以写出一套能够击败任何国际象棋大师的算法，只不过要想下完一局棋可能要用尽棋手一生时间都不止，因为CPU的运算速度无法跟上想法。所以深蓝电脑的胜利本质上不是人工智能赢了，而是工程师在设计最优算法的策略上赢了。

此外在大数据计算中，怀校长还讲了大数据运算的三大基础，表示，度量和理解。因为太过专业，解释每一个词都足够用一篇文章来解释，而且还不一定说得清，所以在此略过。

作为学软件工程出生的人，当我看完怀校长对大数据软件的演讲后有一种莫名的伤感，因为我预见到我曾经所学的软件工程必将被大数据全部重构，绝大多数的软件都可能走向为大数据软件，这就好像网页崛起后，网页软件的数量将大幅超过PC软件一样，又像智能手机崛起后，APP软件的数量开始远超网页软件一样，等到硬件设施成熟之后，未来的软件开发也必将会是大数据的天下。追溯软件工程的起源，这是在计算机硬件条件稳定后，为了解决效率问题而从工程学的角度来建立的软件开发方式，分工明确，进度安排明确，和其他工业生产别无二致。但怀校长接下来的演讲中，我们可以窥见到，软件工程有可能会走向另一种模式。

1，如何解决大数据的计算支撑问题？说的简单点就是，大数据处理必然不是一台或者几台服务器就能搞定的小事情，大数据处理需要庞大的硬件支撑，硬件支撑也必然是分布式的设计，那么该如何设计顶层的系统架构才能高效能的满足大数据的处理工作？近似性（Inexact）、增量性（Incremental）和归纳性（Inductive）的3I特征如何被满足？

大数据下分布式硬件如何与软件协同，如何避免扩展失度，处理失效和耗能失控，这些都是令人头大的问题。在系统设计上充满挑战。

2，众包大数据是否可以开发软件？这其实是一个非常疯狂的想法，我是这样解读怀校长的想法的，假设目前我们可以做到众包大数据软件开发，那么情形应该如下：大数据爬行机器根据读取新浪微博的数据，百度指数的数据，百度贴吧的数据，淘宝的交易数据……后，发现了用户的各种情绪以及需求的曲线，软件开发者再根据这些数据的呈现开发出一套软件的模型然后交给运营商放置于云端，而用户再参与进入各种云端产生的软件，在此种产生了各种行为，于是机器再根据这些用户的行为，为软件建模，规划。

这是一种极为精尖交互式数据挖掘技术，前提是解决算法以及存储问题，一切皆有可能。未来的大数据软件将不会是一种固有形态，而是一个不断根据数据自动变化的超级生态，可能不是依靠产品经理推动，而是依靠算法工程师来推动，让用户的需求自然暴露，然后为他们去实现一些功能。

而我从一个更高的哲学层面来看这样的大数据软件建构，如果我们将全人类的群体行为看成是不断运作产生的数据，然后我们某些个体从中把握了某些东西进而产生了各种产品，再回过来看这样的大数据软件架构，其实说到底，这样的大数据软件，其实更像是在将我们的世界还原出来而已，只不过会比人做出来的更快更厉害更加完美。

如果真的能够实现这样的大数据软件建构，那么目前对大数据的某种定义将被完全推翻，在我们眼里大数据不过是用来固定的人类信息行为后为人类辅助的决策工具，这样的观点也将失效。大数据或许会在未来某个阶段被定义为：对人类世界的真实还原，并且不断的满足我们的任何愿望，曾经我们依靠它来决策一些事情，现在我们依靠它来直接抵达我们想要做的事情，我们所有的行为都已经成为我们决策的一部分。

这其实就是超级人工智能了。

结语：怀校长的演讲在开头部分讲了大数据在这个时代对我们传统思维的冲击，一些价值观的建立，但是接下来讲的更多的不是已经成型的科研成果，更多的是抛出问号，抛出还没有解决的难题，以及一些失败的尝试，还有一些没有开始尝试的假设，这在表面上看来似乎与本次演讲的主题有些唱反调的样子，但仔细想想却又明白，CPU的计算能力永远达不到这些最顶级的科研人员想要的高度，而计算机科学家们永远只能在现有的条件下做困兽斗，做出在这个时代所能赋予的条件下最漂亮的成绩，而这就是他们一生所追求的使命。

感谢怀校长的精彩演讲，让我们看到了未来的零星火花，很美。

本文首发虎嗅，关注人工智能微信号：“机器之心”，本人公众号：“首席发言者”

毫无疑问，现如今是属于大数据(Big Data)的，革命性的时代。从社交媒体到企业，每时每刻都在产生大量的数据。无所作为，从而把这样的宝藏白白浪费掉是及其愚蠢的。企业已经学会了收集大数据以获取更高的利润，并提供更好的服务以及更深入地了解其目标客户。

大数据主要是指企业中日常生成的，大量的有组织以及无组织的数据。在这种情况下，组织如何处理这些数据，与数据量是无关的。对大数据分析可以产生改善战略商务决策(Strategic business decision-making)的洞察力。

如前所述，大数据的价值不在于您拥有多少信息，而在于您要如何利用它。您可以从任何一个点收集数据(并对其进行检查)，以找到下面四种情况的解决方案：

新产品开发，以及改进产品

当您耗费大量精力分析聚合大数据时，下面这些业务关联的任务就可能实现：

实时识别故障原因、问题以及缺陷。

在几分钟内计算出特定功能的全部风险。

在欺骗行为影响到您的组织之前，将其检测出来。

汽车行业：福特现代混合动力车型 Fusion，它每小时产生高达 25GB 的数据。这些数据可以用于解释驾驶习惯和驾驶模式，以预防意外事故，转向碰撞等情况。

娱乐：电子游戏行业每天都在使用大数据技术来检查超过 500GB 的有组织数据，以及 4TB 的功能性积压(Functional backlogs)。

社交媒体效应：每天，社交媒体网站 Facebook 的数据库中都会增加大约 500TB 的新数据。

大数据可以分为以下三大类。

结构化：可以以固定数据格式存储、处理和改进的数据称为结构化数据。随着时间的推移，如今计算机科学已经能够开发使用这些数据的方法，并从中获得价值。不过近来我们正预测与庞大数量的这类数据相关的问题，这些数据量将成为 ZB(10 亿 TB 等于 1ZB)级别的。

非结构化：非映射(Unmapped)形式的数据称为非结构化数据。如何从大量的非结构化数据中获取价值，这其中充满挑战。例如，包含了简单文本文件、图片、音频，以及视频录像之集合的异构数据源(Heterogeneous data source)，这些数据将难以进行分析。当下，组织拥有大量可用的数据，但不幸的是，他们并何从下手以提取数据的价值，因为这些数据是未经处理的形式。

半结构化：这可以包含两种形式的数据。另外，我们可以将半结构化数据视为一种形式上的结构，但实际上数据本身并未定义。例如，XML 文件中所描述的数据。

一些共同特征如图 2 所示。

体积(Volume) ：数据量是决定大数据价值的重要因素。因此，体积是处理大数据时需要考虑的一个属性。

种类(Variety) ：指的是各种数据源以及数据的性质，这其中既有结构的，也有非结构化的。曾经，电子表格和数据库是大多数实际应用中唯一考虑的数据来源。但现在，调查应用中还会考虑到电子邮件，图片，录音，以及监控设备等形式的数据。

速率(Velocity) ：该术语是指 “数据是如何迅速生成的”。数据创建和提炼的速率要有多快，才能满足特定需求，这决定了它的真正潜力。大数据的速率是数据从业务流程、应用程序日志、网站等来源流出的速度。大数据流动的速度非常高，几乎从不间断。精确性(Veracity) ：这是指所生成数据的各种格式之间的不兼容性，这限制了挖掘或管理数据的过程。

大数据架构包含一致的、可扩展的，以及完全计算机化的数据管道(Data pipelines)。构建这种基础架构需要具有深入了解堆中的每一层的能力，即从集群设计(Cluster design)开始，直到设置负责处理数据的顶级链(Top chain)。图 3 展示了堆栈的复杂性以及数据管道工程如何触及其每个部分。

在图 3 中，数据管道收集原始数据并将其转化为有价值的东西。同时，大数据工程师必须计划好数据会发生什么情况，数据存储在集群中的方式，内部许可的访问方式，用于处理数据的设备，以及提供给外界访问的模式。那些设计和实现这种架构的人被称为大数据工程师。

众所周知，大数据的主题非常广泛，并且渗透到了许多新技术的发展中。以下对一些技术的概述旨在帮助用户对大数据进行改造。

1. MapReduce(映射化简)：这使得任务的实现具有能够跨越数千台服务器的可扩展性。

Map ：将输入数据集转换为一组不同的值。

Reduce ：将 Map 任务的输出联合起来，形成一组简化的值。

2. hadoop：这是 MapReduce 最令人钦佩的执行方式，它是一个完全开源的处理大数据的平台。Hadoop 足够灵活，它能够处理多种数据源，例如聚合数据以进行大规模处理，从数据库读取数据等。

3. Hive：这是一个类似 SQL 的链接，允许 BI(商业智能) 应用程序在 Hadoop 集群旁运行查询。这是由 Facebook 开发的，它已经被开源了一段时间，并且它还是 Hadoop 框架的更高层次的概念。此外，它允许每个人对存储在 Hadoop 集群中的数据进行查询，并改进了 Hadoop 的功能，使其成为了 BI 用户的理想选择。

处理大数据的能力具有多种益处。

企业可以在进行决策时利用外脑(Outside brainpower)：使用来自搜索引擎以及 Facebook 和 Twitter 等网站的社交数据的权利，可以帮助企业改进商务战略。

增强客户服务：客户响应系统正在被使用了大数据技术的新系统所取代。在这些新系统中，大数据技术用于理解与评估消费者的反应。

在早期识别服务风险：可以事先识别风险因素，以提供完美的数据。

提高操作能力：大数据技术可用于在决定将哪些数据移入数据仓库之前，为新数据构建暂存区(Staging areas)或着陆区(Landing zones)。此外，这种大数据和数据仓库技术的结合可帮助企业绕过不经常访问的数据。

虽然很容易陷入各种关于大数据的炒作之中，但它未得到充分利用的原因之一就是，在使用到它的技术中仍有许多挑战需要解决。其中一些挑战如下：

公司面临着的问题是：识别正确的数据，以及审查如何最好地利用它们。构建与数据有关的商业案例，这往往意味着形成 “开箱即用(Out-of-the-box)” 的意见，以及寻找与传统商业模式截然不同的收入模式。

公司不情愿去挑选同时具有使用新技术和审查数据(以发掘重要的商业洞察)能力的优秀人才。

大量数据点还没有进行链接，公司通常没有合适的平台来整合和管理整个企业的数据。

数据世界的技术发展日新月异。借用数据之力，意味着能够与良好的、具有开拓性的伙伴一起运营 —— 这些公司可以帮助创建正确的 IT 设计，从而以良好的组织方式适应环境的变化。

大数据的可访问性(Accessibility)，便宜的硬件产品，以及新的信息管理和分析软件聚合在一起，在数据分析的历史中创造了独特的时刻。我们现在有能力快速且经济高效地审查这些惊人的数据集，这是有史以来的第一次。这种能力象征着真正的飞跃，同时也象征着一个在工作效率、收入和成功方面大幅进步的机会。

　　如果你初来乍到，大数据看起来很吓人!根据你掌握的基本理论，让我们专注于一些关键术语以此给你的约会对象、老板、家人或者任何一个人带来深刻的印象。

　　1.。“”如何与大数据相关?即使是一个通用术语，但大数据分析使其在当代更受青睐和流行。

　　2.分析。年末你可能会收到一份来自信用卡公司寄来的包含了全年所有交易记录的年终报表。如果你有兴趣进一步分析自己在食物、衣服、娱乐等方面具体花费占比呢?那你便是在做“分析”了。你正从一堆原始数据中来吸取经验，以帮助自己为来年的消费做出决策。如果你正在针对整个城市人群对Twitter或Facebook的帖子做同样的练习呢?那我们便是在讨论大数据分析了。大数据分析的实质是利用大量数据来进行推断和讲故事。大数据分析有3种不同到的类型，接下来便继续本话题进行依次讨论。

　　3.描述性分析。刚刚如果你告诉我，去年你的信用卡消费在食物上花费了25%、在服装上花费了35%、娱乐活动上花费了20%、剩下的就是杂七杂八的事项，这种便是描述性分析。当然你还可以参考更多的细节。

　　4.预测分析。如果你根据过去5年的信用卡历史记录来进行分析，并且划分具有一定的连续性，则你可以高概率预测明年将与过去几年相差无几。此处需要注意的细节是，这并不是“预测未来”，而是未来可能会发生的“概率”。在大数据预测分析中，数据科学家可能会使用类似机器学习、高级的统计过程(后文将对这些术语进行介绍)等先进的技术去预测天气、经济变化等。

　　5.规范分析。沿用信用卡交易的案例，你可能想要找出哪方面的支出(级食品、服装、娱乐等)对自己的整体支出产生巨大的影响。规范分析建立在预测分析的基础之上，包含了“行动”记录(例如减少食品、服装、娱乐支出)，并分析所得结果来“规定”最佳类别以减少总体支出。你可以尝试将其发散到大数据，并设想高管们如何通过查看各种行动的影响来做出数据驱动的决策。

　　6.批处理。虽然批量数据处理在大型机时代就早已出现，但大数据交给它更多大数据集处理，因此赋予了批处理更多的意义。对于一段时间内收集到的一组事务，批量数据处理为处理大量数据提供了一种有效的方法。后文将介绍的Hadoop便是专注于批量数据处理。超越批处理的世界：流计算使用Spark SQL构建批处理程序。

　　8. 云计算。显而易见云计算已经变得无所不在，所以本文可能无须赘述，但为了文章的完整性还是佐以介绍。云计算的本质是在远程服务器上运行的软件和(/或)数据托管，并允许从互联网上的任何地方进行访问。

　　9. 集群计算。它是一种利用多台服务器的汇集资源的“集群”来进行计算的奇特方式。在了解了更多技术之后，我们可能还会讨论节点、集群管理层、负载平衡和并行处理等。

　　10. 黑暗数据。依我看来，这个词适用于那些吓得六神无主的高级管理层们。从根本上来说，黑暗数据是指那些被企业收集和处理但又不用于任何有意义用途的数据，因此描述它是“黑暗的”，它们可能永远被埋没。它们可能是社交网络信息流、呼叫中心日志、会议笔记，诸如此类。人们做出了诸多估计，在60-90%的所有企业数据都可能是“黑暗数据”，但无人真正知晓。

　　11. 数据湖。当我第一次听到这个词的时候，我真的以为有人在开愚人节的玩笑。但它真的是个术语!数据湖是一个原始格式的企业级数据的大型存储库。虽然此处讨论的是数据湖，但有必要再一起讨论下数据仓库，因为数据湖和数据仓库在概念上是极其相似的，都是企业级数据的存储库，但在清理和与其他数据源集成之后的结构化格式上有所区别。数据仓库常用于常规数据(但不完全)。据说数据湖能够让用户轻松访问企业级数据，用户真正按需知道自己正在寻找的是什么、如何处理并让其智能化使用。拥抱开源技术的前提——认识数据湖你知道数据湖泊(DATA LAKE)吗?

　　12. 数据挖掘。数据挖掘是指利用复杂的模式识别技术从大量数据中找到有意义的模式、提取见解。这与我们前文讨论的使用个人数据做分析的术语“分析”密切相关。为了提取出有意义的模式，数据挖掘者使用统计学(是呀，好老的数学)、机器学习算法和人工智能。

　　13.数据科学家。我们谈论的是一个如此热门的职业!数据科学家们可以通过提取原始数据(难道是从前文所说的数据湖中提取的?)，处理数据，然后提出新见解。数据科学家所需具备的一些技能与超人无异：分析、统计、计算机科学、创造力、故事讲述和理解业务环境。难怪他们能获得如此高的薪水报酬。

　　14.分布式文件系统。由于大数据太大而无法在单个系统上进行存储，分布式文件系统提供一种数据存储系统，方便跨多个存储设备进行大量数据的存放，并有助于降低大量数据存储的成本和复杂度。

　　15. ETL。ETL分别是extract，transform，load的首字母缩写，代表提取、转化和加载的过程。它具体是指“提取”原始数据，通过数据清洗/修饰的方式进行“转化”以获得 “适合使用”的数据，进而“加载”到合适的存储库中供系统使用的整个过程。尽管ETL这一概念源于数据仓库，但现在也适用于其它情景下的过程，例如在大数据系统中从外部数据源获取/吸收数据。我们需要什么样的ETL?

　　工程师要不要写ETL?——教你构建高效的算法/数据科学部门 ETL的经验总结

　　16. Hadoop。人们一想起大数据就能立即想到Hadoop。 Hadoop(拥有可爱的大象LOGO)是一个开源软件框架，主要组成部分是Hadoop分布式文件系统(HDFS)，Hadoop部署了分布式硬件以支持大型数据集的存储、检索和分析。如果你真的想给别人留下深刻的印象，还可以谈谈YARN(Yet Another Resource Schedule，另一个资源调度器)，正如其名，它也是一个资源调度器。我由衷佩服这些为程序命名的人。为Hadoop命名的Apache基金会还想出了Pig，Hive和Spark(没错，它们都是各种软件的名称)。这些名字难道不让你感到印象深刻吗?

　　17. 内存计算。一般来说，任何可以在不访问I / O的情况下进行的计算预计会比需要访问I/O的速度更快。内存内计算是一种能够将工作数据集完全转移到集群的集体内存中、并避免了将中间计算写入磁盘的技术。Apache Spark便是一种内存内计算系统，它与I / O相比，在像Hadoop MapReduce这样的系统上绑定具有巨大的优势。

　　18. IOT。最新的流行语是物联网(Internet of things，简称IOT)。IOT是通过互联网将嵌入式对象(传感器、可穿戴设备、汽车、冰箱等)中的计算设备互连在一起，并且能够发送/接收数据。IOT产生了大量的数据，这为呈现大数据分析提供了更多的机会。

　　19.机器学习。机器学习是为了设计一种基于提供的数据能够进行不断学习、调整、改进的系统的设计方法。机器使用预测和统计的算法进行学习并专注于实现“正确的”行为模式和简见解，随着越来越多的数据注入系统它还在不断进行优化改进。典型的应用有欺诈检测、在线个性化推荐等。

　　20.MapReduce。MapReduce的概念可能会有点混乱，但让我试一试。MapReduce是一个编程模型，最好的理解方法是将Map和Reduce是看作两个独立的单元。在这种情况下，编程模型首先将大数据的数据集分成几个部分(技术术语上是称作“元组”，但本文并不想太过技术性)，因此可以部署到不同位置的不同计算机上(即前文所述的集群计算)，这些本质上是Map的组成部分。接下来该模型收集到所有结果并将“减少”到同一份报告中。 MapReduce的数据处理模型与hadoop的分布式文件系统相辅相成。

　　21.NoSQL。乍一听这像是针对传统关系型数据库管理系统(RDBMS)的面向对象的SQL(Structured Query Language，结构化查询语言)的抗议，其实NoSQL代表的是NOT ONLY SQL，意即“不仅仅是SQL”。 NoSQL实际上是指被用来处理大量非结构化、或技术上被称作“图表”(例如关系型数据库的表)等数据的数据库管理系统。NoSQL数据库一般非常适用于大型数据系统，这得益于它们的灵活性以及大型非结构化数据库所必备的分布式结构。

　　22.R语言。有人能想到比这个编程语言更糟糕的名字吗?是的，’R’是一门在统计计算中表现非常优异的编程语言。如果你连’R’都不知道，那你就不是数据科学家。(如果你不知道’R’，就请不要把那些糟糕的代码发给我了)。这就是在数据科学中最受欢迎的语言之一的R语言。

　　24.流处理。流处理旨在通过“连续”查询对实时和流数据进行操作。结合流分析(即在流内同时进行连续计算数学或统计分析的能力)，流处理解决方案可以被用来实时处理非常大的数据。

　　25. 结构化和非结构化数据。这是大数据5V中的“Variety”多样性。结构化数据是能够放入关系型数据库的最基本的数据类型，通过表的组织方式可以联系到任何其他数据。非结构化数据则是所有不能直接存入关系数据库中的数据，例如电子邮件、社交媒体上的帖子、人类录音等。

如何正确理解大数据？

我要回帖

更多关于关于大数据的来源以下理解正确的是的文章

随机推荐

如何正确理解大数据？

我要回帖

更多关于 关于大数据的来源以下理解正确的是 的文章

随机推荐

更多关于关于大数据的来源以下理解正确的是的文章