讨教一下为何说数据智能是AI办公自动化是人工智能吗的基石?

今天准备写一篇文章来谈大数据,人工智能和事物认知问题解决之间的关系逻辑。因此这篇文章不会谈底层的实现技术,而更多的会谈在整个信息技术革命下思维逻辑的发展演进过程,并对相互之间的关系做进一步思考。大数据概念和其发展大数据这个概念在5,6年相当火,而最近几年整体热度下降得很明显,类似的又出现了数据湖,数据中台这些概念。但是数据中台和数据湖,却很难体现出大数据的一些关键特征。比如我们谈大数据核心,一般都会谈到其4V特征。数据量足够大,PB级别以上数据类型多样化,结构化,非结构化时效性要求高价值创造,大数据最终实现价值前面几年大数据应用更多的是在做数据采集,集成,存储方面的事情,但是对数据本身的应用和分析却很少。大数据应用和分析做得好的可以看到重要是在电商行业,或者类似电信,金融等直接面对客户的大集团行业,应用的点也更多在针对性营销,推荐引擎,客户画像等方面。也就是说理想的应用场景很多,但是大量落地场景并不多。很多企业建大数据平台,投入大量资源,时间和成本,虽然完成了统一的数据采集和存储,但是数据本身产生的价值并没有体现出来。类似当前数据中台,实际也在谈一点,大数据平台不能是只做OLAP分析,做分析决策,更多的要考虑数据能力实时开放,反哺业务,为业务服务。当你构建了大数据平台后,你会看到后续的数据运维,数据管控治理,数据分析均需要持续大量的人员投入,如果数据本身无法产生价值,那么平台最终被荒废掉也是合理之选。大数据和传统BI对于大部分企业来说,企业信息化发展本身也有一个过程。其前期的数据分析更多的还是围绕结构化数据展开,这些数据采集集中后上PB级并不容易,同时也全部是结构化数据,这个时候传统的BI系统构建思路仍然适用,唯一的就是数据量大后你可能需要转到类似MPP分布式的数据分析库上来解决性能问题。如果你完全采用类似Hadoop来构建大数据技术平台来解决上面这些问题,那么实际上完全没有必要,你会发现会引入更多的技术复杂度和业务建模复杂度。为什么这样讲?对于传统BI分析里面的维度分析,上钻下钻,切片等基于维度建模型形成的分析能力,在Hadoop存储和处理中并不合适。Hadoop在数据存储扩展,分析SQL运行效率上有明显提升,但是很多BI里面并不需要实时查询或即席查询能力。也就是说企业如果没有这种数据实时分析结果反哺业务的需求,那么你更加没有必要马上去搭建这种大数据平台来解决你的问题。相关性和因果关系早期,《大数据时代》这本书可以说相当的活,作者在书中提出的“大数据三原则”:要全体不要抽样,要效率不要绝对精确,要相关不要因果。再次提到了大数据更加关注数据之间的相关性而非因果逻辑。也就是大家熟知的啤酒和尿片的故事。这个故事产生于20世纪90年代的美国沃尔玛超市中,沃尔玛的超市管理人员分析销售数据时发现了一个令人难于理解的现象:在某些特定的情况下,“啤酒”与“尿布”两件看上去毫无关系的商品会经常出现在同一个购物篮中,这种独特的销售现象引起了管理人员的注意,经过后续调查发现,这种现象出现在年轻的父亲身上。如果这个年轻的父亲在卖场只能买到两件商品之一,则他很有可能会放弃购物而到另一家商店,直到可以一次同时买到啤酒与尿布为止。沃尔玛发现了这一独特的现象,开始在卖场尝试将啤酒与尿布摆放在相同的区域,让年轻的父亲可以同时找到这两件商品,并很快地完成购物;而沃尔玛超市也可以让这些客户一次购买两件商品、而不是一件,从而获得了很好的商品销售收入,这就是“啤酒与尿布” 故事的由来。认知逻辑-从机械思维到信息论当今天重新回顾这个案例的时候,实际本身就是我们认知世界的方式在发生大的变化。我们传统思考方式就是机械思维,其中牛顿之一个很大的贡献值,简单来说就是自然界发生的各自现象事件,一定有其内在的规律和原因,同时这个原因我们可以用抽象的公式或模型来进行表达。那么当我们遇到同样的现象的时候,就可以用公式去解题。但是机械思维发展中出现两个问题,即有些时候我们没有办法做到精确建模,这本身又有两个原因,其一是对目标Y造成影响的X因子太多,无法穷举和认知全;其二是我们的测量系统出现问题,简单来说采集不全和测量不准。这些都对我们的确定性思维造成挑战。解决该问题本身又有两种思路:其一是概率和统计其二是对信息不确定性的量化表达-信息论和信息熵(香农)而信息论则完全相反,建立在不确定性(假设)基础上,要消息不确定性就必须引入信息。于是我们的思维逻辑发生了进一步变化,即从机械思维到大数据思维的转变。复杂时间很难找到确定性和因果关系-》因此用不确定性眼光看待世界-》把智能问题转化为消除不确定性的问题-》找到消除相应不确定性的信息(或者说大量具有相关性的数据可以帮助我们消除这种不确定性)。例如上面大数据的例子。我们通过数据的相关分析,找到了啤酒与尿布搭配售卖的方法,但是我们并不清楚为何年轻父亲会在购买尿片的时候顺带几瓶啤酒。在大数据时代,我们会产生一个错觉,因果关系不再重要,重要的是大数据相关性分析。我们还是回到上面的例子来假设下可能的因果关系。比如最多的调查结果可能是年轻父亲购买尿片后,小孩换了新尿片可以快速地入睡,年轻父亲这个时候才能够有空闲时间进行消遣,能够产生空闲时间消遣才是推动啤酒购买的关键原因。当你了解清楚因果关系后,你会发现年轻的父亲消遣的方式不只是喝啤酒,在家里看电影或球赛,打游戏,抽烟都可能是潜在的消遣方式。实际上你把香烟,口香糖,游戏卡等和尿布放在一起也能够达到同样的畅销结果。简单总结一句重要的话就是:一件事情你只是理解相关性那么只能是迎合或跟随,而只有理解了相关性后面的因果关系你才可能破局或引领变革。人工智能和大数据人工智能,简单来说就是计算机要模拟人的大脑来思考和解决问题。可以看下百度百科对人工智能的一些说明人工智能是研究使计算机来模拟人的某些思维过程和智能行为(如学习、推理、思考、规划等)的学科,主要包括计算机实现智能的原理、制造类似于人脑智能的计算机,使计算机能实现更高层次的应用。人工智能涉及到计算机科学、心理学、哲学和语言学等学科。可以说几乎是自然科学和社会科学的所有学科,其范围已远远超出了计算机科学的范畴,人工智能与思维科学的关系是实践和理论的关系,人工智能是处于思维科学的技术应用层次,是它的一个应用分支。从思维观点看,人工智能不仅限于逻辑思维,要考虑形象思维、灵感思维才能促进人工智能的突破性的发展,数学常被认为是多种学科的基础科学,数学也进入语言、思维领域,人工智能学科也必须借用数学工具,数学不仅在标准逻辑、模糊数学等范围发挥作用,数学进入人工智能学科,它们将互相促进而更快地发展。计算机具备了人的智能能力。那么人的智能能力包括了识别,定义,归纳,抽象,推理,决策等多个方面的能力。前面已经讲到了思考解决问题的一种方式:即问题输入-》已有的算法模型-》问题解决在很早以前的人工智能研究里面,更多的就是想着去模仿人脑思考和推理的过程。通过提供不同的输入方式让计算机进行学习,产生一个算法模型。然后对于新问题可以用模型去解决。类似人工神经网络,遗传算法等都是这个思路。但是当你提供的输入不足够多的时候,这个模型很难快速地收敛,也很难得出一个精确化的确定模型。在大数据出现后,形成了计算机解决问题的新思路。深度学习+大数据 = 人工智能即从传统学习和建模推理思路转移到基于统计学的思路,这个李开复确实在里面做出了不小的贡献。其次就是在统计学基础上引入了深度学习的概念,而深度学习又依赖于海量大数据作为样本输入。在李开复的《人工智能》一本书里面就谈到深度学习+大数据引领了第三次AI浪潮。简单来说就是你不需要去搞清楚人工神经网络这个精确模型是如何形成的?你只需要通过大量的样本输入去训练这个模型,最终得到你需要的输出。简单来说一个计算机能够识别一只动物图片是猫,并不是计算机能够精确地描述出来猫应该具备的体型特征,而是图片中的动物的特征矩阵和数据库里面的动物猫最匹配而已。对于谷歌的阿拉法狗战胜李世石在17年也引起了轰动,再次展示了深度学习算法和人工智能的威力。对于人工智能来讲,计算机本身的CPU并行计算能力远超人脑,主要有了合适的深度学习方法,计算机程序所发挥出来的人工智能威力巨大。也就是说在大数据时代推动了人工智能的快速发展。什么才是真正的智能?当我们做IT系统或应用的时候,必须要搞清楚什么才是真正的智能或智慧。计算机在解决问题的时候,实际上最简单的就是类似公式计算或求解,这个可以发挥计算机的强大算力,完胜人类。其次就是基于固有场景下制定规则的模式匹配。我们可以举一个智慧家庭里面的例子来作为参考。当进门监控到是男主人回来的时候,自动将空调温度设置到24度并打开窗帘。当监控到是女主人回来的时候,将空调设置到26度,并关闭窗帘。这个就是典型的基于场景的规则设置并执行操作。这种情况下计算机的能力是在类似人脸识别,语音识别方面,而不是在最终的决策执行上面。因为决策完全是基于预设的规则执行。而真正的人工智能应该是基于大量的数据采集和分析,自己形成了规则,并且后续基于规则进行执行相关操作。并不断基于新数据的输入不断地调整和优化自己的规则。类似完全意义上的自动驾驶,就是典型的人工智能要攻克的场景,也就是说非固有模式,非提前给定规则下快速的解决问题并做出判断。要做到这点,你必须有大量的数据采集并进行快速的分析。没有大数据底层技术,海量大数据的输入,是无法做到智能的。包括前面的AlphGo,如果没有大量的历史棋谱的输入和训练,电脑也是无法战胜人类的。电脑基于算力,采用统计学的思路找到了机器智能化的新途径。但是正如我前面谈到的,如果电脑并没有理解清楚因果关系,那么电脑就只能处于跟随状态而非引领状态。类似围棋也是一个道理,如果我们修改了围棋的一些规则,同时不给AlphGo新的输入训练,那么电脑同样变成白痴。人为何能够战胜电脑,里面有一个重点就是不要放弃对因果和本源的探索。信息化->数字化->智能化在谈数字化转型的时候,实际上一直在谈三个关键点:连接:万物互联,解决人和人,人和物,物和物的连接问题数据:连接后产生集成和协同,协同过程自然会产生数据智能:数据经过加工和提炼,形成智能化分析应用对于连接你可以看到首先是解决了最基本的业务协同问题。但是连接更加重要的作用是产生和沉淀数据。传统的连接更多的都是通过人来完成,通过人手工录入电子表单等数据来完成。而在数字化阶段必须解决连接的多样性问题,数据产生多样性问题,类似采用各种物联网传感设备,你会看到可以持续不断,自动化的产生大量你需要的输入。或者通过开会语音的记录,视频记录同样产生更多你原来没有关注的数据。数据本身在万物互联阶段才形成了数量和类型的巨大变化,产生了大数据。在数字化时代必须又重提大数据。这个大数据的积累需要产生两个方面的作用,一个是直接应用到业务协同中,一个是真正提升智能化和智慧化的能力。当前大部分企业仍然在第一阶段,而要完全意义上的人工智能仍然在探索。对于企业信息化领域同样适用我前面的说法,即计算机能够自动产生规则并应用规则,才是完整意义上的人工智能。否则计算机只是既定规则的执行者而已。包括我们常说的大数据推荐引擎,是计算机基于已有的推荐算法进行推荐,而不是大数据自己形成了推荐算法,这才是关键的区别点。类似我原来在智慧交通上举的一个例子:现在的智慧交通应用往往已经能够很方面地进行整个大城市环境下的交通状况监控并发布相应的道路状况信息。在GPS导航中往往也可以实时地看到相应的拥堵路况等信息,从而方便驾驶者选择新的路线。但是这仍然是一种事后分析和处理的机制,一个好的智能导航和交通流诱导系统一定是基于大量的实时数据分析为每个车辆给出最好的导航路线,而不是在事后进行处理。对于智能交通中的交通流分配和诱导等模型很复杂,而且面对大量的实时数据采集,根据模型进行实时分分析和计算,给出有价值的结果,这个在原有的信息技术下确实很难解决。所以要做到完全的智能化或智慧化并不是一件容易的事情。真正的智慧一定是面对新事物都能够自我学习,自我适应调整,自我优化的。而不是基于预设的规则。只要规则是人在预设,只要我们还始终保持对事物因果关系和本源的探索,那么在短期计算机就不可能做到完全替代人类。模型的建立还是人,但是应用模型或规则,基于采集集成的大数据进行快速的分析决策是机器的强项,这才是是数字化转型第一阶段重点去解决的智能化问题。
转载一位CSDN大佬的文章:一、大数据和人工智能之间存在相促进并相互支持,推动了科技发展1.数据驱动的人工智能:人工智能系统需要大量的数据来进行训练和学习。大数据提供了海量的信息,可以用于训练机器学习和深度学习模型。这些模型通过从数据中学习模式、规律和特征,能够进行任务如图像识别、自然语言处理、预测分析等。人工智能的性能往往受到训练数据的质量和数量的影响,因此大数据在提升人工智能性能方面起着关键作用。2.数据预处理和特征提取:大数据通常是杂乱的、包含噪声的,甚至可能存在缺失值。在将数据应用于人工智能模型之前,需要对数据进行预处理,包括清洗、归一化、填充缺失值等操作。此外,从大数据中提取有意义的特征也是一个挑战。人工智能领域研究了各种技术来处理这些问题,以确保模型能够从数据中提取有用的信息。3.实时决策和反馈循环:大数据使得人工智能系统能够实时地从不断涌入的数据流中获取信息,并做出实时决策。这在许多应用中至关重要,如金融交易、智能交通系统等。人工智能系统可以根据实时数据进行自主决策,而不仅仅是在预先定义的场景中操作。4.数据挖掘:大数据中蕴含着大量的信息和洞察,这些信息可以通过数据挖掘技术来发现。人工智能可以分析大数据,从中发现隐藏的模式、趋势和关联关系。这种分析有助于企业和组织做出更明智的决策,发现新的商机,并改进业务流程。5.智能化应用和个性化体验:大数据和人工智能相结合,能够实现更智能化的应用和服务。例如,推荐系统可以根据用户的历史行为和偏好提供个性化的推荐内容。智能助手可以通过分析大数据来理解用户的语义,提供更自然的对话体验。这些应用使用户能够更好地与技术进行互动。二、机器学习、深度学习、人工智能关系1.人工智能(Artificial Intelligence,简称AI):人工智能是一个广泛的概念,指的是计算机系统通过模拟人类智能的方式来执行任务。这包括了各种技术和方法,从传统的基于规则的专家系统到现代的机器学习和深度学习方法。目标是使计算机能够理解、学习和解决类似于人类的问题,比如图像识别、语音识别、自然语言处理、自主决策等。2.机器学习(Machine Learning,简称ML):机器学习是人工智能的一个分支,它关注于开发算法和技术,使计算机能够从数据中学习并改进性能,而无需显式地编程。机器学习通过让计算机自动调整模型参数来识别数据中的模式和规律。这些模式和规律的发现有助于模型在面对新数据时做出准确的预测或决策。3.深度学习(Deep Learning):深度学习是机器学习的一个特定领域,它基于人工神经网络的概念,旨在模仿人脑神经元之间的连接方式。深度学习模型通常由多个层次(即深度)的神经网络组成,每一层都会提取不同级别的特征。通过在大量数据上进行训练,深度学习模型可以自动学习高度抽象的特征表示,这使得它们在图像识别、自然语言处理等任务上表现出色。三、监督学习、无监督学习、半监督学习、强化学习、迁移学习关系1.监督学习(Supervised Learning):监督学习是一种机器学习方法,其中模型从标记好的训练数据中学习。在监督学习中,训练数据包括输入样本和对应的期望输出(标签)。模型通过学习输入与输出之间的关系来进行预测。在训练过程中,模型不断调整自己的参数,以最小化实际输出与期望输出之间的差距。2.无监督学习(Unsupervised Learning):无监督学习是一种机器学习方法,其中模型从未标记的数据中学习。在无监督学习中,没有给定明确的输出标签。相反,模型试图发现数据中的模式、结构和关系,例如聚类相似样本或进行降维。无监督学习通常用于数据探索和特征提取。3.半监督学习(Semi-Supervised Learning):半监督学习是监督学习和无监督学习的结合。在半监督学习中,训练数据中一部分样本有标签,另一部分没有标签。模型利用有标签样本的信息来指导无标签样本的学习,从而提高模型的性能。4.强化学习(Reinforcement Learning):强化学习是一种学习范式,旨在让智能体通过与环境的交互来学习如何采取行动以最大化累积奖励。在强化学习中,智能体基于环境的反馈来逐步改进其决策策略。它适用于需要进行序列决策的问题,如游戏、机器人控制等。5.迁移学习(Transfer Learning):迁移学习是一种技术,通过将在一个任务上学到的知识迁移到另一个相关任务上,以加速学习过程或提高性能。迁移学习的思想是,模型在一个任务上学到的特征或知识可以在其他任务上有所用处,从而减少训练样本不足或复杂度高的问题。四、机器学习具体内容1.监督学习(Supervised Learning)分类(Classification):预测输入数据属于哪个类别,常见于图像识别、垃圾邮件检测等。回归(Regression):预测连续值输出,例如房价预测、销售预测等。2.无监督学习(Unsupervised Learning)聚类(Clustering):将数据分成不同的组,如K均值聚类、层次聚类等。降维(Dimensionality Reduction):减少数据特征的维度,如主成分分析(PCA)和t-SNE。3.半监督学习(Semi-Supervised Learning)使用有标签和无标签数据进行训练,综合了监督和无监督学习的思想。4.强化学习(Reinforcement Learning)基于奖励信号来训练智能体(agent),使其通过与环境交互来学习最优策略。应用于游戏、机器人控制等领域。5.迁移学习(Transfer Learning)将在一个任务上学到的知识迁移到另一个相关任务上,以提升性能或加速学习。6.神经网络和深度学习(Neural Networks and Deep Learning)深层神经网络能够学习多层次的抽象特征表示,广泛应用于图像识别、自然语言处理等领域。6.特征工程(Feature Engineering)对原始数据进行转换、组合和选择,以提取有用的特征供模型使用。7.模型评估与选择(Model Evaluation and Selection)使用不同的评估指标来衡量模型的性能,如准确率、精确度、召回率等。8.交叉验证(Cross-Validation)将数据分成训练集和测试集,用于评估模型在新数据上的泛化能力。9.超参数调优(Hyperparameter Tuning)调整模型的超参数,如学习率、正则化参数等,以达到更好的性能。组合,以提升整体性能,如随机森林和梯度提升树。本文为CSDN博主「Studying 开龙wu」大佬的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。原文链接:https://blog.csdn.net/qq_55433305/article/details/132414238
不仅仅是大数据和人工智能,你是不是还听说过云计算,机器学习,深度学习,神经网络,量子计算机等等的词。其实我跟你说,这些词在一定程度上都是相互交叉的,也就是大数据和人工智能的部分是交叉的,大数据和云计算也相互交叉,基本上都有所交叉,但也都具有各自的特性。而他们交叉的结果,一般都是某一样具体的产品或者是一项服务。因为一个单独的技术没办法构成一个完整的服务,我们拿ChatGPT来举例,这基本上算是目前最火,也非常具有代表性的一个产品了。ChatGPT本质上就是一个问答机器人,你问它问题,它会根据自己的理解进行回复,你看它的产品会觉得非常的简单,就是一个网页,然后有一个对话框。但是实际上想要实现这个服务,其实背后需要的技术是非常多的。我们就从大数据开始说,大数据其实就是很多的数据,指的是传统的数据处理应用由于数据量太大或者太复杂而处理不了的处理。这个数据量一般用EB(Exabyte0)来表示,我们日常生活中最常用的数据单位是KB,MB或者GB。一般一张手机照片就是50KB左右,这种照片不会很清晰,一般用在各种证件照需要上传的地方。MB和GB也用的比较,小点儿的手机应用会到几百个MB,而GB的话大的应用会用到。而TB,PB,EB就比较少见了。而大数据一般是以EB起,这是KB的10万倍起。这种级别的数据量,对于普通的软件或者应用是比较难以处理的。就比如说一个处理图片的软件,处理几张照片就比较容易,因为就一些KB的图片,但是一旦给它几十万张照片让它处理,那就很难办了。所以这也是为什么大数据要被发明出来,因为在当今社会中,数据在每时每刻产生,比如说一个超市的销售数据,一家银行的交易数据,社交媒体上用户的行为数据等等。这些数据如果能够被合理利用和分析,将会为商业决策、产品推荐、风险预测等带来巨大的价值。如果你去看一下大数据和人工智能的课程,他们在大方向是重合的,大体的流程就是数据收集,数据清洗,数据预处理,建模以及分析。鉴于人工智能的普遍性,其实每个人都应该去掌握基础的人工智能概念以及知识,因为你所在的行业或许已经被人工智能渗透的很深了,如果你不了解它,那么你会比其他的人落后的多,甚至会因为不了解而被它所取代。在这个人工智能时代,要想不被取代,最好的方法就是去跟人工智能结合。这里我强推结合ChatGPT来帮助你学人工智能,它在这方面非常的强,胜过很多书籍和资料,最重要的是它可以扮演一个知识非常丰富且知无不言的老师。这就是大模型的魅力,它可以放大你的能力,比如说你不擅长代码,那么它可以帮助你实现你的想法,无论什么语言它都可以做的非常棒。其实无论是从业者,还是对这一行感兴趣的朋友,都非常的建议了解一下「知乎知」联合「AGI课堂」推出的【程序员的AI大模型进阶之旅】公开课,一共2天的课程,可以帮助你迅速的掌握大模型的潜力,以及它如何可以跟你的职业或者学习相结合。而这俩者的区别其实就是侧重点的不同,大数据偏向于数据的处理,而人工智能偏向于如何用数据来提升模型的智能程度。在计算机领域有一句很经典的话,garbage in garbage out。对于一个人工智能来说,你给它喂的数据是垃圾的话,那它表现出来的智能程度也不会高到哪里去,说出来的话大概率也是垃圾。完全可以说,大数据对于人工智能来说就是精神粮食的存在,只有食物(数据)提供的到位,做出来的菜(ChatGPT回答)才会香。如果你的训练数据不到位,可能就会真的把人工智能模型训练成人工智障。想象一下,大数据就像是一家超级大的食材市场,有着数不尽的各种各样的食材。而人工智能呢,就像是一位大厨,用那些食材做出美味的菜肴。“选购食材”(数据采集与预处理):首先,大厨(人工智能)要去市场(互联网)选购食材(数据)。这些食材可能来自水果摊(社交媒体)、肉铺(传感器)或者粮油店(交易记录)。可是,食材刚买回来时可能杂草丛生、泥沙俱下,大厨得先洗洗切切,去掉不需要的部分。这个过程就像是大数据的清洗和预处理。“储藏食材”(数据存储与管理):食材买回来后,不能乱丢乱放。大厨得用各种大大小小的储藏柜(分布式文件系统、NoSQL数据库等)来放。这样,等下次再做饭时就可以迅速找到所需的食材,不必东奔西走。“下厨做菜”(机器学习和深度学习):食材准备好了,大厨就开始下厨做菜。有些菜是炒的(图像识别),有些是炖的(语音处理),还有些是蒸的(自然语言理解)。例如,像我这样的聊天机器人ChatGPT,就是通过大量的对话食材来炖制而成的。“随叫随到”(实时分析与决策):你想吃什么,大厨都能马上为你准备。这就像是企业通过实时分析和决策,即时了解你的需求,并利用人工智能为你推荐合适的产品。“确保卫生安全”(安全与合规性):当然,大厨做饭还要确保卫生安全。人工智能也是这样,要确保数据的安全和合规性,防止被不法分子滥用。所以呢,大数据就像是人工智能的食材,而人工智能就是那位大厨,把这些食材做成了各式各样的美味佳肴。无论是个人的智能助手,还是工厂的自动化生产线,都离不开大数据和人工智能的相互配合。这不仅仅是一项技术,更是一种新的生活方式,让我们的世界变得更加智能、高效、人性化。这就像打开了一扇通往未来的大门,那里充满了想象和可能性,等着我们一一探索和实现。

我要回帖

更多关于 办公自动化是人工智能吗 的文章

 

随机推荐