【概率论、数学计算】黑箱概率运算？

中央处理器(cpu) | AutoCAD | 人生 | 硬盘 | 投资 | 梦幻西游电脑版 | 院校信息 | QQ飞车（游戏） | 魔兽争霸3混乱之治 | PHP | 总决赛 | solidworks | 产品经理 | 机器学习 | 塞尔达传说（游戏） | 卡牌游戏 | 休闲游戏 | 经济 | 刷单 | Xbox One | 游戏开发 | 任天堂 | C4D | 部落冲突（游戏） | 建筑 | HTML | 办公室 | 游戏策划 | 网络直播 | 扫地机器人 | 电源 | centos | 水浒传 | 陶渊明 | 高德地图（amap） | 少数民族 | 女性主义 | ios游戏 | 健身教练 | 尧山 | 移民 | 正则表达式 | 游戏手柄 | 植保无人机 | Spss数据分析 | 婚姻 | 鱼类 | 云主机 | 极限挑战(综艺节目) | 电学 | pdf | ICEY（游戏） | 显卡 | 教育 | 虚拟机 | 率土之滨 | 中国 | 魔兽争霸3冰封王座 | 社会 | 外国人 | CSS | Adobe After Effects | iPad | 航拍 | 智能手环 | 舰队 collection | 化妆 | 炉石传说 | 热血传奇（游戏） | 办公软件 | 职业规划 | 法律咨询 | 哔哩哔哩 | mysql | 书法 | 生辰八字 | 运载火箭 | 网盘 | 环境保护 | 洗发水 | 对联 | 心理咨询 | 家庭 | 金庸小说 | 3D Max | 怪物猎人：世界 | 广告 | 拼多多 | 遗传学 | 义乌市 | 星系 | 计算机专业 | 机械 | 钢铁雄心4 | 恐怖游戏 | 街机游戏 | 地图应用 | 食品 | 谷歌（Google） | 飞机 | 名言 | 艺术 | 社会学 | 央视 | 植物种植 | matlab | OneNote | 任天堂3ds | 护肤品 | 细胞生物学 | 古剑奇谭ol | 美团 | 著作权 | 最终幻想（游戏） | 分子生物学 | galgame | 香港特别行政区 | 300英雄 | 超级机器人大战 | 徐州市 | 刀塔（dota2） | 哈尔滨市 | 按键精灵 | 金庸 | 球球大作战 | 电脑游戏 | 爬虫（计算机网络） | 心理 | 校服 | 马克思主义 | 电视 | Microsoft SQL Server | 道教 | 应届毕业生 | 完美世界（游戏） | 赚钱 | 游戏直播 | 智商 | 声音 | 眼镜 | 创业 | 春节联欢晚会 | 汽车保险 | 洛克王国 | 天涯明月刀 | 乌海市 | 汉服 | 奶茶 | 动画 | 命令与征服：红色警戒2（游戏） | 广州 | 中药 | 演员 | 电气工程及其自动化专业 | 建筑设计 | 日本漫画 | 恐怖黎明 | 软件开发 | 黑洞 | 空调 | 进化论 | 杨紫 | C#编程 | 星座爱情 | 新浪微博 | 超级战队 | 网站建设 | 食物 | 眼睛 | 蓄电池 | 直播 | 天下贰 | 摩托车 | 医疗保险 | 历史人物 | 史莱姆 | 陌陌 | 经济学 | 姓氏 | 英雄传说：闪之轨迹（游戏） | 天下2（游戏） | 烹饪 | 中国历史 | Microsoft Visual Studio | 星际 | 快捷键 | 街头霸王（游戏） | 生存游戏 | 恐龙 | 输入法 | 滑雪 | 上海市 | 勇者斗恶龙（游戏） | 飞船 | 手机游戏开发 | 充电器 | 刺客信条2 | 格斗游戏（ftg） | 火影忍者 | 减肥方法 |

你的位置：网站首页 >> 频道首页 >>概率论 >>【概率论、数学计算】黑箱概率运算？

【概率论、数学计算】黑箱概率运算？

来源：蜘蛛抓取(WebSpider) 时间：2022-09-19 06:12 标签：概率论事件运算公式

今天我们探讨一下，数据智能化的发展道路将会是什么样子的，想象一下未来数据智能化后可以给我们带来多么大的影响，可以出现在我们身边的那些方面，以及将会对我们的帮助。我们将借助三个数据智能化的案例来进行探讨理解数据智能化道路所给我们造成的影响和帮助，以及想象数据智能化后可以应用的工作领域。

案例一：基于时间序列的患病人次预测与监控
案例二：基于患者行为模式异常的医保反欺诈监控
案例三：终极战场：智慧医疗

案例一：基于时间序列的患病人次预测与监控

一个四两拨千斤的数理统计分析的案例

1.1背景介绍与分析目标

如今，定量化的了解区域内居民医疗卫生服务需求，对于合理制定区域卫生规划、优化医疗卫生资源配置、提高医疗卫生服务质量和效率，切实有效的缓解群众看病难、看病贵的状况，有着显著的现实意义。

对目标的分析主要围绕三点：

高精度指的是，在本次案例中假设针对某市患病的人次进行每个月的预测，并且希望能够将误差控制在5%左右，在确定模型稳健性之后既可通过预测序列和实际序列的比对来查找患病人次异常的时间点。

我们可以使用一种确定的模型进行长期的迭代预测，并且要求能够预测每年患病人次序列的波峰变化情况。

在确定一种模型或方法后，能够应用到不同细分序列(如不同地区、不同人群的患病人次序列)、平行序列(如人次和金额序列)的预测当中，并且可以通过平行序列的比对来查找异常点。

编辑时间序列（或称动态数列）是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。时间序列分析的主要目的是根据已有的历史数据对未来进行预测。在时间序列是一种以时间为自变量的特殊的回归，当序列本身呈现一定规律性、或与因变量相关的自变量都与时间有关时，可考虑使用时间序列模型进行预测。本案例中，时间序列起到的作用则是对诸多不确定性影响因素综合后的确定性影响效果进行捕捉。

作为数理统计范畴内经典的回归类方法，它的建模过程主要分为：

假设检验：使用ACF和PACF进行检验

参数设置：根据检验结果，选择Holt-Winter三参数指平滑法
结果输出：输出模型的结果

结果评估：对结果进行评估，是否通过白噪声检验，即规律性是否捕捉完全

模型优化不仅是针对数理统计，很多机器学习算法也是一样，建模容易优化难，大多数模型的使用口径较宽，优化过程才是整个建模过程的关键。优化的过程如下：

对于时间序列而言，只要通过了白噪声检验，就说明时间序列已经尽最大努力将与时间相关的规律性捕捉完全，但此时预测结果与实际值仍有10%左右误差

X-11模型是基于因素分解定理的确定性时序分析方法，其基本思想是将非平稳序列的确定性分解并提取，一般采用移动平均方法，包括简单中心平均移动、Henderson加权移动平均和Musgrave非对称移动平均等将序列趋势（包括线性趋势、非线性趋势）季节效应提取出来，而通过观察循环校正后的序列就能够判断是否有其他强影响因素对序列进行扰动并影响预测精度，即可以判断是否需要在时间序列模型中引入事件变量，同时由趋势项亦可看出序列的分布趋势。

根据X-11过程分解中曲线平滑度，判断随机影响因素，并将其量化为事件变量，引入模型，对结果进行修正。

经过输出结果与事件变量的交互式调整，最终把误差控制在10%以内。

最终，我们对输出结果进行可视化呈现，此处仅作对报告中结果（非产品界面）进行简单呈现。

以季度为单位进行迭代式动态预测，以误差率作为评判指标，预测集和训练集无交集，可见模型较为稳健，并将误差率控制在5%-10%左右。

到这里为止，就算完成了一个经典的数据分析的流程。

用数理统计算法落地实践应用的绝佳案例—所谓数理统计学方法，是指在低维、少量样本下对数据进行离线批处理的、从数学原理出发向外求进行印证的一系列算法。

舍恩伯格曾在《大数据时代》中断言：随着“全样本”的出现，针对低维、少量样本的数理统计学方法将逐渐失去其价值，其实从现在看来，并非如此。随着数据价值被更加普遍的认识，越来越多的算法被人们尝试、更多算法在更广阔空间内的价值被挖掘，数理统计算法就是其中典型之一。

数理统计分析方法的优点与局限性

在做统计分析的时候数据通常出现的问题有四点：

特征本身，包括很多突发因素无法量化
交叉因素影响作用无法衡量
个体表现与群体行为差距较大

并且通常而言，进行预测首先必须选取与之相关的特征变量，然后通过特征变化情况来判断预测变量的变量情况。但数理统计算法却在此案例中就适时的避开了这点。

一个优秀的模型，不仅应该具备算法上的稳健性，还应该具备应用上的可扩展性。由于时间序列提取的是一般规律，因此可扩展性更强。

并且时间序列还可以进行细分工作：

对于时间序列模型而言，模型还支持进一步细分时间点，如按周预测等，其基本方法和流程不变。

时间序列模型可进一步针对不同地域的患病人次进行预测，甚至可以细分至部分大型医院、某居住人数较多的社区等。

值得一提的是，时间序列模型还能够使用其他相关性较强的序列，如医院端收费金额序列，进一步，通过二者序列的联合判别也就是多维时间联合判别，既可达到较好的预测效果，也能够对异常点进行监控。

数理统计算法核心问题是：数据利用率太低，只能处理结构化、且内含与算法相匹配的规律的数据，且在所处理的数据量级上也有一定局限。

当然，局限也源于需求升级，例如：09年的全美流感预测，需要更高精度、更小的范围内、考虑突发事件的预测。

而谷歌流感预测-就是一个从小数据预测到大数据预测的经典案例：

谷歌当时纳入更多维度的数据，包括搜索引擎数据等，最终让谷歌在全美流感趋势预测中能够提前一天预测到全美各个地区流感爆发趋势，而美国疾病控制中心要在流感爆发两周后才能够知道。而单纯依靠数理统计算法是无法做到这点的。

现在我们现在需要面对的就是大数据时代，经过相互促进，协同发展滞后，大数据时代标志的来临，并且在需求驱动下，在三方面都已经有了突破。

伴随着数据从结构化到非结构化、数据量由小到大、数据维度由低到高，数据层在每一层都有了突破

第一阶段是运营式系统，伴随着数据库的出现使得数据管理的复杂度大大降低,数据往往伴随着一定的运营活动而产生并记录在数据库中,数据的产生方式是被动的

第二阶段是用户原创内容阶段，数据的爆发产生于Web2.0时代,而Web2.0的最重要标志就是用户原创内容，并且伴随着智能手机等移动设备加速内容产生，而且数据产生的方式都是主动的。

第三阶段是感知式系统阶段，感知系统的广泛使用，伴随着人类社会数据量第三次大的飞跃最终导致了大数据的产生。

信息技术以及计算能力突破

以存储容量、网络宽带及CPU计算能力为核心一系列的技术突破。

CPU计算能力大幅提升，以ApacheHadoop为核心的分布式集群的诞生极大的提高了单价所能买到的计算性能，同时，以云计算为代表的一系列技术进一步提高了计算资源的可获取性。

不论是从KDD到数据挖掘还是从机器学习到深度学习，数据层的突破导致算法适用面的多样化；计算机计算能力的提升则进一步导致算法设计层的突破；而持续不断增加的数据分析需求及社会对于数据分析的期望度，则进一步加快了算法的迭代速度。

案例二：基于患者行为模式异常的医保反欺诈监控

大数据时代中的大数据分析

随着社会老龄化程度加深，我国各地医保压力持续增加，部分地区已经面临穿底风险，并且传统的医保反欺诈检测面临着以下的困境。

随着社会老龄化程度不断增加，医保支出逐年增加，在医保骗保问题没有得到有效解决之前，医保面临压力也是与日俱增。

传统医保反欺诈检测主要依靠人工抽查审核，不仅检测效率较低，许多新形式的骗保模型也无法通过经验迅速判别，这也是长期以来医保欺诈问题没得到有效解决的原因之一

有人就会犯错，有政策就会有对策，部分医保局甚至存在对医保骗保睁一只眼闭一只眼的态度，有的则会更甚。

通过抽查进行人工审核，无法在就医行为发生时就及时对骗保行为进行制止，就算判别为欺诈，很多时候也都是”人去财空“

在此背景下，利用大数据的方法，对医保骗保行为进行智能识别，在骗保行为发生的第一时间进行识别与制止，则能够起到较好的反欺诈效果。

首先，抽象定义事件和时间，以及其属性。

事件：患者与医院进行一次交互的抽象
事件属性：在抽象的事件中针对某些目的所赋予事件的标签
时间：两次时间之间的时间间隔，根据决策树分类结果进行分箱的结果

接着，将就医路径抽象成为有时序关系的事务集。

我们可以通过数据挖掘与机器学习来完成这项工作，有多种算法可以具体的使用。并且算法伴随着以下的发展，逐渐的可以帮助我们去预测更多的应用场景。

数据量的积累和数据维度的拓展，以及计算能力的廉价性和更易获取性，给更小范围、更精细的数据分析提供了可能，在需求推动下各细分领域内的算法不断丰富不断迭代，可以这么说，算法数量正在呈指数级增长。
算法本身往往是因需求导向而诞生，也因实际应用情况而不断迭代。而且随着实际应用的不断深化。
算法研发和算法执行也逐渐成为两个相对独立的职能，算法研发更加侧重于根据算法底层数学原理对算法进行研发，而算法执行则更加侧重于算法的集成、使用、调优与反馈。而与以往相同，分工将进一步促进生产效率的提升。

借助分布式集群、Hadoop生态进行算法执行，但是需要根据一定场景来使用创造的工具，否则也必将反过来影响使用者

通过利用分布式的存储、计算框架，完美解决分析过程中数据量大、中间结果多，无法单机运行等问题。
能够直接嵌入产品，从而加快产品开发过程。
可以进行流式处理，用户可较为快速得到响应，并在第一时间予以回复，从而缩短了算法得到反馈、建立闭环的时间，加快了算法迭代速度。
利用MLlib和systemML，使得算法开发相对独立、算法使用相对灵活，通过建立机器学习流，提高算法复用率，极大程度简化调参过程，加快了算法开发效率。

有关数据智能的概念阿里集团学术委员会主席、湖畔大学教育长：曾鸣提出

他认为数据智能的概念为：如今人工智能的技术核心，其实是机器用笨办法去算，它的所谓学习是通过概率论的方法，不断地去通过正反馈来优化结果，而不是像人一样去思考学习。这种机器学习的方法必须基于海量数据的校验，必须基于算法的一个不断反馈调整的过程。

并且他认为局限是并存的：局部最优不代表全局最优；对于大多数不能自适应调整算法结构的机器学习算法，在解决系统性问题时往往显得心有余而力不足；一味强调可解释性，是数据智能的大敌。

算法可解释性困局及数据产品化

在企业转型发展的道路上，认知的局限，才是最大的障碍

目前来说绝大多数企业对数据的应用其实都停留在案例二所处的阶段上，在现实应用情景当中，最大的误区就是强调算法可解释性而忽略数据产品化带来的反馈闭环对算法优化及其带来的价值。

局部最优并不等于全局最优，对于大多数不能自适应调整算法结构的机器学习算法，在解决系统性问题时往往显得心有余而力不足。

案例三：终极战场-智慧医疗

面对更高维度、更复杂、更系统性的问题，要么等待技术突破，要么建立算法反馈闭环

我们可以通过数据规整化输入，包括一般诊断数据、患者生物属性、社会属性等。经过智慧医疗系统得到一个规整输出的结果，包括疾病诊断、诊疗方案等。

所谓智慧医疗，就是我们希望能够做到病前提前预警、病中智慧诊疗、病后健康追踪、提供一整套的疾病治疗方案和健康解决方案。

在复杂网络中进行精准预测，训练算法所需数据维度过高、数据量过大
患病本身受到不可预测偶然性因素影响较大，如天气、外事活动带来的交叉感染等
可解释性相关矛盾日益尖锐

出路：靠系统性解决方案解决

数据突破，物联网IoT的发展、Web3.0智能穿戴等
算法突破，算法内部趋于黑箱，从算法设计跃迁至算法结构设计
放弃可解释性，通过产品化建立算法反馈闭环，加快算法迭代速度

按照数据智能思考框架进行思考，要解决升级的需求，首先要做到的就是数据突破，通过个体的基因序列数据，经过Web3.0、智能穿戴、健康穿戴，来打破数据孤岛，关联更多维度的数据。

计算能力升级分为硬升级与软升级硬升级分为：

甚至是实现计算能力的跨越式发展和量子计算机的诞生
Hadoop生态组建自诞生起就在疯狂生长迅速迭代

硬升级与软升级是相互促进和相辅相成的，而算法结构优化、获取计算资源更加便捷、算法研发与执行的进一步分工等，进一步的提高了计算资源的使用效率。

第一代人工智能：基于规则的“智能”，典型代表是IBM的深蓝（Deep Blue）

1997年5月11日，美国ＩＢＭ公司研制的并行计算机“深蓝”击败了雄踞世界棋王宝座12年之久的卡斯帕罗夫。国际象棋每一步的选择以及应对对手某一特殊步骤的最优方案是确定的，只要足够多的定性棋谱以及足够大的计算速度，就能够在对手走任何一步的时候准确判断出下一步应该如何走，就本质上而言，1997年的深蓝是基于规则的人工智能，深蓝本身并不会创造新的战略战术。

第二代人工智能：能够自主学习的人工智能，典型代表：谷歌（AlphaGo）

2016年3月9日到15日，阿尔法围棋程序挑战世界围棋冠军李世石的围棋人机大战五番棋在韩国首尔举行。比赛采用中国围棋规则，最终阿尔法围棋以4比1的总比分取得了胜利。

2017年5月23日到27日，在中国乌镇围棋峰会上，阿尔法围棋以3比0的总比分战胜排名世界第一的世界围棋冠军柯洁。在这次围棋峰会期间的2017年5月26日，阿尔法围棋还战胜了由陈耀烨、唐韦星、周睿羊、时越、芈昱廷五位世界冠军组成的围棋团队。

数据变为无限，世界将会是怎么样，百战百胜的AlphaGo Zero

但目前来说，智能的信息透明，规则透明，结构明确，且因为围棋规则和判断棋局的输赢本身也是一种监督信号，所以总的来说智能现在尚未脱离人类控制，进行自主的学习。

简单的回顾一下，数据智能之路分为三步：

小样本、数理统计方法、单机运行
海量数据、机器学习与数据挖掘、分布式运行
数据突破、计算能力突破、算法突破

数据智能之路将会是以创造社会价值的需求为导向，并且技术突破会伴随着对数据的价值认知不断的提升，最终数据智能将会成为未来商业的核心。

本文为回溯机器学习发展历史阅读笔记，全文链接：
在之后的学习中会以此为学习路线，逐步阅读所有机器学习方面的经典论文，并对本文中简略提及的算法进行总结和详细分析。

机器学习是现阶段解决很多人工智能问题的主流方法。最早的机器学习算法可以追溯到20世纪初，到今天为止，已经过去了100多年。从1980年机器学习称为一个独立的方向开始算起，到现在也已经过去了近40年。

总体上，机器学习算法可以分为有监督学习，无监督学习，强化学习 3种类型。半监督学习可以认为是有监督学习与无监督学习的结合，不在本文讨论的范围之类。

定义： 通过训练样本学习得到一个模型，然后用这个模型进行推理。
举例： 识别水果图像 （分类问题）

利用模型对未知水果进行判断（预测）

若上述预测的是一个实数，如根据一个人的学历、工作年限、所在城市、行业等特征来预测这个人的收入，则属于回归问题。

定义： 没有训练过程，给定一些样本数据，让机器学习算法直接对这些数据进行分析，得到数据的某些知识。
关键词： 没有训练过程
举例： 网页归类 （聚类）

聚类算法对网页进行归类

无监督学习的另外一类典型算法是数据降维，它将一个高维向量变换到低维空间中，并且要保持数据的一些内在信息和结构。

定义： 强化学习是一类特殊的机器学习算法，算法要根据当前的环境状态确定一个动作来执行，然后进入下一个状态，如此反复，目标是让得到的收益最大化。
关键词： 有优化过程，启发式搜索
在每个时刻，要根据当前的棋局决定在什么地方落棋，然后进行下一个状态，反复的放置棋子，直到赢得或者输掉比赛。这里的目标是尽可能的赢得比赛，以获得最大化的奖励。

总结来说，这些机器学习算法要完成的任务是：

分类算法-是什么？ 即根据一个样本预测出它所属的类别。

回归算法-是多少？ 即根据一个样本预测出一个数量值。

聚类算法-怎么分？ 保证同一个类的样本相似，不同类的样本之间尽量不同。

强化学习-怎么做？ 即根据当前的状态决定执行什么动作，最后得到最大的回报。

下图列出了经典的有监督学习算法（深度学习不在此列）：

介绍：基于贝叶斯决策理论，把样本分到后验概率最大的那个类。

介绍：这是一种基于模板匹配思想的算法，虽然简单，但很有效，至今仍在被使用。

总结： 在1980年之前，这些机器学习算法都是零碎化的，不成体系。但它们对整个机器学习的发展所起的作用不能被忽略。
从1980年开始，机器学习才真正成为一个独立的方向。在这之后，各种机器学习算法被大量的提出，得到了快速发展。

介绍：简单，但可解释性强，这使得决策树至今在一些问题上仍被使用。

总结： 在1986到1993年之间，神经网络的理论得到了极大的丰富和完善，但当时的很多因素限制了它的大规模使用。

介绍：SVM代表了核技术的胜利，这是一种思想，通过隐式的将输入向量映射到高维空间中，使得原本非线性的问题能得到很好的处理。

介绍：代表了集成学习算法的胜利，通过将一些简单的弱分类器集成起来使用，居然能够达到惊人的精度。

介绍：在很长一段时间内一直默默无闻，直到2013年后与深度循环神经网络整合，在语音识别上取得成功。

介绍：与AdaBoost算法同属集成学习，虽然简单，但在很多问题上效果却出奇的好，因此现在还在被大规模使用。

总结： 从1980年开始到2012年深度学习兴起之前，有监督学习得到了快速的发展，这有些类似于春秋战国时代，各种思想和方法层出不穷，相继登场。另外，没有一种机器学习算法在大量的问题上取得压倒性的优势，这和现在的深度学习时代很不一样。

相比于有监督学习，无监督学习的发展一直和缓慢，至今仍未取得大的突破。下面我们按照聚类和数据降维两类问题对这些无监督学习算法进行介绍。

聚类算法的历史与有监督学习一样悠久。层次聚类算法出现于1963年[26]，这是非常符合人的直观思维的算法，现在还在使用。它的一些实现方式，包括SLINK[27]，CLINK[28]则诞生于1970年代。

聚类算法中知名度最高的，其历史可以追溯到1967年，此后出现了大量的改进算法，也有大量成功的应用，是所有聚类算法中变种和改进型最多的。

诞生于1977年，它不光被用于聚类问题，还被用于求解机器学习中带有缺数数据的各种极大似然估计问题。

诞生于2000年左右，它将聚类问题转化为图切割问题，这一思想提出之后，出现了大量的改进算法。

经典的PCA算法[14]诞生于1901年，这比第一台真正的计算机的诞生早了40多年。LDA在有监督学习中已经介绍，在这里不再重复。

介绍：非线性降维算法。这是核技术的又一次登台，与PCA的结合将PCA改造成了非线性的降维算法。

介绍：非线性方法。此后，拉普拉斯特征映射，局部保持投影，等距映射等算法相继提出[17-19]。流形学习在数学上非常优美，但遗憾的是没有多少公开报道的成功的应用。

降维算法中年轻的成员，诞生于2008年，虽然想法很简单，效果却非常好。

概率图模型是机器学习算法中独特的一个分支，它是图与概率论的完美结合。在这种模型中，每个节点表示随机变量，边则表示概率。有些晦涩，但理解了之后并不难。

3.3.1 隐马尔可夫模型

诞生于1960年，在1980年代，它在语音识别中取得了成功，一时名声大噪，后来被广泛用于各种序列数据分析问题，在循环神经网络大规模应用之前，处于主导地位。

3.3.2 马尔可夫随机场

马尔可夫随机场诞生于1974年[23]，也是一种经典的概率图模型算法。

贝叶斯网络[22]是概率推理的强大工具，诞生于1985年，其发明者是概率论图模型中的重量级人物，后来获得了图灵奖。

条件随机场[24]是概率图模型中相对年轻的成员，被成功用于中文分词等自然语言处理，还有其他领域的问题，也是序列标注问题的有力建模工具。

相比有监督学习和无监督学习，强化学习在机器学习领域的起步更晚。虽然早在1980年代就出现了时序差分算法[42-44]，但对于很多实际问题，我们无法用表格的形式列举出所有的状态和动作，因此这些抽象的算法无法大规模实用。

神经网络与强化学习的结合，即深度强化学习46-50]，才为强化学习带来了真正的机会。在这里，深度神经网络被用于拟合动作价值函数即Q函数，或者直接拟合策略函数，这使得我们可以处理各种复杂的状态和环境，在围棋、游戏、机器人控制等问题上真正得到应用。神经网络可以直接根据游戏画面，自动驾驶汽车的摄像机传来的图像，当前的围棋棋局，预测出需要执行的动作。其典型的代表是DQN[46]这样的用深度神经网络拟合动作价值函数的算法，以及直接优化策略函数的算法[47-50]。