求西部世界第一季未删缩减

境内个人购汇额度未缩减 不得用于境外买房和证券** - 数据 -南昌乐居网
乐居买房APP
专车看房 优惠买房
乐居二手房APP
最新房源抢先看
新浪装修家居网
抢工长装修APP
抢工长工长版APP
装修不后悔APP
买房利器小程序
乐居看房小程序
楼市报道小程序
房贷计算器
房产家居直播平台
境内个人购汇额度未缩减 不得用于境外买房和证券投资
来源:一财网
在个人客户购买外汇时,需要填写《申请书》。申请书上明确,“境内个人办理购汇时,不得用于境外买房、证券投资、购买人寿保险和投资性返还分红类保险等尚未开放的资本项目。违者将列入‘关注名单’,当年及之后两年不享有个人便利化额度”。
虽然2017年居民5万美元购汇额度并未缩减,但却迎来了更复杂的购汇流程,以及更严格的购汇用途监管。
2017年伊始,第一财经记者发现,无论是手机网银、网点自助购汇机还是网点柜台购汇时,都需要先填写一份《个人购汇申请书》(下称《申请书》)。
在个人客户购买外汇时,需要填写《申请书》。申请书上明确,“境内个人办理购汇时,不得用于境外买房、证券投资、购买人寿保险和投资性返还分红类保险等尚未开放的资本项目。违者将列入‘关注名单’,当年及之后两年不享有个人便利化额度”。
选项更详尽
虽然2017年居民每人5万美元购汇额度并未缩减,但是从昨日起,居民购汇流程相比以往更加复杂。
相比以往在手机银行或网点自助购汇机上随意勾选购汇用途即可使用5万购汇额度购汇,《申请书》对个人购汇用途进行了更详细的调查,分因私旅游、境外留学、公务及商务出国、探亲、境外就医、货物贸易、非投资类保险、咨询服务以及其他共9大项。每个大项后面还跟着三四条子项。例如因私旅游大项就包含了”预计进外停留期限,目的地国家、地区”两个子项。最多的境外留学大项,包含了“学校民称、留学国家、地区,年学费币种、金额,年生活费币种、金额”四个子项。
记者某股份制商业银行手机银行上发现,《申请表》虽然9个大项的子项繁多,但实际操作中并不需要对所选取的子项一一填写。系统依然延续了打钩模式。以招商银行手机银行为例,勾选确认知晓《申请书》后,资金用途只需从14种列出的用途中勾选一项。14种用途分别为除了上述8项《申请书》列出的大项外,还包含了6个其他项:”其他-职工报仇和赡家款、其他-投资收益、其他-经常转移、其他-运输、其他-转悠权利使用费和特许费、其他-其他服务“。
但是,与以往不同,新年以后购汇多了“预计用汇时间”这一必填选项。《申请书》指出,“用汇时实际用途与原填写的《申请书》不一致时需要重新填写一份《申请书》。”而在柜台银行网点员工也提醒,购汇者认真填写用汇时间以免不必要麻烦。
外汇局就《个人外汇申报管理》答记者问中指出,本次改进个人外汇信息申报管理细化了申报内容,明晰个人购付汇应遵循的规则和相应的法律责任。个人办理购汇业务时应认真阅读并如实、完整申报,作出承担相应法律责任的承诺。
此外外汇局相关负责人指出,新年后的申报管理升级还强化了银行真实性、合规性审核责任。要求银行加强合规性管理,认真落实展业原则,完善客户身份识别。按照《金融机构大额交易和可疑交易报告管理办法》(中国人民银行令〔2016〕3号)报告大额及可疑交易。对于存在误导个人购付汇、真实性审核不严、协助个人违规购付汇、未按规定报告大额和可疑交易等行为,监管部门将依法予以处理。
惩罚更严厉
根据《申请书》,如果违法违规套汇,除了可能被列入“关注名单”,此后两年都取消了5万购汇额度外,还可能面临逃汇金额30%左右罚款,以及5万元以下罚款。
记者在招商银行手机银行申请购汇时发现,购汇委托选项弹出一张需要提交的《个人购汇申请书》,并要求:不得虚假申报购汇信息;不得提供不实的证明材料;不得出借本人便利化额度协助他人购汇;不得借用他人便利化额度实施分拆购汇。
值得注意的是,此次《申请书》明确境内个人办理购汇时,不得用于境外买房、证券投资、购买人寿保险和投资性返还分红类保险等尚未开放的资本项目。此外不得参与洗钱、地下钱庄交易等违法违规活动。
《申请书》指出,对于有购汇违规行为的个人,外汇局将会依法列入“关注名单”管理,当年及之后两年不享有个人便利化额度,同时依法移送反洗钱调查。也就是说,列入“关注名单”者,此后两年都取消了5万购汇额度。此外还将依据《中华人民共和国外汇管理条例》第三十九条、第四十条、第四十四条、第四十八条等给予处罚。
记者查阅上述条例发现,第三十九条指出,有违反规定将境内外汇转移境外,或者以欺骗手段将境内资本转移境外等逃汇行为的,由外汇管理机关责令限期调回外汇,处逃汇金额30%以下的罚款;情节严重的,处逃汇金额30%以上等值以下的罚款;构成犯罪的,依法追究刑事责任。
第四十条指出,有违反规定以外汇收付应当以人民币收付的款项,或者以虚假、无效的交易单证等向经营结汇、售汇业务的金融机构骗购外汇等非法套汇行为的,由外汇管理机关责令对非法套汇资金予以回兑,处非法套汇金额30%以下的罚款;情节严重的,处非法套汇金额30%以上等值以下的罚款;构成犯罪的,依法追究刑事责任。
第四十四条明确,违反规定,擅自改变外汇或者结汇资金用途的,由外汇管理机关责令改正,没收违法所得,处违法金额30%以下的罚款;情节严重的,处违法金额30%以上等值以下的罚款。
而四十八条规定则表示,有下列情形之一的,由外汇管理机关责令改正,给予警告,对机构可以处30万元以下的罚款,对个人可以处5万元以下的罚款:(一)未按照规定进行国际收支统计申报的;(二)未按照规定报送财务会计报告、统计报表等资料的;(三)未按照规定提交有效单证或者提交的单证不真实的;(四)违反外汇账户管理规定的;(五)违反外汇登记管理规定的;(六)拒绝、阻碍外汇管理机关依法进行监督检查或者调查的。
外汇局相关负责人指出,此次对个人申报进行事中事后抽查并加大惩处力度。虚假申报、骗汇、欺诈、违规使用和非法转移外汇资金等违法违规行为,将被列入“关注名单”,在未来一定时期内限制或者禁止购汇,依法纳入个人信用记录、予以行政处罚、进行反洗钱调查、移送司法机关处理等。
热日 19:37
热日 16:31
热日 17:18
热日 02:43
热日 16:40
热日 13:41
热日 08:04
热日 10:41
热日 14:07
热日 09:34
2018年监管部门对于乱象整治工作中的大案要案会坚持顶格处罚。
【图解看房】
北京怡生乐居信息服务有限公司
北京市海淀区北四环西路58号理想国际大厦806-810室
乐居房产、家居产品用户服务、产品咨询购买、技术支持客服服务热线:新房、二手房:400-606-6969 &家居、抢工长:400-010-2323个人购汇不得用于境外买房 一年5万美元购汇额度未缩减-通知公告-首都之窗-北京市政务门户网站
服务地切换
个人购汇不得用于境外买房 一年5万美元购汇额度未缩减
来源:北京日报
日期: 13:51
【字号&&&&&&】
  原标题:个人购汇不得用于境外买房 一年5万美元购汇额度未缩减
  1月2日,从本市多家银行获悉,个人购汇的监管已经收紧,无论是手机网银还是网点柜台购汇,都需要先填写一份《个人购汇申请书》。该申请书明确,“境内个人办理购汇时,不得用于境外买房、证券投资、购买人寿保险和投资性返还分红类保险等尚未开放的资本项目。”不过,个人购汇额度可能下调的传言有了明确说法,国家外汇管理局表示,个人年度5万美元的购汇额度没有变化,但会加强对银行办理个人购付汇业务真实性合规性检查,加大对个人购付汇申报事项的事后抽查和检查力度。
  旅游留学正常购汇不受影响
  1月2日,通过工商银行客户端购买外汇,屏幕信息显示需要填写一份《个人购汇申请书》。除了不能用于尚未开放的资本项目,个人购汇更不得参与洗钱、地下钱庄交易等违法违规活动。
  对于存在购汇违规行为的个人,外汇管理机关将会依法列入“关注名单”管理,当年及之后两年不享有个人便利化额度,即此后两年都会被取消5万美元购汇额度。同时,还将依法移送反洗钱调查,可能面临非法套汇金额30%左右的罚款,情节严重的还将追究刑责。
  申请书还对个人购汇用途进行了更详细的划分,分为因私旅游、境外留学、公务及商务出国、探亲、境外就医、货物贸易、非投资类保险、咨询服务及其他共9大项,而每大项后面还设有三四个子项。
  “过去购汇也不能用于境外买房、证券投资、分红保险等资本项下的投资,但由于过去资本是净流入的,央行对5万美元额度内的换汇用途和流向并未做严格监控和跟踪,仅在换汇的时候让居民申报购汇用途,导致部分灰色渠道的存在。”中国银行国际金融研究所王有鑫说。
  国家外汇管理局相关负责人表示,过去,我国国际收支个人购汇中存在一些漏洞,致使部分违规、欺诈、洗钱等行为时有发生,包括通过海外购房和投资等方式,这在一定程度上助长了地下钱庄等违法行为。
  很多市民可能担心,海外留学和旅游的花费较高,5万美元的购汇额度难以覆盖。对此,外汇管理局方面解释说,超过5万美元便利化额度的,提供本人因私护照及有效签证、境外学校录取通知书、学费证明或生活费用证明就可以购汇;出境旅游,可以在便利化额度内按需购汇,也可在境外使用银行卡消费,用汇不受影响。
  打击“蚂蚁搬家”式购汇
  近年来,国人到海外置业已逐渐演变成一种趋势。根据世邦魏理仕发布的报告,中国买家近些年已成为悉尼、纽约地区最大的海外置业大军,在伦敦住宅市场中也愈发活跃。“蚂蚁搬家”式购汇,成为多数人海外置业的主要手法。
  对目前部分个人在境内配置外币资产或购买外币理财现象,外汇局相关负责人表示,“当前我国资本账户尚未实现完全可兑换,资本项下个人对外投资只能通过规定的渠道,如QDII(合格境内机构投资者)等实现。除规定的渠道外,居民个人购汇只限用于经常项下的对外支付,包括因私旅游、境外留学、公务及商务出国、探亲、境外就医等。”
  据悉,个人在境内配置外币资产的选择面较窄,只能持有外币存款或购买品种有限的外币理财。目前,主要发达经济体利率水平仍处于低位,欧、日实施“零利率”政策,美国利率水平也较低,外币存款利息和外币理财收益率明显低于人民币存款利息和理财收益率,且国际汇市波动频繁。相比之下,目前人民币利率水平仍显著高于其他主要货币,境内人民币理财产品的收益率相对较高,产品种类丰富,投资者也更为熟悉,能够满足多元化的资产配置需求。
  理财规划师吴新婷分析,“加强个人购汇监管,对一般老百姓正当的换汇需求没什么影响,主要打击的是恶意换汇以及‘蚂蚁搬家’式的海外置业行为,防止外汇大量流失和恶意做空人民币。”
  另据了解,2016年年初,外汇局升级了针对居民购汇5万美元的监测系统,对于一些购付汇特征进行甄别,有分拆购汇嫌疑的个人,将被列入关注类名单。
  从多家商业银行网点了解到,在居民购汇时,每家银行网点的屏幕上都会有该居民个人信息以及年内已购汇金额和余额。这意味着,过去在A银行购汇5万美元后再去B银行继续购汇的做法已经行不通。(范晓)
转摘声明:转摘请注明出处并做回链
微信公众号
首都之窗服务号
轻松扫一扫
查办事指南
北京发布微博&p&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&1500G人工智能资料下载地址 - 知乎专栏&/a&&/p&&br&&p&这是AI垂直媒体@智能玩咖 (VRdaxue)的馆藏,现在分享给大家。&/p&&p&800G人工智能学习资料下载链接&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1eSnAZse& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1eSnAZs&/span&&span class=&invisible&&e&/span&&span class=&ellipsis&&&/span&&/a& 密码: j9sk&/p&&p&人工智能图书馆&/p&&p&人工智能学术论文资料下载链接:&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1eSCD8Tc& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1eSCD8T&/span&&span class=&invisible&&c&/span&&span class=&ellipsis&&&/span&&/a& 密码: itu1&/p&&p&人工智能融资资料库下载链接:&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1c23ohbi& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1c23ohb&/span&&span class=&invisible&&i&/span&&span class=&ellipsis&&&/span&&/a& 密码: wa9k&/p&&p&人工智能深度解读资料下载链接:&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1pL0PQ7T& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1pL0PQ7&/span&&span class=&invisible&&T&/span&&span class=&ellipsis&&&/span&&/a& 密码: 7ed2&/p&&p&人工智能政策库下载链接:&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1bpd7L5l& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1bpd7L5&/span&&span class=&invisible&&l&/span&&span class=&ellipsis&&&/span&&/a& 密码: 2rrq&/p&&p&人工智能各类报告库汇总下载链接:&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1eRJiReE& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1eRJiRe&/span&&span class=&invisible&&E&/span&&span class=&ellipsis&&&/span&&/a& 密码: hq3s&/p&&p&人工智能技术库资料下载链接:&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1hssqEKO& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1hssqEK&/span&&span class=&invisible&&O&/span&&span class=&ellipsis&&&/span&&/a& 密码: vpge&/p&&p&最详细的人工智能历史资料下载链接:&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1nvr05Fb& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1nvr05F&/span&&span class=&invisible&&b&/span&&span class=&ellipsis&&&/span&&/a& 密码: zi6b&/p&&p&知名人工智能公司介绍资料下载链接&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1o817TN0& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1o817TN&/span&&span class=&invisible&&0&/span&&span class=&ellipsis&&&/span&&/a& 密码: 84yq&/p&&p&人工智能领域重要产品介绍资料下载链接&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1o817TN0& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1o817TN&/span&&span class=&invisible&&0&/span&&span class=&ellipsis&&&/span&&/a& 密码: 84yq&/p&&p&人工智能与行业资料下载链接&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1qYFGU4k& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1qYFGU4&/span&&span class=&invisible&&k&/span&&span class=&ellipsis&&&/span&&/a& 密码: ffih&/p&&p&人工智能电子书库&/p&&p&26本深度学习电子书下载链接:&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1jI5dM6a& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1jI5dM6&/span&&span class=&invisible&&a&/span&&span class=&ellipsis&&&/span&&/a& 密码: j6s6&/p&&p&61本机器人电子书下载链接&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1slhOZE1& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1slhOZE&/span&&span class=&invisible&&1&/span&&span class=&ellipsis&&&/span&&/a& 密码: d8rf&/p&&p&37本大数据电子书下载链接&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1o8t0yOq& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1o8t0yO&/span&&span class=&invisible&&q&/span&&span class=&ellipsis&&&/span&&/a& 密码: 4pte&/p&&p&30本人工智能电子书下载链接&/p&&p&链接: &a href=&//link.zhihu.com/?target=https%3A//pan.baidu.com/s/1cu4ID4& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&pan.baidu.com/s/1cu4ID4&/span&&span class=&invisible&&&/span&&/a& 密码: vtwq&/p&&p&(更多人工智能资料请关注公众号@智能玩咖)&/p&&br&&p&下面是部分资料的截图,感兴趣或者想加入中国最大的人工智能社群的,搜索公众号@智能玩咖 即可。&/p&&br&&figure&&img src=&https://pic1.zhimg.com/50/v2-c4fd62bc5dbd242fec8763_b.jpg& data-rawwidth=&506& data-rawheight=&794& class=&origin_image zh-lightbox-thumb& width=&506& data-original=&https://pic1.zhimg.com/50/v2-c4fd62bc5dbd242fec8763_r.jpg&&&/figure&&br&&figure&&img src=&https://pic2.zhimg.com/50/v2-b043eb36250ed_b.jpg& data-rawwidth=&517& data-rawheight=&707& class=&origin_image zh-lightbox-thumb& width=&517& data-original=&https://pic2.zhimg.com/50/v2-b043eb36250ed_r.jpg&&&/figure&&br&&figure&&img src=&https://pic4.zhimg.com/50/v2-ceb79f9ee_b.jpg& data-rawwidth=&453& data-rawheight=&1023& class=&origin_image zh-lightbox-thumb& width=&453& data-original=&https://pic4.zhimg.com/50/v2-ceb79f9ee_r.jpg&&&/figure&&br&&figure&&img src=&https://pic1.zhimg.com/50/v2-25b9c509abe52ac3a2978b_b.jpg& data-rawwidth=&478& data-rawheight=&662& class=&origin_image zh-lightbox-thumb& width=&478& data-original=&https://pic1.zhimg.com/50/v2-25b9c509abe52ac3a2978b_r.jpg&&&/figure&&br&&figure&&img src=&https://pic2.zhimg.com/50/v2-6e6f677e08d0db5cbaa219e20bc89142_b.jpg& data-rawwidth=&509& data-rawheight=&445& class=&origin_image zh-lightbox-thumb& width=&509& data-original=&https://pic2.zhimg.com/50/v2-6e6f677e08d0db5cbaa219e20bc89142_r.jpg&&&/figure&&br&&figure&&img src=&https://pic1.zhimg.com/50/v2-e2b378ffe137dcda8c0a3e_b.jpg& data-rawwidth=&494& data-rawheight=&664& class=&origin_image zh-lightbox-thumb& width=&494& data-original=&https://pic1.zhimg.com/50/v2-e2b378ffe137dcda8c0a3e_r.jpg&&&/figure&&br&&figure&&img src=&https://pic1.zhimg.com/50/v2-4c5a9f600bde2ef335ea20_b.jpg& data-rawwidth=&385& data-rawheight=&413& class=&content_image& width=&385&&&/figure&&br&&figure&&img src=&https://pic2.zhimg.com/50/v2-40f2f788b8e7a14afc389_b.jpg& data-rawwidth=&628& data-rawheight=&986& class=&origin_image zh-lightbox-thumb& width=&628& data-original=&https://pic2.zhimg.com/50/v2-40f2f788b8e7a14afc389_r.jpg&&&/figure&&br&&figure&&img src=&https://pic2.zhimg.com/50/v2-87ebabe65f492c239d05cf_b.jpg& data-rawwidth=&429& data-rawheight=&627& class=&origin_image zh-lightbox-thumb& width=&429& data-original=&https://pic2.zhimg.com/50/v2-87ebabe65f492c239d05cf_r.jpg&&&/figure&&br&&figure&&img src=&https://pic1.zhimg.com/50/v2-e835d93d37888dac8e355_b.jpg& data-rawwidth=&443& data-rawheight=&877& class=&origin_image zh-lightbox-thumb& width=&443& data-original=&https://pic1.zhimg.com/50/v2-e835d93d37888dac8e355_r.jpg&&&/figure&&br&&figure&&img src=&https://pic2.zhimg.com/50/v2-c4d690de4e4_b.jpg& data-rawwidth=&462& data-rawheight=&494& class=&origin_image zh-lightbox-thumb& width=&462& data-original=&https://pic2.zhimg.com/50/v2-c4d690de4e4_r.jpg&&&/figure&&br&&figure&&img src=&https://pic2.zhimg.com/50/v2-b774ef34fc108c0380a05edd38f52a9d_b.jpg& data-rawwidth=&456& data-rawheight=&772& class=&origin_image zh-lightbox-thumb& width=&456& data-original=&https://pic2.zhimg.com/50/v2-b774ef34fc108c0380a05edd38f52a9d_r.jpg&&&/figure&&br&&figure&&img src=&https://pic2.zhimg.com/50/v2-455e41b7bbc3fbbd31f39_b.jpg& data-rawwidth=&523& data-rawheight=&580& class=&origin_image zh-lightbox-thumb& width=&523& data-original=&https://pic2.zhimg.com/50/v2-455e41b7bbc3fbbd31f39_r.jpg&&&/figure&&br&&figure&&img src=&https://pic4.zhimg.com/50/v2-cc576fedf365e53c9ec8_b.jpg& data-rawwidth=&516& data-rawheight=&817& class=&origin_image zh-lightbox-thumb& width=&516& data-original=&https://pic4.zhimg.com/50/v2-cc576fedf365e53c9ec8_r.jpg&&&/figure&&br&&figure&&img src=&https://pic2.zhimg.com/50/v2-ef76f9a25f25bbe54ed1e2dcc4b315b5_b.jpg& data-rawwidth=&517& data-rawheight=&1037& class=&origin_image zh-lightbox-thumb& width=&517& data-original=&https://pic2.zhimg.com/50/v2-ef76f9a25f25bbe54ed1e2dcc4b315b5_r.jpg&&&/figure&
这是AI垂直媒体@智能玩咖 (VRdaxue)的馆藏,现在分享给大家。800G人工智能学习资料下载链接链接:
密码: j9sk人工智能图书馆人工智能学术论文资料下载链接:链接:
&figure&&img src=&https://pic2.zhimg.com/v2-482edd7c52ebec6c5bd2c2ecad003016_b.jpg& data-rawwidth=&455& data-rawheight=&300& class=&origin_image zh-lightbox-thumb& width=&455& data-original=&https://pic2.zhimg.com/v2-482edd7c52ebec6c5bd2c2ecad003016_r.jpg&&&/figure&&p&AlphaGo是最佳的机器学习入门材料。&br&&/p&&p&1、它取得了巨大成功,用结果证明人工智能技术的能力;&/p&&p&2、它是众多机器学习技术的集大成者,不是单点的技术应用,是个完善的AI系统,搞明白了很多道理就通了;&/p&&p&3、它有公开论文,网上有大量分析讨论帮助你理解它,比看枯燥的技术书籍有意思。&/p&&br&&p&以下文章来自我的算法同事 &a href=&https://www.zhihu.com/people/bf6a107dff050e4dab41c& data-hash=&bf6a107dff050e4dab41c& class=&member_mention& data-title=&@赵印& data-editable=&true& data-hovercard=&p$b$bf6a107dff050e4dab41c&&@赵印&/a& ,他站在算法工程师视角用大白话解读AlphaGo的机制原理。推荐阅读:)&/p&&p&----------------------------------&/p&&p&AlphaGo的故事就不废话了,David Silver和黄世奇的故事也不用废话了,直接切入正题,AlphaGo到底是怎么回事?对于这个topic,网上已经有很多很好的资料了,比如参考文献里的资料。我想从这个案例中得到一些强化学习的启发,所以又翻出来读了一读。对于这个话题感兴趣的同行们,建议一定要自己再去读一读Nature原文&a href=&https://link.zhihu.com/?target=https%3A//gogameguru.com/i/2016/03/deepmind-mastering-go.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Mastering the Game of Go with Deep Neural Networks and Tree Search&/a&(可能因为这篇文章是为了给非专业人士写的,所以该文浅显易懂),然后再看网上的讨论以及分析文章(包括我这篇文章,一些细节会不自然的忽略)。&br&&/p&&h2&从下棋人的角度看围棋&/h2&&p&围棋Go是一种信息完全公开的双人零和博弈,也就是棋局是完全公开的,而且不是你死就是我亡,最多可能是平局。黄世奇和David Silver本身是围棋爱好者,好像最好的成绩是达到了5段水平(本人对围棋一窍不通,所以不知道是什么概念),但是后来就再也没有办法提高了。但是,他们设计出来了一种算法达到了世界水平,虽然他们自己的棋艺没有达到世界水平,但是他们的领域知识在算法研发过程中也产生了很大的作用,只是最后通过借助RL实现了算法的自我进化,一直到AlphaGo最终达到巅峰。&/p&&p&这个故事从头说起,如果从下棋人的角度来看围棋,当你下棋的时候,你需要考虑什么呢?&/p&&ol&&li&预估当前棋面的胜率,看自己是否占优?赢率有多大?&/li&&li&在当前棋面下,应该往哪里落子,落子后棋面的胜率会如何变化?&/li&&li&下棋的最终目标是要赢。&/li&&/ol&&h2&从算法工程师的角度开始设计算法(不断挖坑再填坑)&/h2&&p&第一阶段:传统机器学习方法(监督机器学习阶段)&/p&&p&机器学习算法本质上是大数据驱动的,所以先看看有什么数据可以喂给算法。我们有大量的人类对弈的数据,那么先借助领域知识设计特征,使用机器学习算法监督学习得到一个回归模型和一个分类模型,也就是前面两个问题的答案。&/p&&p&这个时候,监督模型可以很容易训练出来,预测的时候也可以使用softmax直接预测,但是算法的水平很一般,只能达到一个入门水平。&/p&&br&&p&第二阶段:升级模型的复杂度(监督深度学习阶段)&/p&&p&算法优化的几大利器,其中有两个,一个是特征工程,一个是提高模型表征能力。棋谱是图像数据,CNN在ImageNet比赛中大杀四方,是否可以拿CNN模型应用到这里呢?拿CNN模型套上去感觉是个不错的路子,那就试一试。这个方法可以解决两个问题:第一个是没完没了的特征工程(自己的围棋都不是那么好,特征能挖好到哪里去,让模型自己学吧!);第二个是提高模型的表征能力后,理论上可以得到提高模型的预估准确率;&/p&&p&但是,这个时候,发现policy network和value network非常容易过拟合,CNN模型参数太多了,试一试各种正则,发现怎么调参也没有太大的用处。(这条路是不是有问题??有点伤心了!!)如何解决过拟合的问题?&/p&&br&&p&第三阶段:使用强化学习self-play增加训练数据&/p&&p&模型过拟合还有一个方法——添加训练数据!但是世界上收录的棋局已经全部都拿来用了,那怎么办呢?没有数据我们自己造数据呢?听起来也不错!好,使用已有的算法对弈造一些训练数据,然后作为训练数据进行模型训练。这个时候,可能发现过拟合的问题依然没有解决,因为监督模型其实有点像数据的回声,虽然数据量变大了,但是数据很同质,对原来的训练数据没有什么信息增益。(这个时候估计很多人想放弃了,能不能做点更加有商业意义或者用户意义的其他事情了,别在这个坑里纠结了,好绝望!!)&/p&&p&不能放弃!再想招。既然监督算法的下子策略有点像回声,那我随机落子还不行吗?随机下子的数据加进来后可能训练集合的准确率降下来了,但是测试集合的准确率可能也没有提升。因为随机下子和棋手下子的分布差异太大,学不出棋手的思路来。(又想放弃了,是不是)&/p&&p&不能放弃!再想招。看看到现在为止,监督模型的缺点,监督模型希望一直拟合人类棋手下棋的概率,但是却没有规划能力,是否可以结合强化学习搞一搞呢?试一试看看。使用监督学习的policy network作为初始值,不直接学习人类棋局的下一步,而是直接优化最终赢的目标。使用Markov Decision Process的思路,利用动态规划方法选择最好的policy进行对弈,再使用self-play的数据学习value network。想法不错,但是动态规划的计算复杂度太高,那我们采样一下好啦,使用Monte-Carlo的方法进行最好policy对弈。&/p&&p&这个时候,感觉伸手触摸到了上帝!!value network可以较好的学习到大局观(大局观大局观大局观!重要的事情说三遍!),而policy network可以较好的学习到局部最优。而且self-play数据产出了大量的训练数据,使得机器比人还更加厉害了,因为机器见过了无数可能的棋局,而且全部都记了下来。&br&&/p&&br&&p&第四阶段:优化阶段(引入在线学习)&/p&&p&大框架已经确定,剩下的就是好好调参了!利用value network评估棋盘的胜率,利用policy network评估如何下子。但是下子的空间很大,历史数据不可能覆盖所有的可能性,引入online learning的思想,就是一边下棋一边思考(心中自我对弈,补充当前战局的数据,提高统计的置信度)。这个时候引入Monte-Carlo树搜索。自我对弈有两种极端落子策略:一种是随机下子,一种是使用最优策略下子。其中,随机下子统计的数据用处不大,因为对方下棋的分布和随机分布差异太大;最优策略下子的计算又太复杂,走不了几步,还走不到棋局结束,所以也没有办法回溯评估前面下子的胜率。因此,折中一下准确率和预测速度进行自我对弈来统计Monte-Carlo树上分支的概率。而且MC方法需要依赖一个完整的搜索路径,因为不走到最后,我们不知道到底赢了没有,有没有办法可以不依赖呢?有!我们使用一个预估的reward作为学习目标是不是也可以呢?所以TD算法登场了。&/p&&p&这个时候,AlphaGo已经很厉害了!可以干掉所有的其他AIGo了!而且一般人也可以轻松干掉!&/p&&p&第五阶段:分布式并行化加快计算(更大模型更大数据更快实时学习)&/p&&p&到了这个时候,我们有了如下策略:&/p&&ol&&li&使用value networks评估棋面的胜率。&br&&/li&&li&使用policy network评估落子的概率。&/li&&li&使用快速落子策略自我对弈,使用Monte-Carlo搜索树选择最好落子概率或者以一定随机探索选择下子。&/li&&/ol&&p&其中快速落子策略在预测精度和预测速度上做tradeoff时,产生了很大的调参空间,通过并行化提高该策略的精度,理论上可以得到更好的模型。分布式AlphaGo对弈单机版AlphaGo的胜率是77%。这个时候,AlphaGo已经比人类顶级高手还要厉害了!&/p&&br&&h2&写在最后&/h2&&p&上述的5个阶段是根据alphago论文中提及的提升点,然后从一个算法工程师的思维出发看待这个发展过程。但是这个发展过程一定不是这么简单的,做过算法的人都知道,一个算法从开始设计到最后拿到效果,往往是不断挖坑填坑再挖坑再填坑的过程,新领域的新问题往往更加艰难,如果没有坚实的理论基础和坚定的信念是很难坚持到最后的。漫长的优化过程非常考验作者的耐力和心力,作者能够一直坚持下来不放弃,最后产生一个通用AI算法,佩服的五体投地!&/p&&p&想要学习RL精髓,建议看看AlphaGo研发Silver的课程&a href=&https://link.zhihu.com/?target=http%3A//www0.cs.ucl.ac.uk/staff/d.silver/web/Teaching.htmlAlphaGo& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&www0.cs.ucl.ac.uk/staff&/span&&span class=&invisible&&/d.silver/web/Teaching.htmlAlphaGo&/span&&span class=&ellipsis&&&/span&&/a&。AlphaGo是作者多年不断的投入和努力的结晶,参考文献里的两个知乎链接建议看看,从不同视角多看看,往往有不同的收获。&br&&/p&&h2&参考文献&/h2&&a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s/sq5_ZBoWpp9JOPaGkycKyg& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深度 | David Silver全面解读深度强化学习:从基础概念到AlphaGo&/a&&br&&a href=&https://link.zhihu.com/?target=https%3A//gogameguru.com/i/2016/03/deepmind-mastering-go.pdf& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Mastering the Game of Go with Deep Neural Networks and Tree Search&/a&&br&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&AlphaGo的分析 - 知乎专栏&/a&&a href=&https://www.zhihu.com/question/& class=&internal&&DeepMind 研发的围棋 AI AlphaGo 是如何下棋的?&/a&&br&&p&原文链接&/p&&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&解析AlphaGo的搭建过程 - 知乎专栏&/a&
AlphaGo是最佳的机器学习入门材料。 1、它取得了巨大成功,用结果证明人工智能技术的能力;2、它是众多机器学习技术的集大成者,不是单点的技术应用,是个完善的AI系统,搞明白了很多道理就通了;3、它有公开论文,网上有大量分析讨论帮助你理解它,比看枯…
这是非常好的问题,这个问题解决了可以赚到很多很多的钱,实际上这个问题是量化交易中最难解决的问题,我觉得主要有下面的原因(先列个大纲,有时间再一一详述):&br&&br&一,人的学习惯性。&br&&br&
其他自然规律是确定的,如风雨雷电,在特定的参数n输入下,产生的结果是必然的。物理定律不会因为时间不同而失效,数学理论也不会因为时间不同而改变。在多维复杂度比较高有一定概率成分的领域,如文字识别,语音识别,图像识别,围棋,虽然出现的参数可能维度比较高,但结果基本是80%-90%的概率上是确定的。但量化交易在同样的输入参数下只要时间不同,因为人的学习特征,会出现不一样的行为,如大跌后的一年时间内出现大牛市的概率非常小,因为人们没有忘记亏钱时的痛苦,基于巴甫洛夫的条件反射理论,在多次亏损后,人们不会把更多资金投入,大跌后需要很长时间股市才能恢复人气。同样在牛市中,人们会忘记指数市盈率,指数市净率,不断追高,最终制造出大牛市。因为人的学习惯性,会导致涨时涨得很高,跌时跌得很低,大涨后可能会出现新高,大跌可能要持续很长时间。人在学习的过程中实现投资,实质上是非理性的,这个非理性随机原因,会导致基本于理性人的假设出现问题。量化交易实质是赌概率,但同样的参数输入,在不同的时间下,受人们的学习惯性影响,会出现不一样的结果,这会导致概率不稳定性,所以测试过去来预测未来可能没有充分考虑人的学习惯性。能用于量化交易的神经网络系统必定是改进过的,需要增加基于博弈成分参数,这个难度实际上很高,而且效果有限。&br&&br&&figure&&img src=&https://pic1.zhimg.com/50/069ed93ab50aafa43c13_b.jpg& data-rawwidth=&800& data-rawheight=&450& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&https://pic1.zhimg.com/50/069ed93ab50aafa43c13_r.jpg&&&/figure&&br&&br&
人的学习惯性会表现为群体特征,如果你要炒作整个大盘指数,实际上是逆向分析群体心理。如果用神经网络系统建立起多维参数模型来炒用大盘指数,这时就会面临一个问题,你的未来输出解是不确定的,输入也是不确定的。设人的群体学习模型为a,神经网络炒指数模型为b.实际上b的输入参数是学习模型a。这样会导致神经网络模型很难收敛(长时间多次数有效),因为学习模式a是不断动态变化的。神经网络的多维空间的函数逼近功能就被废得差不多了,你很难用多维空间的函数逼近来预测未来,因为输入和输出都不断变化。&br&&br&
在围棋智能程序上,谷歌围棋AlphaGo使用深度神经网络加上搜索技术,来实现n维空间上基于概率的决策。但前提是AlphaGo的输出实际上在概率上是确定的,如中盘和布局阶段,自由空间大些,后面收盘基本上是70-90%以上的确定性。总体上说围棋一定存在最优化解,但求这个解计算量太大(天文数字),只能计算局部最优化解,依靠局部最优化解的不断积累来完成最终目的,依靠神经网络来模拟这个n维函数。围棋的所有计算和数学公式一样,是稳定的。而股票大盘,因为群体的学习特征,不存在最优化解,对局部最优化解也是事后才能看到,把深度神经网络用于炒指数,只会导致对过去过度拟合,对未来成功概率函数的收敛性低,主要原因是神经网络是没有未来的数据。预测未来比你想象的难得多,特别在一个有群体学习特征的n维模型面前。&br&&figure&&img src=&https://pic1.zhimg.com/50/8572c07dcb274ccfd09a_b.jpg& data-rawwidth=&2051& data-rawheight=&1169& class=&origin_image zh-lightbox-thumb& width=&2051& data-original=&https://pic1.zhimg.com/50/8572c07dcb274ccfd09a_r.jpg&&&/figure&&br&&br&二,随机波动。&br&扶乩是古代的一种预测方式,类似的还有抬神乩,占卜,章鱼预测,局座预测等等。这些活动本质上就是利用随机波动,然后建立了多变的理论模式,无论随机波动出现了什么结果,都可以用这些多变的理论模式来套用,来解释,用散户最喜欢说的是事后诸葛亮事前猪一样。你完全可以用程序生成一定概率的相关性随机数,生成每天的股价的开盘价,收盘价,最高价,最低价,成交量,就可以完全生成一条随机的k线图,可以生成几年图,你再用ma,kdj,macd,boll,trix一堆理论去分析,也能解释出为什么会涨,为什么会跌。可见股价的随机游走是很难用技术指标来把握的,很多时候,你调来调去的技术参数,就是一种人工拟合过程,而未来可能是随机数在起作用。你不信可以把在a股过去参数效果不错的macd用于美股,港股,会现发现可能效果很差。扶乩作用对参加交易的人有心理暗示,大家看到大盘macd金叉了,都认为可能要加涨,大家都加大了资金投入,结果真的涨了一点,实质上是一种扶乩的心理加上随机波动方向在里面,而不是因为macd所以就涨了。随机波动让很多人认为技术就是真理,实质只是一种心理安慰,未来会时不时出现概率必然的失效时候,这又让人认为必定有一种100%或99%以上成功概率的必胜技术标志存在,而放弃现有的交易指标,这种囿境迷雾让回测易,实盘难。&br&&br&三,动态博弈。&br&&br&四,资本趋利性。&br&&br&五,零和游戏本质。&br&&br&六,对冲策略原因。&br&&br&七,回测不可靠性。&br&&br&八,概率必定性。&br&&br&九,科学进化。&br&&br&十,多维复杂度。&br&&br&十一、黑天鹅&br&&br&更新于
这是非常好的问题,这个问题解决了可以赚到很多很多的钱,实际上这个问题是量化交易中最难解决的问题,我觉得主要有下面的原因(先列个大纲,有时间再一一详述): 一,人的学习惯性。 其他自然规律是确定的,如风雨雷电,在特定的参数n输入下,产生的结果…
&figure&&img src=&https://pic1.zhimg.com/8f3c2c7ba44a79b148952_b.jpg& data-rawwidth=&1172& data-rawheight=&800& class=&origin_image zh-lightbox-thumb& width=&1172& data-original=&https://pic1.zhimg.com/8f3c2c7ba44a79b148952_r.jpg&&&/figure&&p&北京时间3月9日中午开始了人机大战的第一场:Google的AlphaGo vs围棋九段李在石,历时约三个半小时,首战以AlphaGo告捷。有人欢喜有人愁。但无可否认的一点是科学技术越来越进步了。其中的功臣是AlphaGO背后的深度学习算法。深度学习是什么呢?深度学习为什么如此的火火火(重要的事情说三遍),它又为什么如此地牛呢?哪些方面又是它大展拳脚的地方?&br&&/p&&p& 我们再次跟随着上周百度少帅李磊博士精彩的分享(由太阁实验室举办的深度学习讲座),一探深度学习的奥秘。&/p&&h2&1.什么是深度学习&/h2&&p& 深度学习其实是神经网络网络的品牌重塑。一提到神经网络,我们很容易联想到脑瓜里的千丝万缕。的确,神经网络(Neural Network)模型在发明之初是从人脑神经元这个概念得到灵感。首先我们看一个单一的神经元模型。&/p&&figure&&img src=&https://pic3.zhimg.com/c716cda3fb5552bcd1f0a_b.png& data-rawwidth=&452& data-rawheight=&177& class=&origin_image zh-lightbox-thumb& width=&452& data-original=&https://pic3.zhimg.com/c716cda3fb5552bcd1f0a_r.jpg&&&/figure&&br&&p& 以图像为例子,每个数据或者输入就是一张图片,而里面的每个x可以是图片中的每个像素。对于每个像素我们都赋予一个权重,然后经过转换函数(Transfer Function, 这里是线性叠加)得到一个数值。简单来说,我们对所有像素做个线性加权叠加。得到的数值会经过激活函数得到新的数值。这个激活函数(Activation Function)往往是那几个符合某些特性的非线性函数。为什么需要非线性的转换呢?举个简单的例子,在同一个平面你和你的影子是重叠是分不开的,在立体的空间你们却能分开了。非线性的转换有类似的作用。常用的激活函数有relu, softmax, tanh。&/p&&p& 在认识单个神经元后,我们再来看看以此为基础建立的多层神经网络和深度学习网络。&/p&&figure&&img src=&https://pic1.zhimg.com/b988d9aa9a677ddbbae28bbc_b.png& data-rawwidth=&516& data-rawheight=&289& class=&origin_image zh-lightbox-thumb& width=&516& data-original=&https://pic1.zhimg.com/b988d9aa9a677ddbbae28bbc_r.jpg&&&/figure&&p& 多层神经网络是,每一层神经网络经过转换函数和激活函数后的输出将会成为下一层神经网络的输入,经过从输入层到输出层一层层传播,最后输出结果。从上图可以看出,我们可以简单地认为深度学习是“层数进一步加深的”神经网络。譬如以前是两三层的神经网络,现在可以变成十层,甚至几十层。&/p&&p& 这是深度学习,也是神经网络的基本结构。接着我们要提到另外一个基本概念:代价函数。在工作中有衡量表现好坏的指标,在机器学习中也有衡量模型好坏的指标,这就是代价函数。在测试数据上的代价函数值越低,就说明在测试数据上模型能力表现得越好。这并不针对深度学习,而是对于所有机器学习模型都适用。换句话说,代价函数可以作为模型学习训练过程(training)方向上的指导。常用的代价函数有cross entropy, hinge loss, least square。&/p&&p& 在讲述神经网络常用的训练方法之前,我们提一个和代价函数联系的概念:监督学习。简单地说,妈妈在你小时候告诉什么是狗什么是猫。这里的“告诉”就是她的“监督”。你在她的“监督”之下分辨猫狗的过程就是一种“监督学习”。而深度学习常常也以监督学习的形式出现。代价函数代表着模型输出值与实际结果的误差,而误差作为反馈“一层层往后传播,从而修改模型的参数(譬如单个神经元模型里提到的权重)。这里“一层层往后传播”的训练方法就是经典的神经网络训练方法:反向传播算法(Back Propagation)。具体的实现有SGD,Adagrad,等等。&/p&&p& 深度学习的三个重要方面(模型结构,代价函数,训练方法)已经介绍完了。那么我们接着说说为什么深度学习那么火。&/p&&h1&2.为什么深度学习那么火&/h1&&p& 从1958年单层神经网络被设计,到1975年反向传播算法被发明,直到1996年Yann Lecun(Facebook AI实验室主任)才成功训练出第一个深度神经网络CNN,直到2006年,深度学习的发展才算出现转机。&/p&&p& 曾经一度被打入冷宫,现在却又成为时代的新宠。是什么原因导致深度学习的发展曾一度停滞,又是什么原因使得现在的它变得如此之火?&/p&&p& 其实,在最开始训练深度网络的时候,结果并不理想:层数的增加并没有提高准确率,反而提升错误率了。其中有个重要的原因在Sepp Hochreiter的博士论文中提到:梯度的消失。在反向传播分层训练(Back Propagation)的过程中本应用于修正模型参数的误差随着层数的增加指数递减,导致了模型训练的效率低下。&/p&&p& 后来大家想出各种方法,缓解这方面的问题,使得“层数变得越深,效果变得越好”成为了可能。但是,为什么深度学习现在才火起来而不是以前呢?有两个原因:数据量的激增和计算机能力/成本。&/p&&p&&figure&&img src=&https://pic4.zhimg.com/83fa5dbc287b39de3943_b.png& data-rawwidth=&374& data-rawheight=&211& class=&content_image& width=&374&&&/figure&第一,机器学习里有一句非常经典的话,最后模型的成功不是取决于你的模型多好,而是你有多大的数据量。一般来说,越大的数据量,学出的模型也越好。而深度学习随着层数的增加,模型变得更复杂,从海量数据学习的能力也变得越强,也就越能利用大的数据量。&/p&&p& 第二,虽然神经网络经过层数的增加变成表达能力更强的深度学习,但是随着层数的增加,模型的复杂度,训练时间也会增加,少则几个小时,多则需要多台机器运行几天。这也就是为什么在1996年,哪怕Yann Lecun第一次成功地训练出深度学习网络CNN,深度学习却没有在那时火起来的原因。然而现在,单机的计算能力越来越强,而价格也越来越便宜。科学家和企业,通过廉价的计算机集群比起以前更快地训练出深度学习模型,甚至通过GPU(硬件中的图像处理单元)来一定程度避免了“梯度的消失”的问题。&/p&&p& 但最直接的原因就是它跑出远远超过其他算法好的结果。譬如在2012年的Large Scale Visual Recognition Challenge中,当大部分其他研究小组还都用传统计算图形算法时,多伦多大学的Hinton发出了深度学习这个大招。差距是这样的:第一名Deepnet的错误率是0.16422, 第二名日本东京大学的错误率是0.2617,第三名牛津大学的错误率是0.2679。&/p&&p& 再加上媒体铺天盖地的宣传,深度学习的火爆可谓集齐天时、地利、人和。&/p&&h1&3.深度学习有什么用&/h1&&p& 那么深度学习有什么用呢?它可以和你下棋,你很有可能赢不了它。&/p&&figure&&img src=&https://pic2.zhimg.com/3b260daecfff03fd0dc6e9_b.png& data-rawwidth=&367& data-rawheight=&217& class=&content_image& width=&367&&&/figure&&p&百度的自动车装载深度学习系统,它可以带你游山玩水,万里无忧。它能做出比人类还高的语音识别率。它甚至能“看图说话”或者“看图问答”。&br&&/p&&p&&figure&&img src=&https://pic4.zhimg.com/db234b4a1fbe_b.png& data-rawwidth=&368& data-rawheight=&222& class=&content_image& width=&368&&&/figure&深度学习效果真的很卓越,但是它并不是万金油。虽然很久以前它已经存在,但现在才是深度学习在各个领域大展拳脚的时候。其中自然语言处理和图像视觉是它最得心应手的领域之一。那么接着我们跟随着李磊博士的脚步,简单了解一下百度在深度学习语义和视觉理解方面做出的努力和贡献。&/p&&h1&4.卷积网络与回归式网络&/h1&&p& 在进一步介绍百度的深度学习应用之前,我们需要了解两个重要的神经网络类型:CNN和RNN。如果您对此有所了解,可以直接跳过。&/p&&p& CNN,全称为Convolutional Neural Network。不过它的发明者Facebook AI实验室主任Yann Lecun更习惯把它称为Convolutional Network(卷积网络),而不再和人脑扯上联系。CNN可以由不同的部分组成,这里只讲最主要的部分:Convolutional Layer(卷积层)。 从直观上出发,图像上可以收集的常用特征有:点,角,边。它们在二维平面的分布以及它们的本身可以一定程度表征物体。如果你有计算视觉的背景的话,你会更清楚我说的这些特征具体可以是HoG,SIFT,等等。获取这些特征的方法都是类似的——通过一个filter对图片做卷积运算获得这些特征。下图很好地展示这个过程:粉红色小正方形代表的是filter,右边的每个“乒乓球”就是对整张图扫过一遍后得到的一个个值。以前的方法是人工设计这些filters,而卷积网络的关键是把filter当成是不确定的,通过数据和神经网络学习出使代价函数代价最低的filter。从生物视觉方面理解,我们看东西的时候常有视觉聚焦的时候,被聚焦的部分会有更清晰的特征, filter也是根据同样的直观。&/p&&figure&&img src=&https://pic4.zhimg.com/aa1c21fbc84cd_b.png& data-rawwidth=&422& data-rawheight=&223& class=&origin_image zh-lightbox-thumb& width=&422& data-original=&https://pic4.zhimg.com/aa1c21fbc84cd_r.jpg&&&/figure&&p&RNN,全称是回归式神经网络,Recurrent Neural Network,在1980年被首次提出。以下的图很好表明它的特点,和一般向前传播的神经网络不一样,它会通过W(其实也是个矩阵)传回自己那一层。这里的s代表它的“记忆状态”。从左边的图展开到右边的图我们可以看到,它把它的“记忆状态”不断往前传播。后一个“记忆状态”的改变依靠于前一个“记忆状态”和输入x。所以比起输入长度是固定的一般神经网络,RNN可以处理任意长度的输入。所以RNN本身很适合处理语言,声音之类长度不定的输入。最后补充一个和RNN经常一起提起的概念:Word Embedding。简单地说,它就是把词或者词语从词典映射到实数向量。神经网络本身可以实现这种映射,譬如图下W,U的部分就可以是代表Word Embedding的转换。&/p&&figure&&img src=&https://pic3.zhimg.com/3daf03ae7c3d_b.png& data-rawwidth=&506& data-rawheight=&175& class=&origin_image zh-lightbox-thumb& width=&506& data-original=&https://pic3.zhimg.com/3daf03ae7c3d_r.jpg&&&/figure&&h1&5.应用一:语义解析&/h1&&p& 自然语言处理可以分为两个大块:语言理解和语言生成。而语义解析都可以为这两大块所用。&/p&&p& 我们先看个具体的例子。在百度地图搜索里,当我们输入“武汉理工大学附近的拉面馆”这样的搜索查询时,语义解析就会一显神通。语义解析可以认为本质上是个分类问题。譬如说,机器需要知道“武汉理工大学”是属于center这个类,而“拉面馆”是keywords这个类。然而它又不是个简单的分类问题——词语之间或者字母自己的依赖关系可以为准确的分类提供更可靠的信息。&/p&&p& 那么我们看一下百度处理这个问题简化版的深度学习模型。&/p&&figure&&img src=&https://pic1.zhimg.com/b1fadc827d7f67e14dfa4_b.png& data-rawwidth=&464& data-rawheight=&292& class=&origin_image zh-lightbox-thumb& width=&464& data-original=&https://pic1.zhimg.com/b1fadc827d7f67e14dfa4_r.jpg&&&/figure&&p&像之前所说那样RNN很适合处理语言这种输入——长度不定,然后每个字符或者每个词对于前面的词有依赖关系。首先embedding是把字符映射到数值向量的空间。数值化是便于比较和计算。然后这里有共四层的RNN与RNN(reverse)交替出现。每一对RNN与RNN(reverse)分别充当encoder与decoder,然后共同组成Autoencoder。Autoencoder字面上意思是自编码,大家可以认为这就像压缩和解压缩的过程。当学出这个Autoencoder就可以认为学出这些数据比较好的表示,可以进一步用作其他的任务。剩下其他的部分和一般的神经网络无异。另外补充一句,这里的fully connected layer意思是,现在一层的每个神经元都会连接到下一层所有的神经元。&/p&&p& 上面的例子简单地介绍了用RNN处理语义解析的问题。语义解析不是只有深度学习才能做到,其中概率图模就是一种常用解决方案。但由于深度学习给出了更好的结果,所以受到更多的关注和青睐。语义解析有很多应用,譬如实体识别(识别出地点,人名等等),语法分析(譬如找出主谓宾),机器问答(譬如在一篇文章里,识别中那些词对应的是Harry Potter)。&/p&&p& 除了语言理解,百度还致力于语言生成,譬如在百度的Neural Casual Chatting Machine里,百度就通过深度学习模型实现人机对话。譬如以下的例子,人类问了一句“星球大战好看吗?”机器回了一句“不很好看”。&/p&&figure&&img src=&https://pic4.zhimg.com/84b5ad931feaebcd3b44bdb_b.png& data-rawwidth=&498& data-rawheight=&305& class=&origin_image zh-lightbox-thumb& width=&498& data-original=&https://pic4.zhimg.com/84b5ad931feaebcd3b44bdb_r.jpg&&&/figure&&p& 可以看出这个模型和语义解析的模型很相似,一样利用了RNN的特性。不过这个模型不再是个分类模型,而是个生成模型。经过第一个RNN输出的值不再用来分类,而是作为语言/回答生成的依据。仔细观察这个模型语言生成的流程,就会发现和之前RNN“记忆状态”传递的过程很像——每个字的生成都是由一层RNN(橙色部分)产生的,并且根据的是上一层的RNN的输出(“记忆状态”)和前一个生成的字(譬如“很”的前面是“不”)为依据。&/p&&h1&6.应用二:图像字幕&/h1&&p&
根据语言可以产生语言,那么根据图像可以产生语言,也就是描述性字幕吗?答案是肯定的。&/p&&p& 观察深度学习的语言生成模型,一个很自然的想法是把之前的语言生成模型的encoder部分把适合自然语言处理的RNN换成适合图像处理的CNN。&/p&&figure&&img src=&https://pic2.zhimg.com/7b6fec1fb91_b.png& data-rawwidth=&485& data-rawheight=&269& class=&origin_image zh-lightbox-thumb& width=&485& data-original=&https://pic2.zhimg.com/7b6fec1fb91_r.jpg&&&/figure&&p&当然事情没有那么直接明了。百度深度学习研究院的博士实习生Junhua Mao在处理这个问题式用了个“夹心饼”模型m-RNN, 全称是Multimodal Recurrent Neural Network。我们可以简单地认为是CNN+MultiModal+RNN。在他的论文中,RNN整体结构基本不变,只有在Recurrent和CNN之间加上Multimodal的融合。简单地说,这个模型对CNN,Recurrent和Embedding得到的值做线性相加,然后把得到的值映射多态分布(Multimodal Distribution)空间。&/p&&p& 既然可以根据图像产生字幕,那么根据视频产生字幕应该不会有大问题吧?最近百度被CVPR(图像视觉方面的顶级会议)2016收录的一篇文章“Video Paragraph Captioning using Hierarchical Recurrent Neural Networks”就是用深度学习的方法解决这个问题。这里比较关键的一个地方是如果采用之前“图像字幕”的方法会忽略一个视频里不同段之间的联系。所以百度利用Hierarchical RNN实现了Paragraph RNN,考虑这些联系,并对视频产生更有联系的段落描述。&/p&&figure&&img src=&https://pic1.zhimg.com/035ac9f38f8bf9efcabbcba8_b.png& data-rawwidth=&506& data-rawheight=&290& class=&origin_image zh-lightbox-thumb& width=&506& data-original=&https://pic1.zhimg.com/035ac9f38f8bf9efcabbcba8_r.jpg&&&/figure&&h1&7.应用三:图像问答&/h1&&p& 既然可以对图像进行描述,那么可以根据描述进行图像问答吗?答案依然是肯定的。如果只是用传统的方法,就会出现下图的问题——当问蛋糕颜色的时候,机器可能把重点当成蛋糕上面的水果了。为了解决这个问题,百度在CNN的基础上建立Attention-based CNN,从问题中提取重点,譬如“cake”,然后从图中映射到值得注意的部分(Attention),譬如蛋糕的身体,从而降低回答的失误率。&/p&&figure&&img src=&https://pic2.zhimg.com/ffdc6a76b56c_b.png& data-rawwidth=&483& data-rawheight=&285& class=&origin_image zh-lightbox-thumb& width=&483& data-original=&https://pic2.zhimg.com/ffdc6a76b56c_r.jpg&&&/figure&&h1&8.Paddle:百度的深度学习异构分布式系统&/h1&&p& 百度深度学习研究院的首席科学家吴恩达(Coursera创始人)曾经说过,“重要的不仅是机器学习算法本身,还有能实现它们的平台”。而支撑起之前提到的应用的功臣就是百度的深度学习异构分布式系统Paddle。Paddle每一部分的功能和层次都非常分明——底层把异构的计算资源(CPU,GPU,FPGA)封装起来起来,模型本身(CNN,RNN,Attention)也和具体的训练/优化方法(SGD, LBFGS)独立分开。&/p&&figure&&img src=&https://pic3.zhimg.com/9c839eef40a6f80d9356fff7e0d53fe2_b.png& data-rawwidth=&485& data-rawheight=&259& class=&origin_image zh-lightbox-thumb& width=&485& data-original=&https://pic3.zhimg.com/9c839eef40a6f80d9356fff7e0d53fe2_r.jpg&&&/figure&&h1&9.总结&/h1&&p& 从语义分析,到图像字幕,到图像问答,李磊博士给我们展示了百度在应用深度学习的过程中如何一步步改进模型,使它适用不同的情景。对于初战告捷的AlphaGo,它背后的两个主要深度学习网络(走棋网络和估值网络)也经历这样一步步进化的过程,感兴趣的朋友不妨了解一下&a href=&http://link.zhihu.com/?target=http%3A//bit.ly/1LRZyPx& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&bit.ly/1LRZyPx&/span&&span class=&invisible&&&/span&&/a&。&/p&&p& 然而深度学习不是万金油。在它提供更通用和更有效的解决方案的同时,它在不同情景的使用依然需要大家经验的积累和对问题的思考。虽然依靠着现代强大的计算能力发光发热,但现在的它更像个黑箱子。背后的原理需要大家共同努力发现。&/p&&h1&10.资料汇总&/h1&&p&网上好的资料很多,笔者稍微总结一下。&/p&&ol&&li&&p&想了解神经网络基本原理,包括数学模型,激活函数和代价函数的选择,反向传播算法的推导,可以观看Coursera里由Andrew NG(斯坦福吴恩达教授)教授的Machine Learning&/p&&/li&&li&&p&想一个更统一的角度看CNN与RNN的话,可以了解斯坦福图形视觉大牛老师FeiFei Li的门徒Andrej Karpathy的博客:&/p&&/li&&/ol&&p&&a href=&http://link.zhihu.com/?target=http%3A//karpathy.github.io//rnn-effectiveness/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&The Unreasonable Effectiveness of Recurrent Neural Networks&/a&&/p&&ol&&li&&p&对于深度学习的使用李磊博士推荐百度的平台和CMU的MXNET:&/p&&/li&&/ol&&p&&a href=&http://link.zhihu.com/?target=https%3A//github.com/dmlc/mxnet& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&GitHub - dmlc/mxnet: Lightweight, Portable, Flexible Distributed/Mobile Deep Learning with Dynamic, Mutation-aware Dataflow Dep S for Python, R, Julia, Go, Javascript and more&/a&&/p&&ol&&li&&p&笔者本身尤其推荐Keras (python 深度学习库)。它吸收了Torch(lua语言的深度学习库)的模块化和最小化的思想,非并包括丰富的例子: &a href=&http://link.zhihu.com/?target=https%3A//github.com/fchollet/keras/tree/master/examples& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&keras/examples at master · fchollet/keras · GitHub&/a&。本文的例子很容易通过它来搭建,并有已经实现的例子&/p&&/li&&li&&p&想了解CNN一层层学习的过程,并有可视化,请阅读&a href=&http://link.zhihu.com/?target=http%3A//blog.keras.io/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&The Keras Blog&/a&&/p&&/li&&li&&p&RNN with word embedding: &a href=&http://link.zhihu.com/?target=http%3A//deeplearning.net/tutorial/rnnslu.html& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Recurrent Neural Networks with Word Embeddings&/a&&/p&&/li&&li&&p&语言生成模型:&/p&&/li&&ol&&li&&p&&a href=&http://link.zhihu.com/?target=http%3A//karpathy.github.io//rnn-effectiveness/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&The Unreasonable Effectiveness of Recurrent Neural Networks&/a&&/p&&/li&&li&&p&&a href=&http://link.zhihu.com/?target=https%3A//github.com/fchollet/keras/blob/master/examples/lstm_text_generation.py& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&keras/lstm_text_generation.py at master · fchollet/keras · GitHub&/a&&/p&&/li&&/ol&&li&&p&图像字幕(生成):&a href=&http://link.zhihu.com/?target=http%3A//arxiv.org/abs/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&arxiv.org/abs/&/span&&span class=&invisible&&&/span&&/a&&/p&&/li&&li&&p&视频字幕(生成):&a href=&http://link.zhihu.com/?target=http%3A//arxiv.org/abs/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&arxiv.org/abs/&/span&&span class=&invisible&&2&/span&&span class=&ellipsis&&&/span&&/a&&/p&&/li&&li&&p&图像问答:&a href=&http://link.zhihu.com/?target=http%3A//arxiv.org/abs/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&arxiv.org/abs/&/span&&span class=&invisible&&0&/span&&span class=&ellipsis&&&/span&&/a&&/p&&/li&&/ol&&h1&备注&/h1&以上是太阁实验室讲座“百度少帅李磊博士 —— Large-Scale Deep Learning for Language and Visual Understanding”的总结稿,在笔者(Chi Chen)理解的基础上有所拓展,转载请注明。&p&更多精彩内容, 请扫描下面二维码,关注微信公众账号“论码农的自我修养”&br&&figure&&img src=&https://pic1.zhimg.com/e262b962a09ee6afd6a32fc9bc02f754_b.jpg& data-rawwidth=&258& data-rawheight=&258& class=&content_image& width=&258&&&/figure&&/p&
北京时间3月9日中午开始了人机大战的第一场:Google的AlphaGo vs围棋九段李在石,历时约三个半小时,首战以AlphaGo告捷。有人欢喜有人愁。但无可否认的一点是科学技术越来越进步了。其中的功臣是AlphaGO背后的深度学习算法。深度学习是什么呢?深度学习为什…
&p&&b&发展:&/b&&/p&&p&2016.01 发表Nature 论文,5:0击败樊麾&/p&&p&2016.12 AlphaGo击败其它三个人工智能机器人&/p&&p&2016.03 AlphaGo击败李世石 4:1&/p&&p&2017.05 AlphaGo击败柯杰 3:0&/p&&p&2017.05 宣布AlphaGo不再参加围棋比赛&/p&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-73be6c28a3dac9cdcbf3c04fcb753e45_b.png& data-rawwidth=&237& data-rawheight=&169& class=&content_image& width=&237&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&1. 围棋的基本规则&/p&&p&棋盘是19条纵横的直线将棋盘分为19*19个交叉点,棋子在交叉点上,双方交替行棋,落子后不能移动,以围地多者为胜,并且将对方围住,就可以将这个棋子吃掉。&/p&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-9de036ad2d_b.png& data-rawwidth=&220& data-rawheight=&198& class=&content_image& width=&220&&&/figure&&p&&br&&/p&&p&2. 围棋的特性&/p&&p&围棋不像象棋和军棋那样,越来越少,而是越来越多,所以需要用一个序列来表示棋盘的信息。&/p&&p&3. 下围棋的基本思路&/p&&p&两步骤:1.我们想让机器学习到人类下围棋的一些定式,也就是说遇到给定的局面一般人类会怎么走。2.根据当前棋局,怎么决定以后的下棋策略,即“手下一步棋,心想三步棋”。&/p&&p&4. 抽象出一个数学问题&/p&&p&通过上面的分析,下围棋就是一个不断的决策在哪个地方落子的过程,而棋盘上一共就只有361个位置,所以落子问题,就是一个361的分类问题,一共需要两个分类器,每个分类器选择其中分数最大的位置来落子。&/p&&p&&br&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-ec798e54d6f8bf624203_b.png& data-rawwidth=&813& data-rawheight=&339& class=&origin_image zh-lightbox-thumb& width=&813& data-original=&https://pic4.zhimg.com/v2-ec798e54d6f8bf624203_r.jpg&&&/figure&&p&&br&&/p&&p&5. 采用什么样的模型&/p&&p&围棋是19*19的矩阵,围棋大部分的争夺是在局部区域进行的,许多局部区域组成了整个围棋,而卷积神经网络也是提取的是局部的特征,所以,这里考虑采用卷积神经网络。&/p&&p&&br&&/p&&p&6. 模型的输入和输出&/p&&p&如果我们能够收集到大量已经标记好的落子顺序的棋谱,每一步落子之前的棋面作为输入s,输出是下一步的落子位置a,就会得到大量有标准的数据&s,a&,AlphaGo 的训练数据来自围棋对战平台KGS(qq游戏大厅)获得了3000万个&s,a&的训练样本(来自16万局比赛)。从中训练出了一个类似人类下棋行为的网络。这个网络叫做“走棋网络”SL Policy network.&/p&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-2f4fa622c8d44840e93feb39a1789398_b.png& data-rawwidth=&850& data-rawheight=&249& class=&origin_image zh-lightbox-thumb& width=&850& data-original=&https://pic1.zhimg.com/v2-2f4fa622c8d44840e93feb39a1789398_r.jpg&&&/figure&&p&&br&&/p&&p&7. 以上模型的效果?&/p&&p&以这种监督学习策略的网络已经可以和业余水平的人类过招了,互有胜负。但是距离职业选手还是有很大的差距。&/p&&p&8. 分析以上模型下棋水平不高的原因&/p&&p&
1.训练样本的问题。当初拿的是网络棋牌室的数据去训练的,这些人的水平离职业棋手就有相当大的距离。所以说,“跟臭棋篓子下棋,越下越臭”。与业余选手下棋,训练出来的模型也很难达到专业水平。&/p&&p&2.驱动函数的问题。我们使用的是3000万个有标注的数据对&s,a&,在当前状态s下,lu落在某一个位置的概率就是p(a|s),我们选择最大的概率来落子a,这个过程是没有考虑棋局的输赢信息的,也就是说,赢棋的方案也在学,输棋的方案也在学。即便知道赢棋的方案,但是赢棋者下的棋不一定都是好棋(比如两个臭棋篓子下棋),输棋者下的棋不一定都是坏棋(如两个高手的对弈),那么到底该学习赢棋过程中的哪一步落子序列&s,a&.&/p&&p&9. 模型的改进方案&/p&&p&1.通过落子选择器与自己对局来增加训练样本数据。 &/p&&p&2.改进评估函数。使得更好的体现某一步的落子影响全局的输赢。以全局的输赢为进化的目标。&/p&&p&10.改进评估函数&/p&&p&1.采用新的标签。我们原来的标签数据是&s,a&进行训练的,也就是当前局面作为特征输入,下一步的落子a作为输出。现在,基于整体的局面来进行训练,对原有标签进行改造。&/p&&p&增加新标签z,表示局面对应的胜负情况:1表示赢棋,-1表示输棋,0表示和棋,这样就形成了新的标签&(s,a),z&. 这样训练出来的网络叫做“估值网络”Value network.&/p&&p&2.能否使用之前的16万局棋谱的输赢情况来进行训练呢?结果发现过拟合,它只学习到了赢棋者的落子方案,但赢棋者落子方案中包含有不好的落子,模型把臭棋当做好棋也学习了。&/p&&p&11.怎么挑出好棋来学习-增强学习&/p&&p&我们已经有了“走棋网络”(SL policy network),这时候我们可以让两个走棋网络来自己产生数据,用自己产生的数据来训练“走棋网络”自己。这就是增强学习的实现。&/p&&p&过程:首先走棋网络p0 与p0对弈,产生1万局棋,得到新的训练样本加入到训练集中,训练得到“走棋网络”p1,然后让p1 与p1 对战,得到另外一个新的训练样本加入到训练集中,如此反复。得到了pn.这时候在让pn与p0对弈,赢棋的概率达到80%。这时候训练的网络叫做“增强学习的策略网络”(RL policy network)。增强学习的目的是在于可以提供更好的样本便于估值网络去训练,因为,走棋网络每次都是选择的最大概率的落子方法,所以可以将好棋挑出来。论文中使用的是3000万的人类对弈棋局和3000万的自我对弈棋局。&/p&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-56f3f7a4d0daa7aafc456c12ead58650_b.png& data-rawwidth=&826& data-rawheight=&256& class=&origin_image zh-lightbox-thumb& width=&826& data-original=&https://pic1.zhimg.com/v2-56f3f7a4d0daa7aafc456c12ead58650_r.jpg&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&12.这几个模型都是怎么在训练?&/p&&p&通过两个监督学习策略网络SL policy network 的自我对弈产生3000万训练样本,一是将这3000万个训练样本加入到人类对弈棋局样本中,一共6000万个训练样本,训练得到增强学习策略网络RL Policy network(这个网络并没有评估赢棋的概率)。二是 将这3000万个训练样本(每个样本来自不同的棋局),打上z标签,重新训练得到“价值网络”Value network,&/p&&p&13.怎么网络具有“手下一步棋,心想三步棋”-蒙特卡罗树MCTS&/p&&p&围棋问题实际上是一个树的搜索问题,当前局面是树的根,树根有多少分支,对应着下一步有多少对应的落子,这是树的宽度。之后树不断的生长(推演,模拟),直到叶子节点(开始落子)。从树根到叶子节点,分了多少次枝就是树的深度。树的广度越宽,深度越深,搜索所需要的时间越长。如:围棋一共361个交叉点,越往后,可以落子的位子越少,所以平均下来树的宽度大约为250,深度大约150.如果想遍历整个围棋树,需要搜索250的150次方。所以走一步前,需要搜索折磨多次数是不切实际的。&/p&&p&每次AlphaGo都会自己和自己下棋,每一步都由一个函数决定应该走哪一步,它会考虑如下几个点:&/p&&p&1.这个局面大概该怎么下?(使用SL Policy network)&/p&&p&2.下一步会导致什么样的局面?&/p&&p&3.我赢的概率是多少?(使用Value network+rollout)&/p&&p&首先,“走棋网络”是训练的当前局面s的下一步走棋位置的概率分布,它模拟的是在某个局面下,人类的常见的走棋行为,并不评估走棋之后是否赢棋(区别概率分布与赢棋的概率?)。所以,我们可以假设优秀的走棋方法是在人类常见的走棋范围内的,这样就大大减少了搜索树的宽度。&/p&&p&这时候,使用SL policy network 完成了第一落子,假设走了a1之后,然后对方开始走a2,接着我在走a3.这样一步步的模拟下去.....(这里使用两个SL policy network的自我对弈)假设V(s,a1)赢棋的概率为70%,对方走了V(s,a1,a2)对方赢棋的概率为60%。而走到第三步的时候,我方的赢棋概率V(s,a1,a2,a3)是35%,这时候还要不要在走a1呢?&/p&&p&重新定义V(s)的实际意义:它用来预测该局面以监督学习的策略网络(SL Policy network)自我对弈后赢棋的概率,也就是模拟N次后,AlphaGo认为她走这步棋赢的概率,这个概率是不断的更新。我们用V*表示某一局面赢棋的概率。刚开始v*(s,a1)=70%,在下完第三步后更新为v*(s,a1)=(70%-60%+35%)/3=15%,这个时候V(s,a1)=15%,已经不是之前的70%了,也就是说这个位置可能不是赢棋的概率最大的位置,所以舍弃。&/p&&p&然而发现,SL Policy network 来进行自我对弈太慢了(3毫秒),重新训练了一个mini的SL Policy network,叫做rollout(2微秒). 它的输入比policy network 小,它的模型也小,它没有Policy network 准,但是比他快。&/p&&p&这就是蒙特卡罗树搜索的基本过程,&/p&&p&1.它首先使用SL policy network选出可能的落子区域,中间开始使用value network来选择可能的落子区域。&/p&&p&2.使用快速走子(Fast rollout)来适当牺牲走棋质量的条件下,通过Fast rollout的自我对弈(快速模拟)出最大概率的落子方案,使得AlphaGo 能够看到未来。&/p&&p&3.使用Value network对当前形势做一个判断,判断赢的概率,使得AlphaGo能够看到当下。可见,MC树融合了policy network 、Fast rollout和Value network,使之形成一个完整的系统。&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-8e9c31bc7a1b9a2a6a12e_b.png& data-rawwidth=&892& data-rawheight=&522& class=&origin_image zh-lightbox-thumb& width=&892& data-original=&https://pic3.zhimg.com/v2-8e9c31bc7a1b9a2a6a12e_r.jpg&&&/figure&&p&&br&&/p&&p&14.该怎么搜索最优落子?&/p&&p& 答:每次AlphaGo都会自己和自己下棋,每一步都由一个函数决定应该走哪一步,它会考虑如下几个点:&/p&&p&1.这个局面大概该怎么下?(使用SL Policy network)&/p&&p&2.下一步会导致什么样的局面?&/p&&p&3.我赢的概率是多少?(使用Value network+rollout)&/p&&p&首先,“走棋网络”是训练的当前局面s的下一步走棋位置的概率分布,它模拟的是在某个局面下,人类的常见的走棋行为,并不评估走棋之后是否赢棋(区别概率分布与赢棋的概率?)。所以,我们可以假设优秀的走棋方法是在人类常见的走棋范围内的,这样就大大减少了搜索树的宽度。&/p&&p&
这时候,使用SL policy network 完成了第一落子,假设走了a1之后,然后对方开始走a2,接着我在走a3.这样一步步的模拟下去.....(这里使用两个SL policy network的自我对弈)假设V(s,a1)赢棋的概率为70%,对方走了V(s,a1,a2)对方赢棋的概率为60%。而走到第三步的时候,我方的赢棋概率V(s,a1,a2,a3)是35%,这时候还要不要在走a1呢?&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-d43bbf56e31fd7eaee9e_b.png& data-rawwidth=&650& data-rawheight=&150& class=&origin_image zh-lightbox-thumb& width=&650& data-original=&https://pic3.zhimg.com/v2-d43bbf56e31fd7eaee9e_r.jpg&&&/figure&&p&&br&&/p&&p&重新定义V(s)的实际意义:它用来预测该局面以监督学习的策略网络(SL Policy network)自我对弈后赢棋的概率,也就是模拟N次后,AlphaGo认为她走这步棋赢的概率,这个概率是不断的更新。我们用V*表示某一局面赢棋的概率。刚开始v*(s,a1)=70%,在下完第三步后更新为v*(s,a1)=(70%-60%+35%)/3=15%,这个时候V(s,a1)=15%,已经不是之前的70%了,也就是说这个位置可能不是赢棋的概率最大的位置,所以舍弃。&/p&&p&然而发现,SL Policy network 来进行自我对弈太慢了(3毫秒),重新训练了一个mini的SL Policy network,叫做走棋网络rollout policy(2微秒). 它的输入比policy network 小,它的模型也小,它没有Policy network 准,但是比他快。&/p&&p&首先使用走棋网络SL policy network 挑出一些常见的走棋可能,对于各种可能的状态直接使用快速走子rollout policy 模拟到结束,1表示赢,-1表示负,然后对方也是用快速走子rollout policy模拟,假设模拟结果是2胜1负,则V*(s,a1)=(1+1-1)/3=1/3,&/p&&p&对估值V*不断的更新,如此不断重复,找出赢棋的最大概率落子。这就是蒙特卡罗树搜索的基本过程,&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-cbed9b061aebbe_b.png& data-rawwidth=&898& data-rawheight=&545& class=&origin_image zh-lightbox-thumb& width=&898& data-original=&https://pic3.zhimg.com/v2-cbed9b061aebbe_r.jpg&&&/figure&&p&15.各个网络如何配合完成工作?&/p&&p&答:1.它首先使用SL policy network选出可能的落子区域,中间开始使用
value network来选择可能的落子区域。&/p&&p&
2.使用快速走子(Fast rollout)来适当牺牲走棋质量的条件下,通过
Fast rollout的自我对弈(快速模拟)出最大概率的落子方案,使得AlphaGo 能够看到未来。&/p&&p&
3.使用Value network对当前形势做一个判断,判断赢的概率,使得AlphaGo能够看到当下。可见,MC树融合了policy network 、Fast rollout和Value network,使之形成一个完整的系统。&/p&&p&&br&&/p&&figure&&img src=&https://pic3.zhimg.com/v2-ed96eafcfc4f41ac082be_b.png& data-rawwidth=&305& data-rawheight=&307& class=&content_image& width=&305&&&/figure&&p&&/p&
发展:2016.01 发表Nature 论文,5:0击败樊麾2016.12 AlphaGo击败其它三个人工智能机器人2016.03 AlphaGo击败李世石 4:12017.05 AlphaGo击败柯杰 3:02017.05 宣布AlphaGo不再参加围棋比赛 1. 围棋的基本规则棋盘是19条纵横的直线将棋盘分为19*19个交叉点,棋…
&a href=&//link.zhihu.com/?target=http%3A//blog.csdn.net/songrotek/article/details/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&深度解读 AlphaGo 算法原理&/a&
&figure&&img src=&https://pic3.zhimg.com/0e284c120dce62ecdde5b0d2e828fa44_b.jpg& data-rawwidth=&495& data-rawheight=&369& class=&origin_image zh-lightbox-thumb& width=&495& data-original=&https://pic3.zhimg.com/0e284c120dce62ecdde5b0d2e828fa44_r.jpg&&&/figure&&p&&strong&阿尔法狗与 iPhone 6&/strong&&/p&&br&2014 年 9 月,苹果发布新手机 iPhone 6。全球手机用户都准备好了钞票和肾。&br&&br&然而在 iPhone 6 现身后,许多人一眼瞄到的是那个凸起的摄像头:&br&&figure&&img src=&https://pic4.zhimg.com/8c361e0aaf9d9b8fb8c0dc0ec14e0017_b.jpg& data-rawwidth=&640& data-rawheight=&480& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic4.zhimg.com/8c361e0aaf9d9b8fb8c0dc0ec14e0017_r.jpg&&&/figure&&br&有人感到很恼火:这是什么玩意儿?我不能接受那一块凸起的摄像头。乔布斯要是还在,绝不会允许这种情况出现。&br&&br&为了更好的手感,苹果把 iPhone 6 做得非常薄,再搞个圆弧形的屏幕和机身边缘。至于手机是不是容易滑倒马桶里,他们才不在乎。但把手机做得更薄是一件难事,把摄像头做扁更难。突出的摄像头有复杂的电子原件:&br&&figure&&img src=&https://pic3.zhimg.com/5835dc8fbf2aad4b78e9f74b60b3cb96_b.jpg& data-rawwidth=&640& data-rawheight=&361& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&https://pic3.zhimg.com/5835dc8fbf2aad4b78e9f74b60b3cb96_r.jpg&&&/figure&&br&为了手感和外观可以做薄手机,但相机的成像原件需要一定的空间,否则照片的质量无法保证。于是,苹果这家极度重视用户体验的公司做了这个突兀的摄像头,让无数的处女座和完美主义者茶饭不思。你想要不突出的摄像头?去买个厚一点的手机吧。&br&其实还是有办法的。比如优化镜头的光学结构,或者使用折射率更高的镜片,理论上都能够把摄像头做得更扁。但能扁到什么程度?最终总会到达一个极限值。&br&2014 年突出的摄像头是风向变化的开始。2016 年,我们已经在新的风口。&br&&p&最近 Google 的深度学习计算机 AlphaGo(人称阿尔法狗)以 4:1 战胜人类最好的棋手之一李世石,人工智能成为大家口中的热词,深度学习和神经网络被热烈讨论。但问题的另一面被忽视了:阿尔法狗其实是人类发现拥有的计算能力不足后,研究出的解决方案。&/p&&br&&p&这种情况并不多见。&/p&&br&&p&以往人们面对许多困难问题时,总有一个终极点子:暴力法(Brute Force Attack),反正有摩尔定律带来的大量计算资源,那就用这个海量计算能力去碾压眼前的问题吧。想做出一个能赢人类的国际象棋软件?用机器来暴力穷举所有可能的棋局,战胜人类冠军的「深蓝」电脑不就是这么做出来的么。&/p&&br&&p&现在,围棋棋局的可能数量是 10 的 170 次方,这个数字甚至超过整个宇宙中原子的数量。这么夸张的复杂性,单凭暴力法已经不可能解决问题,突然之间,计算能力成了人类的限制。&/p&&br&&p&然而,有了 Google 的大量资金在深度学习和神经网络算法上,阿尔法狗的胜利意味着在现有计算资源掣肘的局面下,通过新的算法可以取得远超想象的成果。相比起来,暴力法散发着一种原始的气息。&/p&&br&&p&&strong&习惯了的科技进步&/strong&&/p&&br&&p&过去的 10 年里,我们亲身经历了一波科技浪潮,每一个人的生活方式都发生了巨变。&br&&/p&&br&习惯了网购,习惯了薄如记事本的手提电脑,习惯了视网膜高清显示屏,习惯了掏出手机进行简单操作,就能接到电话并条件反射般说出自己的地址就能有车来接,习惯了吃饭的时候刷一下朋友圈的爆款文章,还习惯了科技公司的新品发布会:从乔布斯开始到现在,没开过个发布会都不好意思说自己是 CEO。&br&科技的剧烈发展似乎不像以往那样刺激了,成为了一种理所应当的事情:理所应当每年都会有更好的手机和电脑,理所应当新的手机和电脑都会更快速性能更好。例如最近的苹果公司发布会,虽然无论公司还是产品依旧伟大,我们已经没了那份激动。&br&&figure&&img src=&https://pic1.zhimg.com/e5fdc194d643c8a76c2c_b.jpg& data-rawwidth=&400& data-rawheight=&267& class=&content_image& width=&400&&&/figure&&br&所以要是我们告诉你,过不了几年,你的新手机和电脑的性能可能也不会变得比现在好多少了,你会怎么想?&br&&br&并不是在夸大。再过一阵,全球半导体行业将正式宣布,摩尔定律很快就要结束它的生命和使命,成为历史的一部分。&br&&p&&strong&摩尔定律跟我有什么关系?&/strong&&/p&&br&&p&摩尔定律是许多初次了解科技行业的人最先接触的概念。1965年,因特尔公司的创始人之一高登摩尔(Gordon Moore)在文章中预测:集成电路上的晶体管数量每一年就会翻一倍。很快这个预测被大家称为「摩尔定律」。&br&&/p&&br&&figure&&img src=&https://pic1.zhimg.com/a0f188d5c3_b.jpg& data-rawwidth=&598& data-rawheight=&544& class=&origin_image zh-lightbox-thumb& width=&598& data-original=&https://pic1.zhimg.com/a0f188d5c3_r.jpg&&&/figure&&br&你能用自己的电脑和手机看小视频,上网,做 PPT,算财务模型,叫车叫外卖,约这个约那个,电脑和手机都在一刻不停地帮你做运算。这些运算的核心由设备的微处理器(Microprocessor)搞定,也常被叫做中央处理器(CPU)。它缔造了现代人的幸福生活。&br&&br&&p&微处理器是集成电路(Integrated Circuits)的一种,顾名思义,是「把一堆电路集成到一小块薄片上」。这块薄片上铺了大把大把的电路开关,用来执行电脑最基本的逻辑:开或关,1或0。这些电路开关是所有现代智能设备的最基础的组成部分,他们还有个名字,叫做晶体管(Transistors)。&/p&&br&&p&制作微处理器和晶体管需要的最基本材料是半导体,最常用的最经济实惠的半导体就是硅。所以,微处理器、晶体管和硅是所有现代生活的发源和基石。所以,全球科技中心才会叫做硅谷而不是钛谷铝谷。&br&&/p&&br&&figure&&img src=&https://pic1.zhimg.com/dd919f875dd38f0da714_b.png& data-rawwidth=&300& data-rawheight=&

我要回帖

更多关于 西部世界第一季未删节 的文章

 

随机推荐