如何评价DeepMind最新推出的AlphaGo棋局人生及解说

53847 条评论分享收藏感谢收起&创见干货:Google&的「AlphaGo」系统在围棋上以&5&比&0&击败了欧洲围棋冠军,但这个系统的创造者却不能解释个中原因。这难道意味着&AlphaGo&已经具备独立思考的能力吗?&在上个星期,研究人员和人工智能公司「DeepMind」(已经被&Google&收购)宣布了一个重大突破:在上年&10&月份,由&DeepMind&公司设计的计算机系统「AlphaGo」以&5&比&0&的成绩击败了欧洲围棋冠军。这场胜利在上周被刊登在《自然》杂志(Nature)上。&那么这究竟意味着什么呢?随着时间的推进,计算机在棋类游戏上的表现已经越来越精湛了。例如在&1997&年的「黑暗时代」,IBM&的「深蓝」(Deep&Blue)计算机便曾经击败当时的世界象棋冠军加里&·&卡斯帕罗夫(Garry&Kasparov)。和使用&6&类棋子的国际象棋相比,围棋所使用的只是黑白两只。那么为什么将&AlphaGo&在围棋上的胜利视为重大突破呢?原因非常简单:围棋所具备的可能性甚至比整个宇宙的原子数量还多,自然要比国际象棋所具备的可能性要多得多。「深蓝」这类棋牌类程序的运行机制是为所有的可能性构建「搜索树」,但想要为围棋构建「搜索树」绝非一件容易的事情,其计算时间可能长达数百万年,甚至是数数十亿年之久。DeepMind&公司的做法是将「搜索树」(由&Google&公司强大的云计算能力支撑)和深层神经系统结合在一起。和和人类的大脑一样,这种模拟神经元的设计可以通过例子和经验作出反应,因此程序中不同层级之间的连接将在极大程度上得到强化。AlphaGo&首先研究了围棋比赛中的&3,000&万种可能性,进而从现实的棋局中汲取信息。随后,AlphaGo&会通过&50&台计算机和自己进行博弈。配备有强化学习技术的&AlphaGo&在每一次迭代中都会得到优化。实际上,这项技术是&DeepMind&公司在不久前的实验中开发出来的。在这次实验中,DeepMind&公司的类神经网络通过观看电脑游戏的玩家回放,自学成为了一位熟练的游戏玩家。整个过程完全不涉及任何的编程工作。AlphaGo&最让人觉得震撼的一点是:不论是程序本身还是程序的开发者都不能解释它所采取的行动。AlphaGo&能够在许多困难的游戏中展示出专业水准,它所展现的能力和我们所谓的「直觉」非常相近——在无意识推理的情况下汲取知识。截至目前为止,我们一直认为直觉是由人类专属的一种特权。牛顿(Newton)在《自然哲学的数学原理》第二版中曾表示自己从来不作任何的假设。「我从不作任何假设。」他写道,「但我已然知晓。」&如果&AlphaGo&真的可以证明机器也有具备直觉的可能,我们在人工智能技术上的发展将会步入一个全新的阶段。我们目前尚不清楚直觉的运行机制,但我们总是假定直觉只是一个属于人类范畴的名词。由于牛顿是一位天才,因此我们倾向于相信他的说法,正如我们总是倾向于相信一位察觉出孩子异样的母亲,又或者相信某人能够察觉出说谎的人。&重点在于直觉也有可能出错。根据我们的日常经验,直觉在很多时候往往并不正确,因此我们总会要求人们用证据和逻辑推理来佐证他们的直觉。但后面两种元素缺失的时候,直觉的说服力就会大打折扣。在当下阶段,过度关注计算机是否拥有直觉根本毫无必要,AlphaGo&是否能够解释自己所采取的行动也并非一个具有现实意义的问题。然而,当&DeepMind&的联合创始人德米斯&·&哈撒比斯博士(Dr&Demis&Hassabis)实现了他的愿景的时候,这个问题将会被提升至一个全新的高度。「就效果而言,棋牌类游戏确实是开发和测试人工智能技术的一个理想平台。」哈撒比斯在上周发布的一篇博文中写道,「但最终我们还是希望使用这些技术来解决困扰世界已久的一些重要问题。这些技术无疑是具有通用性的,我们的目标是让它们帮助人类解决社会上最为紧迫、严峻的问题,例如气候建模和病毒分析等等。」&另一方面,哈撒比斯认为人工智能技术的开发者需要肩负起一定的社会责任。他一直呼吁人们开展一场以「道德在人工智能技术的开发工作中应扮演怎样的角色?」为主题的辩论。在去年&9&月份所举行的一个活动上,哈撒比斯透露称&Google&公司将会在内部设置一个道德委员会,以便对自己的所作所为进行监督。这个消息引起了与会人员的欢呼。&和领域中的其他人一样,哈撒比斯认为人工智能技术非常强大,因此在长期确实有引发严重道德问题的可能。更有甚者,这项技术甚至还可能威胁到人类的存在。但至少就目前看来,DeepMind&公司所取得的进展非常喜人。无所不能 健康点 运动家
分享到微信朋友圈
AlphaGo在围棋界“孤独求败”,Deepmind再出新一代机器人
日,乌镇,2017AlphagoVs柯洁大赛。图/视觉中国
  撰文 | 李家劲(加州大学洛杉矶分校)
  又“进化”了!新一代机器人AlphaGo Zero诞生,在围棋领域,它会不会感到孤独?
  本周,Nature杂志报道了英国DeepMind团队的最新进展:他们开发出了新一代的围棋AI——AlphaGo Zero。AlphaGo Zero使用强化学习技术(Reinforcement Learning),大幅提升了棋力。它现在能够以更少的计算资源,轻松击败曾经战胜世界冠军李世石、柯洁的AlphaGo前代版本。
  AlphaGo Zero与之前版本最大的区别在于,AlphaGo Zero从随机对局开始,通过自我对弈来提升自己的棋艺,从不依靠任何人类的监督或对局数据。而在以往版本中,AlphaGo都是使用业余和专业人类棋手的对局数据来训练自己。虽然使用人类棋手的数据可以让AI学习到人类的围棋技巧,但是人类专家的数据通常难以获得且很昂贵。此外,即使是专业棋手,也难免会有失误,而使用错误的训练数据可能会降低AlphaGo的棋力。况且,仅仅使用人类数据会让AI局限于人类的围棋知识。
AlphaGo Zero的自我强化学习,图片来自Nature
  更重要的是,AlphaGo在围棋界已是“独孤求败”的境界,所以,要突破自己的界限,甚至围棋知识的界限,显然只有AlphaGo自己才能做自己的老师。
  张峥(上海纽约大学终身教授、国家千人计划特聘专家):
  从算法上来说,AlphaGo Zero更简洁、漂亮,让我想起爱因斯坦的KISS原则:simple but not simpler。这一次,AI在人类的帮助下,在一个给定的规则下,自主发现新知识,并且纠正人类的错误知识,而且以惊人的速度达到这一点。有趣的是,AlphaGo无法解释,只能demo给人类。在这个特定的小领域,人类和人工智能一起创造了新知识。
  经过几百万盘的自我博弈后,AlphaGo Zero进步明显,不仅棋力大幅增强,运算速度也提升了不少。在100盘对局中,仅使用1台机器、4个TPU的AlphaGo Zero对使用多台机器、48个TPU的AlphaGo Lee取得全胜,后者曾经击败韩国名将李世石。在同样配置下,AlphaGo Zero对AlphaGo Master取得89胜11负的压倒性优势,后者就是2017年1月在顶级围棋在线对战平台上取得60战60胜的神秘选手Master。而且,AlphaGo Zero训练了72小时就完胜AlphaGo Lee,仅用40天就超越了AlphaGo Master。这主要得益于DeepMind团队开发的新型强化学习技术。
  何为强化学习技术?简单来讲,强化学习使用一套奖励机制,让AI从中学习到能够获得最大回报的策略。AlphaGo Zero的强化学习主要包含两个部分,蒙特卡洛树搜索算法(Monte Carlo Tree Search,MCTS)与神经网络算法。其中,神经网络算法给出落子方案,以及预测当前形势下的胜方;MCTS算法可以看成是一个弈棋策略的评价和改进工具,它能够模拟出AlphaGo Zero落子在哪些地方可以获得更高的胜率。如果AlphaGo Zero从神经网络得出的下一手棋的走法越相似于MCTS算法输出的结果,则胜率越大,即所谓回报越高。如此,在每一着棋中,AlphaGo Zero都要优化神经网络中的参数,使其计算出的落子方案更接近MCTS算法的结果,同时尽量减少胜者预测的偏差。开始的时候,AlphaGo Zero的神经网络完全不了解围棋,只好盲目下棋。但经过日以继夜的“左右互搏”般的训练,无数盘对局后,AlphaGo Zero迅速从围棋小白成长为传奇棋神。
  除了改进人工智能技术外,DeepMind团队也希望能够通过AlphaGo项目获得对围棋更深的认识。他们发现,AlphaGo Zero仅仅自我对弈几十天就掌握了人类几百年来研究出来的围棋技术,而且棋路独特。例如,AlphaGo Zero很喜欢下出定石(围棋术语)的新型变种。这是因为它没有使用人类数据,不再囿于人类现有的围棋理论。
  “当前的最强版本,AlphaGo Zero向我们展示了即使不用人类的数据,即使使用更少的计算资源,也能够取得长足进步。最终我们想用这些技术进展去解决现实问题,如蛋白质折叠或者新材料设计。如果我们能够在这些问题上取得同样进展,这将会增进人类的认知,从而改善每个人的生活。”DeepMind的共同创办者兼CEO,Demis Hassabis如是说。
  参考资料
  Silver D. Mastering the game of Go without human knowledge. Nature. doi:10.1038/nature24270.
  作品来源:《知识分子》(微信公号:The-Intellectual)
  《知识分子》是由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,致力于关注科学、人文、思想
责任编辑:于达维 | 版面编辑:张翔宇
文章很值,赞赏激励一下赞 赏首席赞赏官虚位以待赞赏是一种态度1元3元6元12元50元108元其他金额金额(元):赞 赏
财新传媒版权所有。如需刊登转载请点击右侧按钮,提交相关信息。经确认即可刊登转载。
财新私房课
caixinenergy
caixin-life
全站点击排行榜
全站评论排行榜DeepMind AlphaGo Zero引爆业内,创造者现身Reddit问答_凤凰科技
DeepMind AlphaGo Zero引爆业内,创造者现身Reddit问答
用微信扫描二维码分享至好友和朋友圈
原标题:DeepMind AlphaGo Zero引爆业内,创造者现身Reddit问答 选自Redd
原标题:DeepMind AlphaGo Zero引爆业内,创造者现身Reddit问答
选自Reddit
机器之心编译
昨日,DeepMind 在《自然》杂志上发表了一篇论文,正式推出人工智能围棋程序 AlphaGo 的最新版本 AlphaGo Zero。同时,在 DeepMind 发布的官方博客中,DeepMind 强化学习团队负责人、AlphaGo 项目负责人 David Silver 视频介绍了最新的 AlphaGo Zero。今天,David Silver 与团队另一成员 Julian Schrittwieser 代表 AlphaGo 创造者在 Reddit 上回答了读者的一系列问题。本文对这些问答作了编译介绍。
David Silver 视频介绍 AlphaGo Zero
以下为 David Silver 与 Julian Schrittwieser 代表 AlphaGo 创造团队在 Reddit 上的问答:
1. 为什么 AlphaGo Zero 的训练如此稳定?深度强化学习极其不稳定且易于遗忘,自我对弈(self-play)也是,两者的结合如果没有很好的(基于模仿的)初始化和大量人类棋谱将是一个灾难。但是 AlphaGo Zero 从零开始,并且没有借助人类棋谱来防止遗忘或死循环。论文对于这点没有涉及,因此你们是如何做到的?
David Silver:相较于典型的(无模型)算法,如策略梯度或者 Q 学习,AlphaGo Zero 采用了一种相当不同的深度强化学习方法。借助 AlphaGo 搜索,我们显著提升了策略和自我对弈的结果,接着我们使用简单的基于梯度的更新训练下一个策略+价值网络。这要比累加的、基于梯度的策略提升更加稳定,并且不会遗忘先前的成果。
2. 你认为 AlphaGo 能解决 Igo Hatsuyoron 120 这个「史上最难死活题」吗?即赢取一个给定的中局或者确定一个现有解决方案(如 http://igohatsuyoron120.de/.htm)?
David Silver:我们刚刚请教了樊麾,他认为 AlphaGo 会解决这个问题,但更为有趣的是 AlphaGo 能否找到书中的答案,或者我们想不到的方案。而这正是我们在 AlphaGo 的训练中多次目睹的事情。
3. 你们认为围棋与星际争霸 2 哪个更有难度?面临的最大潜在技术障碍是什么?正式更新什么时候出来?
Julian Schrittwieser:我们宣布开放星际争霸 2 环境刚过去几个星期,所以现在还处于早期阶段。星际争霸的行动空间确实要比围棋更具挑战性,因为其观察空间要远大于围棋。从技术上讲,我认为两者最大的区别之一在于围棋是一种完美信息博弈,而星际争霸因为有战争迷雾,属于不完美信息博弈。
4. 你觉得数据比算法更重要吗?不过你关于 AlphaGo Zero 的新论文却暗示了另外的含义。
Julian Schrittwieser:我觉得目前算法仍然比数据更重要,只要看看 AlphaGo Zero 比之前几个版本的训练效率高出那么多就能理解。而且我认为在未来,数据在训练效率上的重要性也会大有提升。
5. 由于整个管道只在模型的最新最好版本上展开自我对弈,你们认为模型在使用具体的 SGD 算法更新参数空间时存在过拟合风险吗?看起来最后的模型游戏过程中,模型会稍微依赖于随机初始化权重以及实际面对的游戏状态(作为随机行动采样的结果)。
David Silver:实际上,表征也很可能在其他选择上表现良好。但是我们有 3 个理由使用堆叠的观测历史:(1)它在其它领域(比如 Atari)的常用输入表征是一致的;(2)我们需要一些历史来表征 ko;(3)了解对手最近输入位置的历史很有用,这可充当一种注意力机制(即注意对手的想法很重要)。
6. 这会是 AlphaGo 的最终迭代版本吗?
David Silver:我们已经停止了强化 AlphaGo 的积极研究,但仍保留了研究试验台,以供 DeepMind 人员验证新思路和新算法。
7. DeepMind 和 Facebook 都在大力研究强化学习,你认为是什么令 AlphaGo 的表现能如此快速地提升? 此外对于机器学习前沿,特别是强化学习,其发展趋势如何?
David Silver:Facebook 更关注监督学习,它能产生当时性能最优的模型;而我们更关注强化学习,因为我们相信它最终会超越人类已有的知识而进一步取得提升。我们最近的结果实际上表明,只有监督学习确实可实现令人惊叹的表现,但强化学习绝对是超越人类水平的关键。
8. 有开源 AlphaGo 的计划吗?
David Silver:我们之前已经开源了大量的代码,但过程一直非常复杂。不幸的是,AlphaGo 项目的代码库更加复杂,甚至有点过分。
9. 我们现在可以通过强大的国际象棋引擎给棋手做内部评级,一步一步地分析棋手的下棋过程进而评定 Elo 等级分。这可以使我们更有条理的做事,比如比较不同时代的棋手,而且还有可能提供研究人类认知的平台。这对 AlphaGo 也有效吗?我猜测这对围棋来说会更加复杂,因为在国际象棋中不需要考虑 margin of victory。
Julian Schrittwieser:这确实是个很棒的主意!我觉得我们完全可以在围棋中做同样的事情,可能会以比较最佳落子和每一步落子的价值的方式,或者使用决策网络为每一步落子分配的概率。如果有时间的话,我很乐意尝试。
10. 你们在 AlphaGo Zero 中首先尝试自我对弈训练而不是整合人类比赛数据。为什么 AlphaGo 之前的版本没有使用自我对弈训练呢,还是已经尝试过,但效果没有这么好,为什么?我很好奇这一块的发展和进步。和现在相比,两年前在 AlphaGo 训练过程中使用自我对弈有什么瓶颈吗?从最终成就自我对弈系统的所有迭代中收获了什么「机器学习知觉」(machine learning intuition)?
David Silver:创建利用自我对弈来学习的系统在强化学习领域一直是一个开放性问题。我们最初尝试了文章提到的很多类似算法,发现都不稳定。我们进行了很多次实验,最终发现 AlphaGo Zero 的算法是最高效的,而且应该解决了这个问题。
11. 据说 AlphaGo 柯洁版本仅需李世乭版本处理能力的 1/10。你对此做了哪些优化?也就是说 AlphaGo 柯洁版本的能力是李世乭版本的 10 倍吗?
Julian Schrittwieser:这主要是因为价值/策略网络的改善,训练和架构都变得更好。这篇论文的图 4 对比了不同网络架构。
12. 有考虑过使用生成对抗网络吗?
David Silver:在某种意义上,自我对弈(self-play)训练已经是对抗性质的:每次迭代都试图找到对抗上一版本的「anti-strategy」。
13. 在设计 AlphaGo 系统架构时,最困难的部分是什么?
David Silver:我们遇到的一个重大挑战是在与李世乭比赛期间出现的,当时,我们意识到 AlphaGo 偶尔会受到我们称之为「错觉(delusion)」的影响,即对弈中智能体会持续多次系统地误解当前的棋局,并尝试了很多方法来解决它,如给智能体灌输更多的围棋知识或人类元知识。我们的解决方法是使智能体变得更加条理化,使用更少的知识,更多地依赖强化学习来生成更高质量的解决方案;最终我们取得了成功,在 AlphaGo 中消除了这些问题。
用微信扫描二维码分享至好友和朋友圈
凤凰科技官方微信
播放数:21966
播放数:2476
播放数:580
播放数:164338程序原理/alphago[人工智能程序]
深度学习阿尔法围棋阿尔法围棋(AlphaGo)是一款人工智能程序。其主要工作原理是“深度学习”。“深度学习”是指多层的人工神经网络和训练它的方法。一层神经网络会把大量矩阵数字作为输入,通过非线性激活方法取权重,再产生另一个数据集合作为输出。这就像生物神经大脑的工作机理一样,通过合适的矩阵数量,多层组织链接一起,形成神经网络“大脑”进行精准复杂的处理,就像人们识别物体标注图片一样。
阿尔法围棋用到了很多新技术,如神经网络、深度学习、蒙特卡洛树搜索法等,使其实力有了实质性飞跃。美国脸书公司“黑暗森林”围棋软件的开发者田渊栋在网上发表分析文章说:“‘阿尔法围棋’这个系统主要由几个部分组成:一、走棋网络(Policy&Network),给定当前局面,预测/采样下一步的走棋;二、快速走子(Fast&rollout),目标和走棋网络一样,但在适当牺牲走棋质量的条件下,速度要比走棋网络快1000倍;三、估值网络(Value&Network),给定当前局面,估计是白胜还是黑胜;四、蒙特卡洛树搜索(Monte&Carlo&Tree&Search),把以上这三个部分连起来,形成一个完整的系统。” 两个大脑
阿尔法围棋(AlphaGo)是通过两个不同神经网络“大脑”合作来改进下棋。这些大脑是多层神经网络跟那些Google图片搜索引擎识别图片在结构上是相似的。它们从多层启发式二维过滤器开始,去处理围棋棋盘的定位,就像图片分类器网络处理图片一样。经过过滤,13&个完全连接的神经网络层产生对它们看到的局面判断。这些层能够做分类和逻辑推理。
这些网络通过反复训练来检查结果,再去校对调整参数,去让下次执行更好。这个处理器有大量的随机性元素,所以人们是不可能精确知道网络是如何“思考”的,但更多的训练后能让它进化到更好。
第一大脑:落子选择器&(Move&Picker)
阿尔法围棋(AlphaGo)的第一个网络大脑是“监督学习的策略网络(Policy&Network)”&,观察棋盘布局企图找到最佳的下一步。事实上,它预测每一个合法下一步的最佳概率,那么最前面猜测的就是那个概率最高的。这可以理解成“落子选择器”。
第二大脑:棋局评估器&(Position&Evaluator)
阿尔法围棋(AlphaGo)的第二个大脑相对于落子选择器是回答另一个问题。不是去猜测具体下一步,它预测每一个棋手赢棋的可能,再给定棋子位置情况下。这“局面评估器”就是“价值网络(Value&Network)”,通过整体局面判断来辅助落子选择器。这个判断仅仅是大概的,但对于阅读速度提高很有帮助。通过分类潜在的未来局面的“好”与“坏”,AlphaGo能够决定是否通过特殊变种去深入阅读。如果局面评估器说这个特殊变种不行,那么AI就跳过阅读。
主要成绩/alphago[人工智能程序]
对战机器人
研究者让“阿尔法围棋”和其他的围棋人工智能机器人进行了较量,在总计495局中只输了一局,胜率是99.8%。它甚至尝试了让4子对阵CrazyStone、Zen和Pachi三个先进的人工智能机器人,胜率分别是77%、86%和99%。
日,国际顶尖期刊《》封面文章报道,谷歌研究者开发的名为“阿尔法围棋”(Alpha&Go)的人工智能机器人,在没有任何让子的情况下,以5:0完胜欧洲围棋冠军、职业二段选手樊麾。在围棋人工智能领域,实现了一次史无前例的突破。计算机程序能在不让子的情况下,在完整的围棋竞技中击败专业选手,这是第一次。
日到15日,阿尔法围棋程序挑战世界围棋冠军李世石的围棋人机大战五番棋在韩国首尔举行。比赛采用中国围棋规则,奖金是由Google提供的100万美元。最终阿尔法围棋以4比1的总比分取得了胜利。
日晚起到日晚,阿尔法围棋在弈城围棋网和野狐围棋网以“大师”(Master)为注册名,依次对战数十位人类顶尖高手,取得60胜0负的辉煌战绩。
日,柯洁执黑迎战谷歌AlphaGo,最终柯洁在收官阶段不敌AlphaGo,第一局以失败告终。 赛后,AlphaGo被中国围棋协会授予职业围棋九段称号。 围棋等级分
日,世界职业围棋排名网站GoRatings公布最新世界排名,谷歌旗下DeepMind的人工智能系统AlphaGo以3612分,超越3608分的柯洁成为新的世界第一。 机器遇见机器
日,AlphaGo配对赛开战。对战双方为古力/AlphaGo组合和连笑/AlphaGo组合。比赛从上午8点半开始,最终古力举牌中盘认输,连笑/AlphaGo逆转形势获得胜利,古力组的AlphaGo曾举牌表示认输。 经过短短3天的自我训练,AlphaGo&Zero就强势打败了此前战胜李世石的旧版AlphaGo,战绩是100:0的。经过40天的自我训练,AlphaGo&Zero又打败了AlphaGo&Master版本。“Master”曾击败过世界顶尖的围棋选手,甚至包括世界排名第一的。
设计团队/alphago[人工智能程序]
阿尔法围棋戴密斯·哈萨比斯(Demis&Hassabis),人工智能企业家,DeepMindTechnologies公司创始人。4岁开始下国际象棋,8岁自学编程,13岁获得国际象棋大师称号。17岁进入剑桥大学攻读计算机科学专业。在大学里,他开始学习围棋。2005年进入伦敦大学学院攻读神经科学博士,选择大脑中的海马体作为研究对象。两年后,他证明了5位因为海马体受伤而患上健忘症的病人,在畅想未来时也会面临障碍,并凭这项研究入选《科学》杂志的“年度突破奖”。2011年创办DeepMind&Technologies公司,以“解决智能”为公司的终极目标。
大卫·席尔瓦&(David&Silver),剑桥大学计算机科学学士、硕士,加拿大阿尔伯塔大学计算机科学博士,伦敦大学学院讲师,Google&DeepMind研究员。除上述人员之外,阿尔法围棋设计团队核心人员还有黄士杰(Aja&Huang)、施恩·莱格(Shane&Legg)和穆斯塔法·苏莱曼(Mustafa&Suleyman)等。
发展方向/alphago[人工智能程序]
谷歌Deep&mind首席执行官(CEO)宣布“要将阿尔法围棋(AlphaGo)和、等进行结合”。因为它是人工智能,会自己学习,只要给它资料就可以移植。为实现该计划,哈萨比斯2016年初在英国的初创公司“”投资了2500万美元。巴比伦正在开发医生或患者说出症状后,在互联网上搜索医疗信息、寻找诊断和处方的人工智能APP(应用程序)。如果(AlphaGo)和“巴比伦”结合,诊断的准确度将得到划时代性提高 。2017年5月,以3:0的比分赢下中国棋手柯洁后,AlphaGo宣布退役,但DeepMind公司并没有停下研究的脚步。伦敦当地时间10月18日,DeepMind团队公布了最强版AlphaGo&,代号AlphaGo&Zero。它的独门秘籍,是“自学成才”。而且是从一张白纸开始,零基础学习,在短短3天内,成为顶级高手。对于希望利用人工智能推动人类社会进步为使命的DeepMind来说,围棋并不是AlphaGo的终极奥义,他们的目标始终是要利用AlphaGo打造通用的、探索宇宙的终极工具。AlphaGo&Zero的提升,让DeepMind看到了利用人工智能技术改变人类命运的突破。他们目前正积极与英国医疗机构和电力能源部门合作,提高看病效率和能源效率。
进化升级/alphago[人工智能程序]
AlphaGo Zero强化学习下的自我对弈AlphaGo此前的版本,结合了数百万人类围棋专家的棋谱,以及强化学习的监督学习进行了自我训练。在战胜人类围棋职业高手之前,它经过了好几个月的训练,依靠的是多台机器和48个TPU(谷歌专为加速深层神经网络运算能力而研发的芯片)。AlphaGo&Zero的能力则在这个基础上有了质的提升。最大的区别是,它不再需要人类数据。也就是说,它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈。值得一提的是,AlphaGo&Zero还非常“低碳”,只用到了一台机器和4个TPU,极大地节省了资源。AlphaGo&Zero使用新的强化学习方法,让自己变成了老师。系统一开始甚至并不知道什么是,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行了自我对弈。随着自我的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,DeepMind团队发现,AlphaGo&Zero还独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带来了新的见解。
社会评论/alphago[人工智能程序]
中国围棋职业九段棋手聂卫平:Master(即阿尔法围棋)技术全面,从来不犯错,这一点是其最大的优势,人类要打败它的话,必须在前半盘领先,然后中盘和官子阶段也不容出错,这样固然很难,但客观上也促进了人类棋手在围棋技术上的提高。
复旦大学计算机科学技术学院教授、博士生导师危辉:人机大战对于人工智能的发展意义很有限。解决了围棋问题,并不代表类似技术可以解决其他问题,自然语言理解、图像理解、推理、决策等问题依然存在,人工智能的进步被夸大了。
&|&相关影像
互动百科的词条(含所附图片)系由网友上传,如果涉嫌侵权,请与客服联系,我们将按照法律之相关规定及时进行处理。未经许可,禁止商业网站等复制、抓取本站内容;合理使用者,请注明来源于www.baike.com。
登录后使用互动百科的服务,将会得到个性化的提示和帮助,还有机会和专业认证智愿者沟通。
此词条还可添加&
编辑次数:8次
参与编辑人数:4位
最近更新时间: 10:32:37
贡献光荣榜
扫码下载APP

我要回帖

更多关于 象棋棋局 的文章

 

随机推荐