AlphaGo与李世石人机第二局棋谱第二局比赛中,黑37手对最终结果造成了怎样的影

李开复:AlphaGo 若打败了世界冠军,意味着什么? --百度百家
李开复:AlphaGo 若打败了世界冠军,意味着什么?
分享到微信朋友圈
创新工场董事长李开复在知乎就AlphaGo与李世石的人机大战发表了自己看法,他认为四个月前的AlphaGo击败李世石基本不可能,不过这四个月AlphaGo进步很多,比赛应该很精彩。
创新工场董事长李开复在知乎就AlphaGo与李世石的人机大战发表了自己看法,他认为四个月前的AlphaGo击败李世石基本不可能,不过这四个月AlphaGo进步很多,比赛应该很精彩。但是,无论这次结果如何,机器1-2年之内必然完胜人类。完胜人类之后呢?可以做个通用的大脑吗?意味着机器可以思考了吗?还有什么问题是机器无法超越人类的?
以下为李开复就“AlphaGo能战胜李世石吗?”在知乎的回答原文:
先直接回答这个问题,下面再分析AlphaGo和人工智能的未来。我认为AlphaGo这次的比赛打败李世石比较悬,但是1-2年之内必然完胜人类。
按照两者的Elo(围棋等级分),可以算出去年年底的AlphaGo打败李世石的概率相当低。如何算出的呢?AlphaGo去年年底的顶级分布式版本的Elo是3168(见下面第一张图),而李世石的Elo大约是3532(全球围棋手Elo:&Go&Ratings&,见下面第二张图)。
按照这两个等级分的两个棋手对弈,
李世石每盘的胜算为89%(,公式见:How&to&Guide:&Converting&Elo&Differences&To&Winning&Probabilities&:&chess链接地址:/r/chess/comments/2y6ezm/how_to_guide_converting_elo_differences_to/&温馨提示:访问此链接需复制粘贴至浏览器打开,下同)。如果对弈一盘,AlphaGo尚有11%的获胜的可能性,而整个比赛五盘胜出三盘或更多,AlphaGo就只有1.1%的可能性了。(当然,按照原来的10月的AlphaGo,只有1.1%,不过现在既然大大进步了,就不一样了,也许今天已经超越了:见下面第三点)。
AlphaGo不是打败了欧洲冠军吗?有些人认为AlphaGo去年底击败了欧洲冠军樊麾,所以挑战(前)世界冠军应有希望。但是,樊麾只是职业二段(Elo&3000左右),而李世石是职业九段(ELO&3532)。这两位的差别是巨大的,完全不能混为一谈。就比如说一个人乒乓球打败了非洲冠军,并不代表他就可以成功挑战中国冠军。
AlphaGo有可能在这几个月突飞猛进,进而击败李世石吗?AlphaGo的负责人说:”外界不知道我们这几个月进步了非常多“。(来自:/2016/alphago-lee-sedol-whos-underdog-in-google-ai-million-go-match/)。这点确实有可能。AlphaGo进步的方法有两个:(1)增加硬件:我们从Nature的文章可以看到:从1202个CPU到1920个CPU,AlphaGo的ELO只增加了28,而且线性地增加CPU,不会看到线性的ELO成长。若要达到364&ELO积分的提升,需要的CPU将达到天文数字(有篇文章估计至少要10万个CPU:/blog-posts/alphago-and-ai-progress)。当然,谷歌有钱有机器,但是纯粹加机器将会碰到并行计算互相协调的瓶颈(就是说假设有十万万台机器,它们的总计算能力很强,但是彼此的协调将成为瓶颈)。在几个月之内增加两个数量级的CPU并调节算法,降低瓶颈,应该不容易。(2)增加学习功能:AlphaGo有两种学习功能,第一种是根据高手棋谱的学习,第二种是自我对弈,自我学习。前者已经使用了16万次高手比赛,而后者也在巨大机组上训练了8天。这方面肯定会有进步,但是要超越世界冠军可能不容易。最后,换一种分析方式:如果从过去深蓝击败世界冠军的“成长过程”来看,深蓝大约1993年达到职业大师水平,4年后才在一场六盘的比赛中击败世界冠军(大约500Elo积分点的提升)。今天的AlphaGo应该和1993年的深蓝相似,刚进入职业大师水平。若要击败世界冠军,虽然未必需要4年的时间,但是几个月似乎不够。
还有什么以上未考虑的因素,导致AlphaGo获胜吗?如果谷歌刻意未出全力和樊麾对抗,或者有其它学习或并行计算方面超越了Nature里面的描述,那AlphaGo完全有可能获胜。
(有最新的消息:李世石预计自己会大胜,不是5﹣0就是4﹣1,他的目标是达到5:0,一盘都不输。AlphaGo负责人认为有50%概率可以战胜李世石,因为最近四个月进步非常大。)
既然写了这么多,就对这个题目再发表一些看法:
AlphaGo&是什么?在今年一月的Nature&(/nature/journal/v529/n7587/full/nature16961.html&)有AlphaGo的详细介绍,AlphaGo是一套为了围棋优化的设计周密的深度学习引擎,使用了神经网路加上MCTS&(Monte&Carlo&tree&search),并且用上了巨大的谷歌云计算资源,结合CPU+GPU,加上从高手棋谱和自我学习的功能。这套系统比以前的围棋系统提高了接近1000分的Elo,从业余5段提升到可以击败职业2段的水平,超越了前人对围棋领域的预测,更达到了人工智能领域的重大里程碑。
AlphaGo&是科学的创新突破吗?AlphaGo是一套设计精密的卓越工程,也达到了历史性的业界里程碑,不过Nature文章中并没有新的“发明”,AlphaGo的特点在于:不同机器学习技术的整合(例如:reinforcement&learning,&deep&neural&network,&policy+value&network,&MCTS的整合可谓创新)、棋谱学习和自我学习的整合、相对非常可扩张的architecture(让其充分利用谷歌的计算资源)、CPU+GPU并行发挥优势的整合。这套“工程”不但有世界顶级的机器学习技术,也有非常高效的代码,并且充分发挥了谷歌世界最宏伟的计算资源(不仅仅是比赛使用,训练AlphaGo时也同样关键)。
AlphaGo的跳跃式成长来自几个因素:1)15-20名世界顶级的计算机科学家和机器学习专家(这是围棋领域从未有的豪华团队:也许你觉得这不算什么,但是要考虑到这类专家的稀缺性),2)前面一点提到的技术、创新、整合和优化。3)全世界最浩大的谷歌后台计算平台,供给团队使用,4)整合CPU+GPU的计算能力。
AlphaGo是个通用的大脑,可以用在任何领域吗?AlphaGo里面的深度学习、神经网络、MCTS,和AlphaGo的扩张能力计算能力都是通用的技术。AlphaGo的成功也验证了这些技术的可扩展性。但是,AlphaGo其实做了相当多的围棋领域的优化;除了上述的系统调整整合之外,里面甚至还有人工设定和调节的一些参数。AlphaGo的团队在Nature上也说:AlphaGo不是完全自我对弈end-to-end的学习(如之前同一个团队做Atari&AI,用end-to-end,没有任何人工干预学习打电动游戏)。如果AlphaGo今天要进入一个新的应用领域,用AlphaGo的底层技术和AlphaGo的团队,应该可以更快更有效地开发出解决方案。这也就是AlphaGo真正优于深蓝的地方。但是上述的开发也要相当的时间,并且要世界上非常稀缺的深度计算科学家(现在年待遇行情已达250万美金)。所以,AlphaGo还不能算是一个通用技术平台,不是一个工程师可以经过调动API可以使用的,而且还距离比较远。
如果这次AlphaGo没有打败李世石,那还要多久呢?IBM深蓝从进入大师级别到比赛击败世界冠军花了四年。AlphaGo应该会比深蓝更快提升自己,因为深蓝需要新版本的硬件,和针对Kasparov的人工调节优化,而AlphaGo是基于谷歌的硬件计算平台,和相对通用的深度学习算法。所以,几个月太短,4年太长,就预计1-2年之间吧。
从国际象棋到围棋,到底是不是巨大的突破呢?肯定是的,在这篇文章里面(在国际象棋领域,电脑已经可以战胜人脑,那么围棋领域电脑还差多远?链接:/question/&),第一位回答者分析了围棋的复杂度为&而国际象棋则只有&。在1997年深蓝击败世界冠军时,大家都认为:深蓝使用的是人工调整的评估函数,而且是用特殊设计的硬件和”暴力“的搜索&(brute-force)&地征服了国际象棋级别的复杂度,但是围棋是不能靠穷举的,因为它的搜索太广(每步的选择有几百而非几十)也太深(一盘棋有几百步而非几十步)。而AlphaGo的发展让我们看到了,过去二十年的发展,机器学习+并行计算+海量数据是可以克服这些数字上的挑战的,至少足以超越最顶尖的人类。
AlphaGo&若打败了世界冠军,就意味着计算机超越人脑?或者可以思考了吗?
我的回答:
在可以凭逻辑分析推算的问题上,机器即将远远把人类抛在后面。机器速度会越来越快,学习能力会越来越强,数据会越来越多。当年,大家讨论“国际象棋输给机器不算什么,围棋才是真正的智慧”只是我们人类维护自己尊严但是不实际的幻想!今天,我们该面对现实了!
在大数据+机器学习+大规模并行计算的时代,我们将看到无数的商机和产品,能够在预测、分析、推荐等方面,产生巨大的商业和用户价值。不过,这些解决方案和人类相比,其实没有什么意义,因为人差太远了(比如说:推荐引擎将能推荐你最可能会买的产品、想吃的菜,想认识的人;自动交易能得到更高的投资回报和风险比例……)。
在感知方面,人类也将会被机器超越。今天的语音识别,人脸识别,未来的自动驾驶,都是例子。
但是,对于那些科幻片的粉丝们:以上都还是冷冰冰的技术,机器人是否会人性化?这还是未知的。毕竟,在情感、喜怒哀乐、七情六欲、人文艺术、美和爱、价值观等方面,机器离人还差的很远,甚至连基础都没有。对人工智能的研究者,这是下一个挑战。对我们人类,在下个突破之前,我们还是多发展右脑吧!
P.S.&-&也许有人好奇,为什么这个话题我说了这么多,因为在1986年,我在读书时,曾经开发了一套黑白棋系统(复杂度),击败了黑白棋的世界团体冠军,而当年的那套系统也有(非常粗浅的)自我学习的能力。有兴趣的网友可以在这里看到我当年的文章:A&pattern&classification&approach&to&evaluation&function&learning&(链接:/science/article/pii/0768)&。
更多知乎讨论请点击原文链接。
原文链接:/question//answer/?code=f0feed8e9dp&state=271cb6ff7f494d249f3d#rd
分享到微信朋友圈
在手机阅读、分享本文
还可以输入250个字
推荐文章RECOMMEND
阅读:1864
阅读:30万
阅读:17万
阅读:17万
热门文章HOT NEWS
对于传统电动两轮车而言,消费者出行代步需求已基本得到满足,而高...
百度新闻客户端
百度新闻客户端
百度新闻客户端
扫描二维码下载
订阅 "百家" 频道
观看更多百家精彩新闻从围棋角度看李世石与 AlphaGo 的第二局比赛有哪些关键之处?
本题已收录至知乎圆桌 >> ,更多关于李世石对战人工智能的解读欢迎关注讨论。----AlphaGo 有哪些违背围棋常规的操作?李世石在策略上有哪些改变?如何看待整局比赛?相关问题:
按投票排序
241 个回答
六七十年前吴清源横扫日本棋坛的时候,最恐怖的不是绝高的胜率,而是赢棋的方法:明明是有定论的坏棋,他不管不顾地下一长串,对手觉得自己一路占便宜,几十手之后回头一看,棋已经输定了;优势下吴有一种“缩小棋盘”的能力,三下五除二,已经没有可以起纷争的地方了。前一点显露的是吴先生领先于整个时代的对围棋的理解:什么是好棋、坏棋,子力的效率,不相关棋子之间产生的潜在关联,在二三十年间吴先生的理解和整个时代的棋手不同。这种胜利不是技术上的胜利,是“穿越”式的碾压。这种情况吴先生之后再也没有出现过。AlphaGo赢李世石的第二盘与上述情况非常相似,让人明显感觉到AI对围棋的理解全面超越了人类。从我这样的业余爱好者到职业高手一致判断AlphaGo吃亏的地方,也许只是因为我们全都处在更低级的理解层次上而已。其实第一盘也有类似的感觉,但因为第一盘李世石自己有明显失误,所以不像第二盘这么触目惊心。
没有太多时间写一个长答案,就简短说一下我感受最深的一点吧:现在职业棋手判断形势的算法,有明显漏洞。职业棋手判断形势的算法大致可以概括成一句话:估算双方的目数(地盘大小)差距。那如果地盘的边界没有完全确定怎么办呢?如果有先手官子就判给先手方,如果是双方后手官子就算一人一半。那么有一些模糊的地方,比如说一块厚势折算成几目呢?这个就只能凭感觉了。今天看各个平台的解说,大概是柯洁的判断最准确。柯洁在中盘阶段就点出黑棋盘面15目左右。古力一度判断小李优势,甚至到官子不多的时候还认为是细棋。金明完也差不多。麦克雷蒙的判断没有仔细听,好像比古力要准一点。芈昱廷在128手的时候认为还是细棋(这个时候柯洁已经判断黑棋明显领先了)。围棋TV的完全没有看,请各位补充。暂且不论到底是谁的判断更准,我们可以简单看一下白128手时候各方的判断。有柯洁说黑棋领先一个贴目,也有说细棋的,甚至有说白棋小优的。这些职业棋手对同一局面判断上的分歧居然能超过一个贴目!这恰好证明了上述算法模糊之处可能产生的巨大误差。那么我们思考一下误差可能产生在何处。第一,先手官子判给先手方。然而在棋盘上,“先手”是个相对概念,逆收官子屡见不鲜。甚至在有些情况下,面对“绝先”,奋力一搏选择脱先他头也不少见。第二,模糊判断。这个问题更大。职业棋手对一块棋厚薄判断的分歧,很可能导致点目结果的南辕北辙。AlphaGo是如何做形势判断的呢?AlphaGo策略组合的其中一部分是价值网络。这一部分的原理以我的水平解释不清楚。为了方便理解,我们考虑前一代AI,Zen的判断方式:通过大量的随机采样估算“胜率”。打个比方,一盘棋下到120手。在这个时候AlphaGo随机落子完成一盘棋,然后判断哪一方在这个随机完成的一盘棋中获胜。重复这个流程多次,比如说十万次,然后其中三万次黑胜,七万次白胜,那么估算出白方的胜率就是70%。当然,AlphaGo的价值网络比Zen的方式要先进很多,让估算的胜率更加准确。感谢评论区
的补充:AlphaGo并非完全随机地模拟剩下的棋局,而是参照了之前的棋谱用落子选择器找出最有可能的几个点,保证速度从效果上来看,估算胜率的效果其实非常好。而且我认为,这样的判断方法是本质的。为什么?首先要明确,虽然理论上来说,某一个局面下,要么是黑方必胜,要么是白方必胜。然而,由于围棋事实上无法被穷举,只能退而求其次估算概率,或者像人类棋手一样估算双方相差的目数。然而,在很多情形下,相差多少目数是没有意义的。举个例子(此处应该有图),黑方确定目数70目,没有潜力。白方确定目数40目,有一块40目潜力的大空。如果黑方立即打入并活出,则40目的潜力只能转化成10目的实地,黑方获胜。如果黑方打入失败,则白棋40目大空围成,白方获胜。黑棋也可以选择保守的浅消,则白方的40目潜力大约能转换为25目实地。这个局面下,如果选择浅消,虽然最后差距会缩小,然而其实胜机也很少。很遗憾,这种局面下,职业棋手很难准确估算打入成活的概率,然而AlphaGo可以。于是心存幻想的人类棋手觉得落后不多,而打入无成算,选择浅消白棋大空,结果白方40目的潜力转化成25目实地,黑棋盘面仅多5目,从而落败。阿尔法狗估算出选择打入的胜率是40%,而选择浅消胜率仅为25%,于是毅然选择打入。不论最后胜负如何,选择打入显然是更好的策略。换句话说,只“领先两目”而胜率80%,和“领先五目”而胜率70%,其实是前者优势更大,然而人类会认为后者优势更大。这或许是人类棋手的命门所在。可叹的是,人类不可能通过大量随机采样来估算胜率。╮(╯▽╰)╭针对评论,补充一点吧。评论区说古力是故意模糊判断形势,实际上他是点清楚了的。也许有这个成分在里面。但是,我作为一个常年在各大平台看围棋直播的棋迷,经常能看到对于同一盘棋的同一个局面,一个解说认为黑领先,另一个解说认为白领先的情况。而且这俩解说都是顶尖职业。事实上职业棋手并不能准确判断形势,即使是在中盘阶段末期。
更新:第三局后盘李世石造劫,AlphaGo提劫。事实胜于雄辩。AlphaGo开发者之一黄士杰(Aja Huang) 在“弈棋”论坛上已辟谣来源:应邀把关于打劫的回复搬上来。"而对于打劫,很多认为AI无法战胜人类的观点,很重要的依据就是围棋有个很复杂的事情就是经常会打劫,AI肯定会晕。但这次和樊麾对局的第5局是出现了打劫的。过程中AlphaGo找劫、应劫都有模有样,来回了十几手,最后是樊麾消劫形成转换。过程中应对没有问题。所以,我感觉打劫并不会成为AlphaGo的软肋。" by李喆 来源:可见AlphaGo是会打劫的。由于比较多人误会补充一下,上文是针对有人说AlphaGo不会打劫以及说7盘局AlphaGo都没有打劫的回复。AlphaGo在占优情况下求稳胜即可没有必要拼打劫。目前主要争论点不在AlphaGo会不会打劫, 而在于李世石为何不打劫。总结一下评论里几方的看法:1. 雪球上王檄九段认为李不打劫是因为劫材不够, 见 2. 部分知乎er认为官子时即使劫材不够, 不打劫一定输, 打劫有较大风险但还有一点赢的几率, 不争取这个机会不符合李的习惯也不符合职业棋手的一般选择。3. 考虑到人机对战的特殊性和当时棋局的压力, 可能会对李的形势判断造成影响。至于较早时期那个劫, 评论太少先不汇总。李放弃打劫是否导致错失胜机,希望棋力高的知乎er来解说一二。
我算是来说一下我从两盘棋里看到的东西吧,算是在微信群里讨论了半天的一个总结。0.
AlphaGo工作原理简介还是简单回顾一下我对alphago工作原理的理解,这有利于解释很多现象。整个alphago还是建立在MCTS基础之上的,但是因为两个深度网络大幅改进了MCTS的效率和准确率。之前的MCTS因为缺乏好的Prior(肯定也有,但是效果都不太好),可以认为几乎是随机扔棋子到终局判断胜负,这样扔例如10000次然后来判断胜率(请忽略我的简化,事实上还是一个tree的展开,怎么平衡深度和广度都是大问题,请参考, )。而alphago首先训练了第一个网络用来走子,且这个走子网络在围棋上非常靠谱,光靠这个网络已经达到了不俗的水平。然后用这个走子网络(快速版),作为MCTS节点展开的Prior,这样就大幅减小了搜索树的规模。根据论文,走子网络加上MCTS已经超越了之前所有AI,而田博士的darkforest也是这样做的()第二个网络是叫价值网络,它是用来进行形势判断的(并不同于人类点目这种手段),也就是说我们不是完全靠MCTS跑完终局才来判断一次胜负,而是直接以当前局面给出一个胜率,这样又大幅提高了搜索的效率。在10月份时,这个网络的能力还并不算出色,而田博士猜测这里可能是alphago会大幅进步之处。简单说就是,两个深度网络有效控制了MCTS展开的深度和广度,所以大大提高了MCTS搜索的效率和准确度。而最终AI将在一个目前已探索到的节点里挑选一个胜率最高的作为下一个落子。但是有一个关键因素在论文里没有给出,就是用时策略,因为更长用时肯定会更大概率找到真正最好的解。知道了原理就可以很好解释为什么之前的MCTS虽然已经进步斐然,但是比AlphaGo的差距巨大;而MCTS又是AlphaGo和darkforest的基础,所以有很多MCTS的特点依然可以被观察到。1.
AlphaGo更擅长大局还是局部计算有一个误区是认为电脑更擅长计算,而人类大局出色,经过这两日比赛已经可以宣布是错误的了。AI在形势判断上全面强于人类毫无疑问。原因如下:从原理上看,电脑始终是以终局作为criteria来判断的,无论是MCTS还是价值网络,所以电脑的走棋真得是不以一地得失来选择下一手,这样的例子例如两局的左下都非常典型。而最终的结果也说明了问题,AI那些最初让人大跌眼镜的着法事后冷静分析(基于职业棋手的评估)也都颇有道理而人类反倒是靠基于逻辑推理的直线计算,可以对局部手段做到尽善尽美。但人类在对整体局面的评估,其实是基于点目(参考)的一种替代手法,而且有很多关于厚薄等无法量化的因素,现在来看是有缺陷的,最关键的证据是职业高手群体许多时候的判断也是不一致的,差异还可能很大。2.
AlphaGo为什么会犯低级错误典型如例如第一局的142,这样的例子很多,经过人脑的逻辑分析都可以找到局部更优的着法,但无一例外的是这些小失误都是在(几乎)胜定时发生的。原因也要从AI工作原理来分析。因为AI追求的唯一目标是终局的胜率,而另一方面又有用时的限制,所以AI一定会在搜索精度和耗时上有个tradeoff。当局面优势最够明显时,会有许多下法都能保证最终的胜利,而胜率评价上可能差不太多。这时会出现的可能有两种:一是最优和次优的胜率很接近,但是因为蒙特卡罗的随机性在一次仿真里次优的得分会更高,所以选择了次优(这个将来可以很好被验证:就是每一次同样局面电脑的选择会不同)。二是,当寻找了一些节点后发现胜率都很高,根据用时的trade-off就不再继续搜索了,因此可能会漏掉搜索一些更好的点。3.
Alphago打劫会是弱点吗李世石昨天数度放弃了打劫的选择让人遗憾,为此围棋界差不多吵翻了天,而相对客观的分析来自李喆()。另外就是来自本次比赛的裁判,第一个被alphago战胜的职业棋手樊麾对现场李世石的描述:当时李世石已经心理压力极大,手在发抖,而樊麾是最理解这种心态的人。但大家争论的另一个焦点是AlphaGo打劫弱吗?有学术代表给出了Aja Huang前些年专门研究打劫的论文,这算是一个证据。但因为AlphaGo这边测试不够(樊麾的第五局其实已经有打劫了),而之前AI打劫都是很大的问题,所以公信力不够。另一方面,仍然从原理分析,打劫意味着变化的复杂度增加许多,而且基于逻辑分析的直线计算并不是电脑下棋的原理,所以它需要更多的搜索才能准确判断优劣。而这时,如果有另外一个着子选择的胜率并不差,但变化相对简单,AI会毫不犹豫的选择这个变化而不考虑打劫。所以,我认为打劫可能会是AI相对较弱的地方,但并不一定弱到哪儿去,只是因为计算难度的提高使得它更难以判断其优劣,在有其他次优选择时电脑会“主动”放弃打劫。所以刻意求打劫并不是好的主意,只有那种自然形成的华山一条道的打劫才会真正测试到AI打劫的能力。在此之前都只是不太靠谱的猜测。4.
AI的胜率曲线第一局AlphaGo认为自己完胜,第二局许多人类认为AlphaGo完胜,它却不这么看。这个短短的两句话其实很有信息量可以供我们分析。第一局的问题很多人已经解释过了,事实上左下下完几乎所有人都认为黑好时,是基于右边没有大的出入的点目判断。但事实上是,电脑认为102之后的结果是必然,那黑棋形势就的确从来没好过,而这样反过来看86就是照顾全局的好棋,争夺到先手走到102缩小右下的价值(本来人的思维是右下左上见和),然后116守住左上,留一个鸡肋右下给对手。而事实上右下即使李世石不按实战,走尖顶的话还是会略差一点。第一局AlphaGo一路领先,信息有限。第二局透露出中盘AlphaGo自己也不觉得是优势,却是怎么回事呢?前一手还是算出55%的胜率,当对手下了一手后却变成了50%,这件事情是很有意思的。假设是确定性算法,那AI一定会照自己的既定计划一直进行,那胜率曲线只会单调上升;而胜率既会上升也会下降说明AI的选子和评估都是有缺陷和波动的!正是因为李世石的某些好棋超出了AI的落子和评估,才使得它接下来下调了胜率,而另一方面还是蒙特卡罗的本质,使得其每一次的评估不可能完全一样,一次小概率的连续18次大可能使得它误判了下一手的胜率,在对手之后重新评估又下调了胜率的评估。另一方面,评估也依靠的价值网络虽然是确定性的,但也一定是有判断的误差,很有可能对两个相邻不远的局面给出了较大的评估差异。5. 让先能赢AI吗参考第2点,可以知道的事情是AI在胜率较高时,会走出非最优的着法。所以不少人在讨论让先/贴目的方式来逼出电脑的最强功夫。关于这一点,我不太确认答案,如果有职业高手充分理解了AI工作原理,也许能更好得到答案。但有一个推论是值得注意的,也就是AI这种特性决定了它遇强则强,遇弱则弱,所以我们很有可能被10月樊麾的棋谱给欺骗了,AI在优势下表现出的不正常并不足以用来评估其实力。而如果假设当前最强人类在不犯错的情况下(即允许无限悔棋),跟当前的AI是平手,那我认为差距接近是让先,因为所有棋谱来看,每盘棋人犯错的损失加起来大多都不止一个贴目的。所以我同意李喆文章里对李世石策略的分析,立足不犯错的情况下对付AI,而他已经在短暂的时间成功逆转了胜率曲线的趋势。至于具体差距,谁说了也不作数,那是需要等谷歌公开测试,一拥而上之后才能更好评估的;但另一方面,我更希望看见谷歌公开AlphaGo自我对战的棋谱,因为不可能两方一直维持50%:50%的胜率判断,而判断的差异和胜率曲线变动的地方就都是研究AI特点的关键点,而自我对战的棋谱也更利于发现AI到底是怎么下棋的(抑或下得不是棋:P)6
AIphaGo是围棋上帝吗理论上来说,显然不是,没有严格数学证明是没办法说是围棋上帝的,至少连象棋国象都还没能说这话。但是离围棋上帝到底有多远,这谁也不知道,只能说进一步提高算法以及和人类co-evolution后会逐步逼近。但是AlphaGo在革新人类围棋理念和水平上的进步,我相信是会比吴清源,李昌镐更大的。总结:人的优势在逻辑推理,快速学习和总结经验;而缺点在于情绪,状态波动和非准确的形势判断。而电脑最大的优点是准确的形势判断和极少犯错,可能的缺点:1. 胜率评估非基于逻辑推理的计算,而是大量模拟的合理兼不合理局面。所以打劫也许有机会,但只有那种自然形成的复杂打劫才有一点可能测试到AI的极限; 2. 不可控的随机波动。只有知己知彼,才有希望这次或将来战胜AI,推动围棋的整体进步。
我觉得这个程序已经对人类无敌了,柯洁大棋渣来也一样今天现场嘉宾解释了,计算机会选择获胜概率最大的走法,至于赢多少目不在考虑之中。假设有两种走法,A有80%的可能赢20目,B有90%的可能赢1目,程序会选择B。而人类往往会选择多积累一些优势,以便后面出勺子的时候还可以兜住。这样就造成计算机看起来总是只比对手强一点点,只要够赢就可以了。他跟二段下,看起来就只有三段水准。跟李世石下,看起来不如柯洁。跟柯洁下,仍然要比柯洁高一点点。如果Alphago自己跟自己下,人类就看不懂了。就像我看不懂9段的棋一样。update - 评论里吵起来了。附上 alpha go 论文下载链接
,需要的自取
最近参与了几个讨论,我发现大家普遍对Alphago理解出了问题,我想明确的先说我的观点:这次的比赛看点主要是Alphago对局势的评估系统好还是李世石九段对棋甚至职业棋手们对围棋的评断标准好。在我看来,Alphago对围棋界的积极意义和吴大师提出新布局有同样的地位(甚至更高),都是对围棋理论的重大推动。看的过程中,棋迷朋友们可能会明显感觉Alphago大量俗而有力地下法是它简明取胜的不二法宝,很少保留变化,目的十分明确,有一点像全盛时期李昌镐和小林光一的下法。很多人总爱拿计算力说事,讲道理计算力强从来不是真正的亮点。且不论现在计算力远远达不到穷举围棋变化的地步,大家可以先设想一下,假如你可以一个汉字一个汉字穷举完世上所有的诗歌,如果你没有一个评判标准,既没有什么时候表达什么的需求,也不知道每一篇是什么用意,请问那对你的创作有什么实际意义么。Alphago的突破在于他在关键地方节省了计算资源,建立了优秀的评估标准指导自己的每一步,从这两盘来说,创新能力很强,开局套路都是几乎从没出现过的,中后盘分寸感非常好,进退有度。推荐想认真理解整个架构的移步田博士的专栏:我在这里简要说一下,AlphaGo这个系统由蒙特卡洛树搜索做核心,把三个部分连接起来,分别是:1.走棋网络。2快速走子。3,估值网络。上午有人问我,是不是Alphago以下出最强变化为目的,以我现在看到的来说,绝对不是,他在一个局部得分以后会在其他地方选择明显保守一些的变化,十分中正平和。我感到很多时候大家忽略了Alphago背后团队对Alphago各种参数进行调校的重大影响,要知道无论是算法还是数值都是aja huang以及背后他们的团队在发挥最大的作用,任何过分夸大算法本身的言论都十分的无厘头和荒诞。{关于人脑的思考方式和Alphago的不同,这里链一篇)以下我们简单讲讲第二盘,如果说第一盘石头输在了大局,这一盘如果一定要找个原因,那是因为李世石下的太过保守。【布局】开局Alphago依然十分新颖,这样的开局方式还是第一次见。看到很多人局后表示不会模仿,感觉Alphago的棋风已经让人有一种很难模仿的感觉了。前面出现类似局面的棋我简单翻了几十盘,常昊九段最近的下法是一般的下法:
(参考图)图中黑13,拆边巩固自身。之后快速尖出作战。——————————————————————————————————————再贴一张赵汉乘九段去年的棋谱供大家参考:
(参考图)图中同样黑13拆边巩固自身,不同的是选择了弃子的战略。——————————————————————————————————————————而Alphago下的棋如今已经自成一派,十分有自己的风格了。之前我曾经以为Alphago对定式的使用会非常纯熟,现在看,大量学习各种棋谱以后Alphago对所有的局部仿佛都有自己的理解。实战Alphago先刺再托,很有个性。之后的进行,Alphago继续选择少见的下法,俗而有力地尖顶。之后Alphago走出了聂棋圣认为应当脱帽致敬的好棋。37肩冲:真是天外飞仙一般的好棋,十分潇洒。私以为这一步与其从好坏上来评价不如从试应手的角度来考虑,根据白棋贴的方向决定自己之后的进程。【中盘】黑棋主动挑起战斗以后,暴露出一定的短板,实战的下法备受诟病,46扳起这一串下完之后Alphago无论怎么分析Alphago都亏损了,这里是石头本盘唯一得分的地方。当然如果说之前黑棋右边得分了,Alphago这里选择稍亏一点的下法也十分可以理解。白棋这盘右边效率低下的问题越来越明显。昨天第一盘小李就在后半盘连落两个后手,被Alphago大幅拉开,今天这一盘依然出现了这样的情况。这时候的打拔,感觉过于稳健。此时左边的黑棋大块和两边都没有清楚的连接,李九段没有任何追究而是右边厚上加厚提了一个,仿佛期待Alphago在角上补一个似的,之后Alphago补上联络,作战机会就此失去。看到这里我就默默关掉了直播,倒了杯水,怔了好久。这盘进行到这里完全看不到小李的剽悍风格,看到这里感觉非常遗憾。之前我的群里曾有一段时间大家专打李世石的棋谱,贴一盘去年年底的:
(参考谱 李世石九段对宋知勋初段)
(参考谱 李世石九段对宋知勋初段)充满了嗜血,战斗,最终大杀小输赢,细腻的赢了半目,我想也许这才是我心中的疯狂的石头。这盘后来Alphago安全运转,石头没有抓到一丝机会。【拼搏的打入】石头实战最后打入Alphago唯一一块薄弱的地方,我看着高手摆了无数个变化,发现实战Alphago选了一条变化最少,最粗俗有力的路:至此,石头局面进一步落后,失落。至此,石头局面进一步落后,失落。【最后悬念】这盘给我最大的悬念依然是为什么石头没有选择打劫,即使在局面很差,满脸涨红的时候还是没有选择下面这个变化图,我至今想不明白,只能期待石头自己解答了:石头认输的那一刻,我看到李世石九段极度难过的表情,承受了多少压力我们旁人感觉不到,希望石头重整旗鼓,再次展现出凝固空气的炽烈杀招,为胜负师之路不留遗憾。 贴一张休职复出后李九段犀利无比的照片,祝调整好状态,发挥最好水平!p.s:一直有人说有什么打劫的保密条款,这一点我坚决不同意,但是劣势之下安乐死的小李的状态让我觉得他可能不该作为人类一方出战。
谢……谢邀…… 昨天知道小李输了以后,我还不敢说阿法狗实力到位了,只是在担心小李心态出问题。但到今天这个状况,我有个感觉,围棋软件对人类的碾压,可能已经正式形成了。我个人并不太惊讶,心里早已清楚在所有棋种上,软件全面碾压人类的一天总是会到来的。只是没想到会这么快。那些阿法狗看起来笨笨的不合常理的下法,很可能正是阿法狗将要对围棋理论进行的颠覆性变革所在。在纯粹的冷血的计算面前,所谓的大局观,所谓的势,都会变成毫无意义的存在。阿法狗要的,只是赢,它所懂得的,只是计算。它所选择的,你可以批它不合棋理,也可以批它没有大局观,但对它来说,只要赢了就行。职业棋手看不懂阿法狗的棋,或者说阿法狗下出了职业棋手眼里的坏棋,很可能只是它的目的隐藏得太深,人类看不出来。如果软件能够普及,从棋的角度说,人类下出来的棋会越来越向软件的风格靠拢。软件的出现,将对许多定式进行变革和粉碎。而棋手的水平会整体性的大幅提高,因为他们都有了一位超越人类的老师。职业棋手将无一例外以软件辅助训练,大量的新定式将通过软件被开发和完善。职业棋手的水平,和业余棋手的水平,会变得更加接近。 对围棋技术来说,我想阿法狗的强大是很好的。但对围棋发展和推广而言,就另当别论了。另外觉得挺心疼小李的,输给软件这个锅由他一个人全背上。心里觉得如果可以换个赛制,比如让等级分前五都来挑战,每人下三盘之类的,那就好了。起码这份打击可以由多个人来扛,而不是小李一个人承受。
黑棋13手我就已经报警,37手肩冲以后我就觉得阿法狗下得围棋和我以前看到的围棋不是一个围棋。以前有人说AI只会死算,没有大局观,现在回头看一下阿法狗被诟病的几手棋,都是虽然局部不是最强手,但是全局影响很大。也许现在可以猜想,人的大局观可能已经被人工智能超越了。不想预测以后。
感谢大家的支持和赞,让我这个没什么实质内容的答案获得了不少关注。帮大家顺便搬运一下柯洁赛后微博上的内容,是关于大家非常关注的打劫问题!我确实是不懂围棋,不过我想大家既然关注这场对决,看重这场对决背后重大的历史意义,那么就请对谷歌和李世石选手有一些起码的信任和尊重;或许你们可以像柯洁一样跳出来批评或者质疑李某些招数值得商榷、下得太臭甚至完全不合棋理。但是在拥有确凿证据之前,什么保密协议甚至盘口赌注之类的阴谋论就请少谈吧。我是不懂棋,但我尊重围棋。那些张口闭口言之凿凿签了保密协议不让打劫的阴谋论者,你们可能确实是懂棋,但是你们并不尊重围棋,更过分的是,你们没有尊重人。
————————————————阿法狗又赢了。我一个不懂棋的跟着瞎看完了全场也是佩服自己…一边古力和俞斌:看好白棋有优势。一边柯洁:黑棋优势。古力和俞斌:局势开始变得微妙。柯洁:黑棋优势很大。古力和俞斌:局势仍然很微妙,李世石时间不太够了。柯洁:早就棋盘扔一边,阿法狗赢定了,希望李世石接下来努力赢一盘,开始和女主持老大叔们欢乐地聊网红聊八卦聊微博聊女棋手…古力和俞斌:局势还是很细微啊……我有点看不懂…过了一个多小时之后…李世石才认输了…
以目前的高度来看,我认为阿尔法狗简直是人类围棋的结晶,感觉像是李在和古今中外各路高手下棋。其次,希望狗的出现会使围棋理论革新,比如五路肩冲,以及左下角的棋,为什么人类普遍不看好而狗却认为是胜率高的棋,值得反思学习。
谢谢这么多人给我点赞,人生的第一次,实在是太感动了。对于第二局中普遍出现的狗会不会打劫的质疑,我添加了新的回答在这里:,欢迎大家一起讨论。--------------------------------------------------------------------------------------------------------------------------------------------泻腰!不知道怎么人生的第一次被邀请回答就这样落到了我的头上,也许是知乎版的阿尔法狗的蒙特卡洛搜索树在庞大的知乎搜索空间中察觉到了我一直在努力的答题和我内心一个坚定不移向知乎的心(从内心深处说,这样的被邀应该早就出现了),因此天使就降临了。言归正传,我只是略懂阿尔法狗,对围棋,自从略懂这个词的含义被某部电影引申之后,就不再有适合用了。但是既然被邀请了,就要强答一番。从纯理论分析一下机器的表现以及背后蕴含的意义:1.之前有人通过相关的论文分析过,狗的思维方式和人的思维方式是不一样的,其核心目的就是每一步都去寻找全局最优解,虽然有时候人会说机器没有大局观,其实可能只是人类不懂机器下棋的精妙之处。从搜索能力和搜索空间上来说,人类是不用和机器相比的,人类只有在启发式的方法上可能占到便宜。这就解释了,为什么有时候狗的下法在职业选手看来是昏招甚至是看不懂的,因为人是根据思维定势在下棋,而狗是每一步都在计算最优策略。从细节来看,在某些局部的对战中,虽然李师师同学走法完全没错,但狗却依旧能精妙的占优。从目前情况看来,在围棋这件事上,阿尔法 貌似要胜过人类了。2.从整个棋局的进程来说,开局阶段相对于人类的优势没有那么大,这是因为相对于需要搜索的状态空间太大;但越到棋局的后期,由于需要搜索的状态空间的急剧减小以及博弈的局部化,人类要想从机器身上占到便宜,尤其在一个每天还要训练100万盘棋的对手身上占到便宜,其可能性是非常非常小的。3.很多人都说,阿尔法狗赢了李师师,就代表了奇点的到来。显而易见,阿尔法狗赢了,这一定是人工智能的Milestone,但是Deep learning和Reinforcement Learning也不是说适用于任何的场景,更不能说人工智能就超越了人类思维。一句话,Deep Reinforcement Learning是有瓶颈滴。另外,为了答这道题,我把下午开会的事给忘了,凄惨被领导骂了。看在我这么诚心答题,大家给点赞吧
对于AlphaGo优势局面下经常下俗手,我大胆猜下原因。可以确定的是,AlphaGo学习的时候优化目标只是胜负,而不管胜多少、负多少。所以对于优势很大,或者劣势很大的棋(后者还有没有可能出现已经不好说了……),采用不同的着法,对胜负的影响并不大。(用专业术语来说,损失函数在这些局面下的梯度很小)因此面对这种局面下的训练过程并不充分,或者说,训练机制保证机器在某种程度下忽视这样的局面。所以,AlphaGo在优势局面下的实力确实是会降的,并非刻意放水。只有它自己判断局面胶着的时候,不同走法造成的结果差别巨大(损失函数的梯度巨大),它训练的充分,表现出来的棋力才高。========================================再科普一下余凯博士“AlphaGo有能力自己修改源程序”的说法:过去的下棋程序,也就是现在业外人士理解的下棋程序,原理是这样的:开发者设计一种搜索方法,每一步都用这种搜索方法选择最好的一步棋。而现在的下棋软件,包括AlphaGo在内,原理是这样的:设计一种判断“搜索方法优劣”的方法,让计算机在“所有的搜索方法”当中选择一个最好的搜索方法,再在下棋的时候每一步用这种搜索方法选择最好的一步棋。实现这样的原理,人类需要做3件事:1.把“所有搜索方法”转化成计算机懂的数学模型(对于AlphaGo来说,这个模型就是权重可变的深度神经网络)。2.告诉计算机怎么通过人类下的棋谱,以及自己和自己下的棋谱,来判断搜索方法的优劣。3.设计让计算机怎样“在所有搜索方法当中找最优的搜索方法”的方法。但是具体寻找搜索方法的过程,是计算机自动完成的。而且最后寻找到的搜索方法,开发者是不知道的。余凯所说的“源程序”,指的是搜索方法。
阿法狗演示了中国流的正确使用方法。更新一下:个人觉得黑13的后补中国流是惊为天人极其飘逸的一手,也是奠定局势带起节奏的一手,甚至还带那么一点嘲讽( ?o?o ` ),李世石第一盘的中国流效果并不好。黑13之后,李世石没有作出最有效率的应对。之后还有精彩的黑37。从那时开始,就一直落后了,而且落后ai,基本上也很难有机会去追了。评论区有人说这是谷歌流(,,o? . o?,,)阿法狗真的要重新定义围棋了。
有一点需要说明一下。很多围棋人士总是说,“AlphaGo下了某某步是俗手”,他们这里犯了一个错误。所谓俗手,那只是对于人类来说的,人类的特点是:计算能力有限,重对经验规律的把控,偶尔糊涂犯错。而俗手,可能由于会破坏经验棋感,增加计算量,一不小心容易演变成臭手,等等原因,导致人的胜算变低。但电脑没有上述人类缺陷,因此那招棋就不见得是坏棋。有人说的所谓的棋理和正确下法,其实考虑了人类自身能力的特点,所以围棋先人们把某些不适合人类学习掌握的下法列为俗手,而对没有那些缺陷的电脑来说任何一种下法都是平等的。比赛解说讲,看了AlphaGo的新下法之后,我们对围棋的理解和下法要改变了。其实我倒不这么认为。俗手依旧不适合人类去学习,因为人类不具备计算机的计算能力,因为人类很依赖经验规律,因为人类太容易犯错。
谢邀,第一局大家还没有看清楚AI的特征,加上小李有明显的失误,还可以自我安慰一下,说不失误肯定能赢(但是实际上不失误,电脑接下来肯定不会那么下,棋局会完全不一样.)第二局下完,估计所有解说都会体验到机器的恐怖,其实正如我所说:人想要打败计算机,必须是前半盘建立足够大的优势,看起来盘面领先十多目,才能经得起后期AI的各种剥削,如果下到一半发现是细棋,那已经是死人一个了.这次的局面后半盘李并没有什么明显的失误,同样,(自从李在左上角打拔以后),计算机也一如既往地认为自己优势无限大,这次总算获得了足够的重视,然而这并不能阻挡AI后半盘继续教小李做人,还顺便在棋盘上写了个"死"字(然而AI既不会做人,更不会死)电脑在左下的选择确实有点蠢,我也认同是AI全面亏损,但是亏得并不太多,局面真正转折点就是这个打拔上,这一步送掉了白棋在左边的先手,这步棋被柯洁直播狂喷臭棋,用zen模拟整盘棋也可以看到,这两步之后白棋的胜率(在zen中)第一次大幅下跌,被黑补了这个4以后白棋就陷入了不得不主动去侵消黑棋的局面,然后白左上打入,结果AI根本不理,下了几步点了点发现形势好像差不多可以赢,那么alphago就开始自信满满地在棋盘上写死字了,顺便送一块棋早点结束战斗:电脑在左下的选择确实有点蠢,我也认同是AI全面亏损,但是亏得并不太多,局面真正转折点就是这个打拔上,这一步送掉了白棋在左边的先手,这步棋被柯洁直播狂喷臭棋,用zen模拟整盘棋也可以看到,这两步之后白棋的胜率(在zen中)第一次大幅下跌,被黑补了这个4以后白棋就陷入了不得不主动去侵消黑棋的局面,然后白左上打入,结果AI根本不理,下了几步点了点发现形势好像差不多可以赢,那么alphago就开始自信满满地在棋盘上写死字了,顺便送一块棋早点结束战斗:AI在这局后半弃掉右上角换中央,这种目数铁亏的交换,其实是一个明显的信号,也就是:AI只关心它赢了没有,从来不关心它能赢多少.这就意味着,它对弱者会下出弱棋,最后小胜几目,这并不意味着AI很弱,而是它觉得它没必要表现得太强,可以下一下小亏但是定型更快的棋,别的地方少几目棋它就不这么玩了,结果也会同样这么小胜几目,你不能从它以往的行棋来判断AI的棋力.对业五它是业6水平,对9段它是10段水平,对19段就是20段水平(我以前的答案正是犯了这个错误)说不定ALPHAGO对上柯洁,会下出21段的招法,因为它觉得优势不大不能太浪.所以两盘下完,柯洁也怂了一点,不敢太跳了.至于打劫,我觉得这里并没有什么阴谋论,计算机要严格地检验"禁全同"的开销是很大的,所以最好的办法是在选点的时候,就尽量避开能被造出大劫的局面,然后人强行做劫,它就可以因为劫太小不去打,右下那个劫,小李估计想和它打的,然而它到最后也没提,而右上那个,小李要是真的去造劫了,黑大可以把六子接回来,少赢一点而已.
这里说个题外话本次比赛,根据DM团队里的说法,使用的是分布式的版本(vs 单机版胜率70%)去年10月与fan hui 对弈的版本也是分布式的注:国内之前有些新闻源消息没弄清楚,一直播报的是单机版。从谷歌那边得到的信息证明使用的是分布式的版本 下面贴个表格来说一下单机版本以及分布式版本的具体规格++++++++++简单说一下,谷歌在去年发表的论文里说的是单机版本的AFG,使用了48个CPU,8个GPU而分布式的AFG有许多种规格,比如1202个CPU(25倍)以及176个GPU(22倍)而谷歌自己做实验里面使用的所有版本的AFG里,机能最强大的一个是1920个CPU(40倍)以及280个GPU(35倍)相信日后随着(1)训练的加深,以及算法的改进(2)分布式计算的发展&继续堆硬件AFG还会有这更多的进化不过其实实话说,即便任何改动都没有,AFG仅仅只靠不断训练,也是可以一天强过一天的所以,当你认为“今天的AFG战胜了李世石,而明天就未必”,这是一个非常不靠谱的观点(不过谷歌在比赛的这几天应该会停止算法的更新)+++++说起另外一个,昨天以及今天的比赛,不少职业九段的都说AFG缺少一些大局观,而今天的R2,也有人说AFG不会玩打劫(这个问题也有对应的回应了)。从目前来看,AFG肯定还是有欠缺而不完美的,但是即便如此,相较于它之前的围棋AI,这也是一个极大的进步了+++++至于好多拿着科幻小说来说什么人类要悲剧了之类的AFG这种尝试,其实对于未来人类工作上都有很大帮助AFG最大的作用在于“辅助决策”,也就是通过分析所有的数据之后,能够对变化中的情况(对手走一步棋)有一个判断,进而提出解决方案(AFG走一步棋)所以,未来取决于你输入数据的不同,AFG或者说这种相关算法,能够起到不少实质的作用
关于打劫的问题,代AlphaGo下棋的Dr. Aja Huang正面回应如下附出处:
从谷歌透露出的信息来看:第二局在中局之前,Alphago判断的胜率一直是50%以下【误,应该是不相上下,见注1】。这句话的信息量非常大。这就说明,李世石是有希望赢的,Alphago也许没有人们现在想象的实力那么强大。没有必要神话Alphago。这个判断是根据Alphago的算法决定的。如果略去大部分细节,Alphago是怎么判断判断一步棋的胜率的呢?是从这一步快速走子,走一万盘,如果60%是赢的,40%是输的,那么胜率是60%.【注2】所以简单但比较直接的一个理解是:那么当它选择这一步的时候,你选择的是大部分让他进入40%输的那个反应,那么它的下一步胜率就多半会从60%下降。【注2】 然后你如果总能找到让它进入输的几率的那步棋走,那么它最后会输 --- 这大体上就是想象中两只完全相同的alphgo的下法,另一只狗算出相同的几率,它总选择对它最大,对对手最小的几率。【事实上有心人会发现这两句话里面细节有些错误,但它提供的趋势是正确的。】 先把这个概念搞清楚,你就知道,Alphago下的不是神之一手,而是:当它有60%胜率的时候,它有40%会输的一手 ---- 真正的神之一手是100%会赢的一手。所以只要知道Alphago在很长的时间内几率还在50%,60%徘徊,而不是一手棋立刻胜率80%,90%,那它根本距离神之一手还差得很远。【神之一手这个后面继续讨论】另一个更简单的角度理解胜率:想象两个完全相同的Alphago下棋,对一个Alphago的胜率,就等于对另一个的失败率。所以只要你和Alphago下棋时,一个Alphago判断它自己的胜率是50%上下,你的水平就等于另一只Alphago(大体如此)。所以,单单从谷歌透露出的:第二局在中局之前,Alphago判断的胜率一直是50%,就说明这段时间内,李世石的表现,事实上和Alphago水平相当。我们知道它开局用了不少我们人类没见过的招法,很多人认为它这些招法,已经为未来的胜利铺开了道路。但根据上面的说法,纵然用了那些招法,Alphago自己对胜负的判断还是在50%左右,这就说明我们没有必要认为这些招法多么神奇。这些招法多半是可行的,但李世石与之应对的手段,在Alphago看来是旗鼓相当。所以:好消息!以下两条是由逻辑保证正确的:1. Alphago开局一段时间内50%的胜率估计,严格的说明了,在开局的很长一段时间,李世石的水平不逊于一只Alphago的水平。【注3】2. Alphago的开局新颖,但我们没有必要认为这些开局为人类铺了多大的一个坑。很多人认为这些开局是为遥远,人类没有看到的胜利铺开了道路,没必要这么吓唬自己!根据Alphago判断的胜率,说明让Alphago下人类的棋,它也会很满意,认为胜率50%! 如果它真的的已经从开局铺了一个大坑,那么它的胜率判断会迅速的高于50%。再讨论两个问题1. 进一步考虑,什么是神之一手?理论上神之一手应该是:开局下的第一步棋,它的胜率就到达了100%。接近神之一手的水平是什么?是开局下了几手棋以后,它的胜率迅速的收束到80%,90%。所以一个围棋软件的实力,基本等同于相当于随着它走子的增加,它判断的胜率的收束的速率。2. 怎么从Alphago学习?很多了解神经网络或者深度学习的人都说,我们没办法知道Alphago为什么下这步棋,没办法学习它的判断。只能一局输,一局赢的和它下,进行猜测,不是这样。我们已经知道了,当Alphago对任何一步棋判断胜率50%左右的时候,是我们和它不相上下的时候。那么,什么时候它超过我们?当然是它判断胜率突然增高的时候。这时候说明我们们之前的那一步,多半选择了错误的走法,导致Alphago认为它的下一步棋胜率大增。所以,只要谷歌公开棋局的每一步的胜率判断,我们就可以非常细致的研究Alphago究竟在哪一步超过了对手。和本问题相关的回答就是:李世石与 AlphaGo 的第二局比赛有哪些关键之处?我们可以看看Alphago对每一步的胜率估计。Alphago认定自己胜率增加的步,多半就是真正的关键之出。所以,我强烈建议大家呼吁谷歌:我们不要求谷歌公开它的软件的代码,或者代码中调节的参量,但我们希望谷歌公布所有对弈中,Alphago对每一步的胜率估计。而且,我们也非常希望,以后谷歌把Alphago放在网上自由对弈的时候,也把每一步胜率估计作为公开数据,这样能让人类也迅速的提高对围棋的理解。为什么要求公布胜率呢?因为人类下棋后是要复盘的。相互指点哪里是问题所在。现在Alphago下棋不复盘,搞得大家对Alphago各种想象,严重高估,很多人的发言,有魂不附体之感。这个是不公平的。请谷歌提供对弈中的胜率估计,也就是请Alphago进行赛后复盘,这是对弈者间的传统和礼仪,Alphago还是有这个义务的 。【所以李世石同学迄今为止事实上是受到了不公平的待遇】我会把这一篇贴在不同的问题之下。请大家原谅我的虚荣心 :)【注1】哈萨比斯说,“一直到中盘我们都没有感到优势,虽然我们不太懂(围棋),但AlphaGo确实非常有耐心,尤其是在后半盘,表现得似乎已洞悉一切,胜算在握。”另外,感谢知友
于 评论区提供的数据ss ss的先生回复的
其中 下面的评论透露了这样的数据:“在40-48步的时候胜率评估分布式是47%,单机51%” “70-71这一手alphago认为胜率飙升。现在自评56%” 在第二页的评论中还提到阿尔法每次下完之后都会判断胜率,今天开局阶段自我评价胜率是51%,明显低于昨天。说明阿尔法也认为今天开局走得不好。同样的,70手交换后阿尔法胜率上升到了56%,说明阿尔法也认为这是恶手。以此来看人和计算机对于局面的判断标准是有相通的地方的。可见Alphago并没有早在人类还看不见的时候就奠定胜局。事实上也是在人类看见出恶手的地方才开始占明显优势。【注2】学习过Nature那篇文章的人,会知道我这里只考虑了rollout算法预估的几率,没考虑UCB--alphaBeta-tree的部分。那部分胜率是预估的最劣胜率,但事实上抛开这个假设,也这不会影响到我们的主要结论。【注3】这个结论接近严格(考虑两个Alphago对弈的假设)。不需要【注1】中的简化这个结论也成立:50%的胜率估计,基本等同于对手的实力和Alphago相当。本文可以随意转载,请注明出处。
说几点:1、电脑似乎不会/不敢/不屑劫争 李世石很多机会可以打劫 但是没这么做 有协议吗 不知道2、“金角银边草肚皮”这个观念似乎可以更新一下了,角上争得越凶 中间亏的越大3、反杀比推塔更有机会 佯攻比正面刚更重要4、电脑不需要懂势 下着下着势就出来了5、一些要被师傅 老师打手板的棋可能是绝妙好招 能杀全家的棋6、李世石很强了 他在和全宇宙的棋手下棋【7、柯洁:我是宇宙他爹
小时候被教导下棋时(象棋),是说赢要赢得干脆利落,50手能解决的问题不要拖到100手。局势落后时,要尽可能拖延,不到最后不认输。但狗不是这样的思路。它只要赢,至于赢得是否漂亮,I don’t care.于是,人类就会有一个错觉:我能反杀!然后,似乎感觉每一次都差一口气就能赢了,但就是赢不了。好比你打出对K,狗打出对A,你拿出三张Q,狗拿出三张K。现在没人知道狗的顶在哪里。你感觉狗在和你对刚,实际它只是在玩,像下指导棋。最后,当你拿出4张2的时候,狗又拆了两幅新牌。。。就像猫和鼠的游戏。。。细思恐及
已有帐号?
社交帐号登录
无法登录?
社交帐号登录

我要回帖

更多关于 李世石 第二局 的文章

 

随机推荐