人机大战与网络象棋后，棋怎么下，画怎么画，人怎么活

中央处理器(cpu) | AutoCAD | 人生 | 硬盘 | 投资 | 梦幻西游电脑版 | 院校信息 | QQ飞车（游戏） | 魔兽争霸3混乱之治 | PHP | 总决赛 | solidworks | 产品经理 | 机器学习 | 塞尔达传说（游戏） | 卡牌游戏 | 休闲游戏 | 经济 | 刷单 | Xbox One | 游戏开发 | 任天堂 | C4D | 部落冲突（游戏） | 建筑 | HTML | 办公室 | 游戏策划 | 网络直播 | 扫地机器人 | 电源 | centos | 水浒传 | 陶渊明 | 高德地图（amap） | 少数民族 | 女性主义 | ios游戏 | 健身教练 | 尧山 | 移民 | 正则表达式 | 游戏手柄 | 植保无人机 | Spss数据分析 | 婚姻 | 鱼类 | 云主机 | 极限挑战(综艺节目) | 电学 | pdf | ICEY（游戏） | 显卡 | 教育 | 虚拟机 | 率土之滨 | 中国 | 魔兽争霸3冰封王座 | 社会 | 外国人 | CSS | Adobe After Effects | iPad | 航拍 | 智能手环 | 舰队 collection | 化妆 | 炉石传说 | 热血传奇（游戏） | 办公软件 | 职业规划 | 法律咨询 | 哔哩哔哩 | mysql | 书法 | 生辰八字 | 运载火箭 | 网盘 | 环境保护 | 洗发水 | 对联 | 心理咨询 | 家庭 | 金庸小说 | 3D Max | 怪物猎人：世界 | 广告 | 拼多多 | 遗传学 | 义乌市 | 星系 | 计算机专业 | 机械 | 钢铁雄心4 | 恐怖游戏 | 街机游戏 | 地图应用 | 食品 | 谷歌（Google） | 飞机 | 名言 | 艺术 | 社会学 | 央视 | 植物种植 | matlab | OneNote | 任天堂3ds | 护肤品 | 细胞生物学 | 古剑奇谭ol | 美团 | 著作权 | 最终幻想（游戏） | 分子生物学 | galgame | 香港特别行政区 | 300英雄 | 超级机器人大战 | 徐州市 | 刀塔（dota2） | 哈尔滨市 | 按键精灵 | 金庸 | 球球大作战 | 电脑游戏 | 爬虫（计算机网络） | 心理 | 校服 | 马克思主义 | 电视 | Microsoft SQL Server | 道教 | 应届毕业生 | 完美世界（游戏） | 赚钱 | 游戏直播 | 智商 | 声音 | 眼镜 | 创业 | 春节联欢晚会 | 汽车保险 | 洛克王国 | 天涯明月刀 | 乌海市 | 汉服 | 奶茶 | 动画 | 命令与征服：红色警戒2（游戏） | 广州 | 中药 | 演员 | 电气工程及其自动化专业 | 建筑设计 | 日本漫画 | 恐怖黎明 | 软件开发 | 黑洞 | 空调 | 进化论 | 杨紫 | C#编程 | 星座爱情 | 新浪微博 | 超级战队 | 网站建设 | 食物 | 眼睛 | 蓄电池 | 直播 | 天下贰 | 摩托车 | 医疗保险 | 历史人物 | 史莱姆 | 陌陌 | 经济学 | 姓氏 | 英雄传说：闪之轨迹（游戏） | 天下2（游戏） | 烹饪 | 中国历史 | Microsoft Visual Studio | 星际 | 快捷键 | 街头霸王（游戏） | 生存游戏 | 恐龙 | 输入法 | 滑雪 | 上海市 | 勇者斗恶龙（游戏） | 飞船 | 手机游戏开发 | 充电器 | 刺客信条2 | 格斗游戏（ftg） | 火影忍者 | 减肥方法 |

你的位置：网站首页 >> 频道首页 >>游戏 >>人机大战与网络象棋后，棋怎么下，画怎么画，人怎么活

人机大战与网络象棋后，棋怎么下，画怎么画，人怎么活

来源：蜘蛛抓取(WebSpider) 时间：2017-11-06 12:31 标签：围棋人机大战

&img src=&/ac52a6cdcbbb9_b.png& data-rawwidth=&542& data-rawheight=&542& class=&origin_image zh-lightbox-thumb& width=&542& data-original=&/ac52a6cdcbbb9_r.png&&&br&不用让50。让我49子，你活吧。
不用让50。让我49子，你活吧。
这件事知乎上&a class=&internal& href=&/question//answer/&&早有结论&/a&,以SC2为例:&br&目前顶级的SC2AI(不开全图),可能打得过黄旭东(毕竟鸡霸),但是打不过F91.&br&当然AI不能在IO上作弊(不然人也应该允许编程键盘搞什么无限丢蛋),这里AI的限制是:用鼠标键盘的API输入,只能得到每一帧渲染前这一帧所包含的内容(也就是只同时能看一个屏幕里有啥,然而这并不妨碍你一秒钟切60次屏)&br&&br&SC2和棋类是&b&完全不同&/b&的两个概念,最大的区别在于SC2&u&不是完全信息的&/u&,你不能时时刻刻知道对手在干嘛,所以棋类AI的那一套理论完全不通用.&br&但是你又不能固定一套战术,或者随机选择几种战术的一种,因为人一旦察觉到,就可以凭借一两次探路做出针对性的打法,光是战术博弈的问题就很难解决.&br&----------------------------&br&当然AI也会探路,也可以看到人在干嘛,但问题是&b&AI不知道人想干嘛&br&&/b&其实AI一直都不知道人想干嘛,但是在棋类游戏中,&b&它不需要知道&/b&,所以看起来还行.但是RTS上,这个问题就完全暴露了出来.&br&反过来说,AI怎么了解对面的战术呢?(&了解战术&对AI的意思是指,通过已知的信息,判断对方战争迷雾中的动态)只有探路看到某些特征,比如出的是星门还是机械台,采了多少气,然后和它已知的战术做类比,找最像的那个.&br&但问题是战术有无数种,也就是&u&状态空间是无限的&/u&,光是偷莽稳狗谐组合就有31种,加上奶再翻倍,什么灵车漂移死亡冲锋,每个时点都会产生无数种选择,我前期采气可以是提速狗,可以是狗毒爆,可以是两矿飞龙,可以是野龙塔...几条狗到家门前绕一圈,可能是探路,可能是在附近变了毒爆,可能只是吓吓人跳科技,也可能蟑螂都快来了...但是AI没有任何现成的办法覆盖所有可能性,只会做出有限种判断,一旦战术大师孙一峰又领先了一个版本,电脑就会错误估计对面的动向,然后就变成多线送兵.&br&-------------------------&br&综上,现在的AI基本都处于有限状态机主义妈的智障阶段,所以deepmind也只有在解决围棋之后才敢试试SC,因为事实上SC比棋类都要难,它最起码要涉及到&对未知信息的推测&&br&&br&有人说AI的操作完爆人类,这点是当然的,但是很多问题不是操作解决得了的,有可能根本到不了需要靠拼操作决胜负的局面,举个例子,AI的虫族裸双,然后遇到野2BB,随便你怎么操作&br&或者我有2个雷神,AI只有4个飞龙,随便你怎么甩.&br&至于APM限制,有没有都无所谓,因为有个天然上限(虽然比人类高不少),他每一帧只能看一个画面,做一个&b&用时不超过1/60秒&/b&的运算,然后在这个画面上做一个操作.很多存在于hack中的操作,比如小狗躲坦克,真的放到公平的输入环境下打起来是做不到的.
这件事知乎上,以SC2为例: 目前顶级的SC2AI(不开全图),可能打得过黄旭东(毕竟鸡霸),但是打不过F91. 当然AI不能在IO上作弊(不然人也应该允许编程键盘搞什么无限丢蛋),这里AI的限制是:用鼠标键盘的API输入,只能得到每一帧渲染前这一帧所包含的内容(也…
知乎存在的意义并不是为了把一句“傻逼”就能解决的问题换成“如何看待”的形式提出来的
知乎存在的意义并不是为了把一句“傻逼”就能解决的问题换成“如何看待”的形式提出来的
Deepmind要挑战星际争霸1还是2是有争议的，目前的消息来源只有一篇上海的记者报道。&br&事实可能是暴雪只说挑战Starcraft然后被一帮记者脑补成星际2。我本人觉得Deepmind更可能挑战星际1，因为Alphago的头目David Silver读博士时的母校Alberta大学已经举办星际1的AI比赛好多年了。无论星际1还是2，现阶段AI都难对抗人类。&br&另外不要停留在星际1那简陋的编辑器程度，星际1早有API了，&a href=&///?target=http%3A//bwapi.github.io/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&BWAPI: Main Page&i class=&icon-external&&&/i&&/a&，此API是纯竞赛API，没有任何作弊接口，当然&b&没有限制APM&/b&，只是获取战争迷雾里单位是被禁止的。码农可去一试。而星际2只能用内置的那个银河编辑器，暴雪并没有开放API。&br&&br&&br&看到评论里很多人提到神经网络机器学习。让Alphago学习replay就无敌了吗？本人虽然不能说懂神经网络，但是写作业做项目也是用过的，神经网络需要有限个变量作为输入层。举几个例子：&br&&ol&&li&围棋很好办，361个离散值就OK了。每次输入一个局面让Alphago预测一个，然后和职业选手的下法对比然后自动优化参数。相当于拟合函数 {19 × 19矩阵} → {下一步落子坐标(x, y)}&br&&/li&&li&还有另一些人提到谷歌通过像素训练早期的FC游戏，太空侵略者，弹球之类，这些游戏有一个共同点是：你只能操纵一个物体贴着屏幕最下面移动，早期游戏分辨率极低，顶到天是600×800，也就是说你只有底部600个不同的位置可以移动，随便都可以抽象出有限个输入送进神经网络，相当于拟合{600 × 800矩阵(或者根据具体游戏抽象出若干代表局面的变量)} → {FC手柄按键↑, ↓, ←, →,A,B}&br&&/li&&li&最近又看了一个介绍用神经网络打超级玛丽的视频，超级玛丽乍看之下和星际有很多相似之处，但是细细分析是天壤之别。超级玛丽的操作只取决于当前屏幕的内容，屏幕之外的敌人是在睡觉还是在蹦丝毫不会影响下一步的操作。所以可以把当前时刻屏幕按敌人以及砖块大小大致分成M × N个小方格，方格分的越细腻效果越好，然后方格里如果是空的就标0，有砖块标1，有敌人标2，有马里奥标3。然后把这个在集合{0, 1, 2, 3}里取值的矩阵给送进神经网络，根据输出的操作{↑, ↓, ←, →, 跳跃, 发火球}是死是活来训练，慢慢会达到输出越来越正确。相当于拟合函数：{M × N矩阵} → {↑, ↓, ←, →, 跳跃, 发火球}&br&&/li&&/ol&&br&拿星际的replay来训练神经网络会有什么难点？&br&&ol&&li&&b&怎么从星际中找到有限个数据作为神经网络的输入&/b&？只能人为挑选出来一些数据来训练，比如农民数，采矿数等。总不能把每个单位，每个建筑的位置血量，地图的河流悬崖轮廓都作为输入吧？神经网络得累死。&b&挑选代表性参数是个难题，挑选不好，训练的神经网络估计不比if else条件判断强多少。&/b&&br&&/li&&li&神经网络的输入参数里需要体现地形信息。一个高地上或者桥口的坦克显然比平原上的坦克威力强无数，近点远点，地形是否曲折，路上有几个窄路口可以伏击被伏击，这些都会影响到rush的效率和防守难度。&br&&/li&&li&输出有太多种可能，鼠标点在任何一个地方，造什么建筑，建筑造哪，反正这些在电脑眼里都是不同的操作。&/li&&/ol&星际这游戏说白了很简单嘛，神经网络只用拟合这么个函数：{局面} → {操作}。然而这函数无论是自变量还是因变量的维度以及取值范围都吓死人，想必程序猿调参数也会被吓死。当然我是神经网络菜鸟理解很粗浅，抛砖引玉，说错了别打我就OK。&br&&br&------------------------------------------&br&正文：&br&首先根本&b&无需限制AI的APM。&/b&甚至现在这阶段人类都可以开图和AI打，都没有任何问题。&br&什么机械臂电子眼打星际的就不要来搞笑了，这么搞我相信大多数人用农民都可以弄死AI，五基地爆农民，AI卒。而且AI必须针对鼠标品牌进行训练，否则用惯了罗技的AI换个鼠标估计连农民在哪都找不到。&br&其次，谷歌来做AI是否能横扫人类我不知道，但是悍马2000那种AI是没有可能横扫任何一个业余玩家的。&br&&b&Alphago现在的算法也是不行的，因为满足不了即时性&/b&。Alphago的直觉和大局观是在大量计算时间的支撑下形成的，每一步棋并没有比李世石耗时间少太多。Alphago在前期稳定耗时1分钟，我相信就是利用这些时间来预先做一些运算，并且存在内存里以供之后根据局势来直接调用。而李世石的78手击败Alphago正是因为这步棋把AI之前预先计算好的策略全部推翻，重新计算时间已经不够了，所以乱下直到投降。&br&&br&悍马2000的那些操作根本就是纸上谈兵。（其实细心的同学看视频就已经发现悍马最明显的作弊其实是开图，所有坦克位置，枪兵位置全部能看到，暂且不谈这个）&br&那些所谓的视频里，悍马操作的地图全都是没有任何地形的平原。实战中可能有这种情况吗？&br&狭窄地形，毒爆包夹，无限APM的机枪也不可能无伤的。（如果是挑战星际1，对AI来说就更不利了，因为星际1里的枪兵是无论如何都甩不了的，哪怕你的APM无限）&br&另外说坦克那个（我就不提什么I/O作弊了，没必要和AI计较这个），&br&1，只有在平原地形下，小狗才有空间散。&br&在狭窄地形，建筑学堵口，AI小狗散个试试，给多少APM也是被建筑学后面的坦克全灭。&br&2，实战中用纯坦克打小狗的是SB吧？AI爆狗，人类就得出坦克给它灭？有这么傻逼的人类吗？星际1可以出火兵，星际2出火车，AI操作去吧，一万APM有用吗？&br&3，假如挑战星际1，星际1小狗的碰撞体积远大于星际2，只要路口稍窄根本就没有散的余地。&br&&br&&b&所以悍马那些操作都是纸上谈兵，至今没看到某AI从农民开始发展击败职业选手的视频。&/b&&br&&b&随便动脑子就能想明白，如果悍马那些操作加上一些简单if else，那么哪怕是本科生也早就有人做出实战无敌的AI了，但是为什么没有呢？星际AI比赛的奖金虽然不多，但做几个if else加上悍马的操作就能白拿钱的好事怎么没人做到呢？&/b&&br&&br&&b&我承认悍马的操作搭配人脑那确实是无敌，可是关键就在这里了，好比某人买了世界上最好的电竞鼠标，鼠标硬件支持每秒点击一万次，鼠标的侧键可以自动切屏施法瞄准，但是此人智商只有一岁的水平，还是没有卵用。想想Alphago是怎么模拟人脑的直觉的吧，Alphago的直觉能做到秒下围棋吗？&/b&&br&&b&PLU之前的全明星以及韩国的类似节目以及直播等也可以作为旁证。火星effort用100多APM横扫韩服340APM的对手。马本座200APM横扫500APM的天才人族Nada。&/b&&br&&b&我可以担保，教主左手用鼠标，右手被砍断，只要稍加练习也能虐VS平台绝大多数人，还可能低估了。&/b&&br&&b&再高的APM，连一个缺乏经验的人类大脑都弥补不了，还能弥补电脑？&br&&br&&/b&&b&回到围棋上，围棋里也有类似悍马这样的纯操作，那就是封闭空间内的死活判断。&/b&&br&&b&一个搞计算机系的大学生也能做个AI在封闭空间内的围棋死活题上击败李世石，无论是计算速度还是精度都能让李世石完败。但是想要在正式比赛击败李世石就没那么简单了。&br&这些单兵种的操作也就相当于围棋死活题那个程度，和实战差十万八千里。&/b&&br&&br&&a href=&///?target=http%3A//webdocs.cs.ualberta.ca/%7Ecdavid/starcraftaicomp/history.shtml& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&StarCraft AI Competition&i class=&icon-external&&&/i&&/a&&br&&img src=&/00d0c7a5fdbaa9a74545a9_b.jpg& data-rawwidth=&800& data-rawheight=&300& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&/00d0c7a5fdbaa9a74545a9_r.jpg&&这是目前星际AI的发展历史，虽然重视程度和围棋有很大差距，但也并不是像某些人认为的那样低级。&br&上面链接里是Alberta大学举办的历届AI星际竞赛，以及人机对战的历史。&br&&b&注意Alberta大学正是Alphago主创David Silver读phd时的母校，里面很多参赛的星际AI就是David Silver的博士学弟做出来的。这可能也是Deepmind选择挑战星际争霸AI的原因之一。&/b&&br&战果是排名前3的AI被一个俄罗斯的业余玩家轻易横扫。&br&&br&俗话说Talk is cheap，要啥自行车，you can you up.&br&除了Alberta的这个比赛之外还有其他一些比赛：&br&&a href=&///?target=http%3A//cilab.sejong.ac.kr/sc_competition/& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Welcome to the IEEE CIG 2015 StarCraft AI Competition&i class=&icon-external&&&/i&&/a&&br&&img src=&/87c34a0d6ddf1d9bb2714c_b.png& data-rawwidth=&282& data-rawheight=&108& class=&content_image& width=&282&&&b&&a href=&///?target=http%3A///& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&[SSCAIT] Student StarCraft AI Tournament 2016&i class=&icon-external&&&/i&&/a&&br&&/b&&br&&br&&b&很多人说现在的AI都是土法炼钢，规模等级和大公司没办法比。这其实是不准确的。&/b&&br&&b&1，Alphago的主创之一黄士杰在读博士的时候开发的AI已经有相当的水平了（好像击败过相当于业5业6的Zen，业5业6拿到星际对战平台上来讲就是前几名，而星际的对战平台的顶尖水平距离职业也相当远），星际的AI哪怕是伯克利或者什么学校的博士开发的也像弱智一样。&/b&&br&&b&2，规模上如果是Alphago那个量级，怎么保证实时运行？&/b&&br&&b&这就好像你拿着笔记本i5 CPU去嘲笑卫星上的几MHz的龟速CPU一样，人家能在-150摄氏度条件下能正常运行，你的i5能吗？&br&现在alphago的策略去搞星际，除非把星际变成回合制游戏，否则实际效果不一定比10K行代码强。&/b&&br&&b&3，当然不是说星际AI就无解，围棋的AI技术已经积累很多年了，而围棋的AI并不能直接拿到星际里用，所以星际AI至少也得从头有这么多积累才能有成效，只是很少有公司愿意干这么低性价比的事情。对人脑简单的对电脑不一定就简单。&br&&/b&&br&&br&为什么这些AI在人的面前这么弱呢？&br&&a href=&///?target=http%3A//webdocs.cs.ualberta.ca/%7Ecdavid/starcraftaicomp/report2013.shtml%23discussion& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Where are StarCraft bots weak?&i class=&icon-external&&&/i&&/a&&br&我大致翻译一下：&br&1，AI在星际里的策略选择有很大规律性，可以被人类利用。里面给了一个例子，玩家注意到AI总是会用兵去追他的小狗，他就用小狗去吸引AI的兵来拖延时间，直到做出科技兵种直接干死AI。&br&&b&Alphago用蒙特卡罗和神经网络模拟人类的直觉，但是这两个算法都是比较耗时间的，和李世石的比赛中AI用时也并没有达到瞬间落子的程度。AI下快棋两次输给樊麾，慢棋5:0，虽然当时的狗比现在的弱很多，但也足以证明无论AI多强，它的快棋水平都是要次于慢棋的。所以在星际这种即时战略游戏里，AI是没有足够的时间来模拟人的直觉的，只能采用相对固定的战术模式，这样就容易被人类所利用。&/b&&br&&br&2，前后期策略的转化。人类一开始会采用一个初期的战术，一旦失败会立马根据对手的应对转换战术来在后期赢得主动。&br&不要说AI的多线操作 1万APM能让侦察做到天衣无缝。侦察是无论多少APM都不可能天衣无缝的（参考文末的小例子），几个枪兵打兴奋剂追农民，或者两个叉叉堵路口，再高的APM也没办法让农民进去侦察的。所以侦察不到的情况下，AI的前期战术就可能失败。&br&文章里举了一个例子，Alberta大学，David Silver的博士学弟做的AI，UAlbertaBot的前期rush很强，但是一旦失败往后期策略转换就有很大困难，因为前期rush往往会牺牲经济，想转后期哪怕是AI也力不从心。后期乱战情况下，兵种齐全，很难让AI的单一兵种疯狂操作占到便宜。&br&虽然AI也会用判断来转换策略，但是很难做到人那种程度，什么假rush真运营，什么假运营真空投等等，AI还很难做到。&br&&br&3，建筑摆放也是一大难题，无论是AI自己摆建筑学，还是AI破人类的建筑学都是难题。&br&虫族在星际1里建筑学是拖把流里核心一环。基地造多少个是得根据对手策略的选择来决定的，基地造多了前期兵力空虚，基地造少了后期后劲不足。地堡的数量也是得根据大量对局，以及对对手风格的了解决定的。&br&就像围棋里围大模样一样，建筑摆放是很靠直觉的，虽然堵口等有固定的模式可以hard code到AI里面，但是其他方面，比如防空炮的位置和数量是没有规律可循的，只能靠经验和直觉，&b&AI的直觉是靠大量计算时间支撑的，量子计算机普及之前，AI的直觉不可能做到人类这样的瞬发&/b&。可能防空炮的位置差了一格结果没有防住一次空投直接GG，也可能防空炮多造了几个，结果兵力不足被正面捅穿。&br&人类的建筑学，AI也很难破解，人类各种不按常理出牌，教主那样的猥琐防空流，各种违章建筑，AI对于每个违章建筑都得选择到底是绕过去还是拆建筑还是撤退。&br&而让AI去自己构建违章建筑也是很难的。AI得靠直觉决定什么时候建，大部队移动到什么地方，哪个方位容易遭到攻击，哪个地方建违章建筑更有效。这些都需要靠大量计算支撑的AI直觉。&br&&br&4，赛制对AI不利。AI对AI的比赛一般是让N个AI之间单循环赛，打1000盘看总胜率。&br&但是人对AI采用的赛制一般是BO3或者BO5。只有3到5盘，人类一般会在第一盘选择某个战术，rush，运营或者暴兵等战术，然后观察对方的应对再决定下一盘怎么打。AI在一盘中用某个战术击败人类是很有可能的，但是在BO几的赛制里人类更容易摸索出AI的规律（因为AI没有时间去计算蒙特卡洛和神经网络来产生直觉，所以它只能大量使用硬编码，这样就会有规律可循）。&br&&br&星际选手们可能不了解星际AI的现状，然后估计AI操作占优就能击败人类，这其实就是纸上谈兵。操作的问题上面已经分析过了，也并不是没有伯克利等学校的博士大牛去实践。&br&星际选手以为自己运营战略选择都是一瞬间灵光一闪的事情，对于AI不算什么难题，这就好像一个恋爱高手把妹一把一个准，然后以为对于AI来说把妹是很简单的事情一样。&br&&br&举个例子，假如让我去写星际AI，稍微一想就发现有个很小很小的人类幼儿园水平的问题：&br&&b&AI的飞龙看到了一个枪兵并且把它的位置速度和朝向记录下来了，然后枪兵到视野外了，一秒后飞龙又看到了一个枪兵，因为枪兵可能已经改变移动方向和移动速度，那么电脑怎么判断这个枪兵和之前记录的枪兵是否是同一个枪兵？如果是小狗的话移动方向和速度更加变幻莫测。&br&或者AI第一次侦查看到了人类2队枪兵中的1队多枪兵，第二次又看到了人类2队枪兵中的另1队多，AI怎么判断这两次看到的枪兵有多少是前一次已经看到的，有多少是新侦查到的？&br&如果没做好对应的话，AI完全可能把人类的2队枪兵误认为是1队枪兵，或者1队枪兵误认为是2队。&br&兵力判断错误的话，AI之后的决策就全部错误了。&br&&/b&&b&当然这个和星际的API接口有关系，接口如果提供每个枪兵的ID，那么这个问题就不是问题（这种API和I/O作弊是同一类问题，API可能只有获取视野内每个枪兵当前位置，朝向，移动速度的接口，也可能有获得枪兵的全局ID的接口），否则就得上各种模式匹配，运动轨迹预测之类的算法了，既然是预测就无法100%准确，而且需要运算时间，而人类虽然也不能达到100%判断准确对方的兵力，但是起码人类能做到瞬间判断个八九不离十。&/b&&br&&b&对于现在水平的AI，人类完全可以让它获取枪兵的ID，但是类似这个问题的问题恐怕还有无数个。&/b&&br&&br&AI很像一个连去哪能找到杯子喝水都搞不清楚却对于相对论量子力学很在行的博士。&br&&br&&b&提问：这个AI博士如果从初中开始读，能考上重点高中吗？&/b&&br&这博士量子力学都这么牛逼了，初中那些几何题就更不成问题了吧，数学物理满分，语文阅读理解又有套路，这些都满分还用得着拼作文吗？直觉再差，字数写够随便写篇能读的作文也能上重点高中吧？&br&&b&答&/b&：谢邀，&b&考不上&/b&，因为此博士已经因为喝不到水而渴死了。以上
Deepmind要挑战星际争霸1还是2是有争议的，目前的消息来源只有一篇上海的记者报道。事实可能是暴雪只说挑战Starcraft然后被一帮记者脑补成星际2。我本人觉得Deepmind更可能挑战星际1，因为Alphago的头目David Silver读博士时的母校Alberta大学已经举办星际…
&p&不知道有多少人记得这个十几年前流行过的张总系列：&/p&&blockquote&不是，张总，您在家里的电脑点击了复制，再到公司的电脑点击粘贴，是不行的！&br&“为什么不行，要多少钱的电脑才行？”&br&～不是，张总，这不是多少钱的问题……&/blockquote&&p&但是现在呢，张总在家里的iMac上点了复制，到公司的iMac点了粘贴， It is there. &/p&&p&现在流行这样的：&/p&&blockquote&我是想做一个像淘宝那样的网站，在哪里能免费下载到那样的程序！谢谢！&/blockquote&&p&&br&&/p&&p&客服在回答张总问题的时候，应该是没有想到剪贴板云同步的，因为毕竟从那个时候到现在，也是十几年过去了。同样的，人工智能现在的发展，距离写工业代码远是有点远，但是我反对 &a class=&member_mention& href=&///people/3d7bb5eb9770ce24bfac4aa07adfc3e8& data-hash=&3d7bb5eb9770ce24bfac4aa07adfc3e8& data-hovercard=&p$b$3d7bb5eb9770ce24bfac4aa07adfc3e8&&@henix&/a& 引用的王垠的观点。因为不能用过去的框架去套未来的发展。&/p&&p&诚然现在编程的目的就是严格的告诉计算机做什么，干说“我想要搞一个在线商城，像淘宝那样就行”，是肯定不行的。所以我们才需要沿着：需求 -& 模块化 -&编写 -&反馈这个循环来最终得到一个可用的软件产品。&/p&&p&为什么会有这个流程？因为人肉写代码太慢了，然后改代码更是一个大工程，甚至于比写代码更痛苦。所以要在事先尽可能精确的知道需求，然后进行相应的开发。尽量在后期只微调，不大改。不然工程量大，也无法按时交付。&/p&&p&&br&&/p&&p&但是机器不一样，机器强大的地方就是在速度，人工智能写代码可能模式就和现在有本质区别，我设想的人工智能编程是这样的：&/p&&p&&br&&/p&&p&我们再也不需要先确定需求，只要大概的说：“我想要一个淘宝那样的网站，建一个给我看看”。然后系统就会先在后台用最标准化组件的组件搭建一个微型的淘宝的网站；&/p&&p&&br&&/p&&p&然后你浏览了机器给你编写的成果，发现“这个搜索框是不是像Bing那样好一些？”然后人工智能就在后台开始添加删除各种模块并且编写相应的程序，一小会又完成了；&/p&&p&&br&&/p&&p&随着你不断的试用机器给你编写的产品，你不断的发现自己的需求，提出自己的修改意见，然后人工智能对人隐藏一切的技术细节，只对人们提出的需求做出反应，没有需求的地方默认处理，只有当人们看到这个默认值不满意的时候才进行修改。&/p&&img src=&/v2-ffad509a936cf1c15b5d8_b.jpg& data-rawwidth=&568& data-rawheight=&221& class=&origin_image zh-lightbox-thumb& width=&568& data-original=&/v2-ffad509a936cf1c15b5d8_r.jpg&&&p&&br&&/p&&p&其实现在所谓快速迭代，MVP方法(minimum viable product) 都是这样的，只是现在我们写程序还是以人为主导，而人力无论从时间还是金钱上都是很贵的，所以还需要很多前期的设计和规划，以便于更好的利用人力。但是如果把所有的程序员都换成人工智能，那么可以从一开始就天马行空的从一句话的需求就开始做MVP，然后等客户看到MVP之后，随着客户一条一条的指令不断的把产品修改成最终客户所希望的那样。&/p&
不知道有多少人记得这个十几年前流行过的张总系列：不是，张总，您在家里的电脑点击了复制，再到公司的电脑点击粘贴，是不行的！ “为什么不行，要多少钱的电脑才行？” ～不是，张总，这不是多少钱的问题……但是现在呢，张总在家里的iMac上点了复制，到公…
不会围棋，最近看知乎相关问题的感觉就是，&br&&br&“来自科西嘉的怪物在儒安港登陆。”&br&“不可明说的吃人魔王向格腊斯逼近。”&br&“卑鄙无耻的窃国大盗进入格尔勒诺布尔。”&br&“拿破仑·波拿巴占领里昂。”&br&“拿破仑将军接近枫丹白露。”&br&“皇帝陛下于今日抵达自己忠实的巴黎”
不会围棋，最近看知乎相关问题的感觉就是， “来自科西嘉的怪物在儒安港登陆。” “不可明说的吃人魔王向格腊斯逼近。” “卑鄙无耻的窃国大盗进入格尔勒诺布尔。” “拿破仑·波拿巴占领里昂。” “拿破仑将军接近枫丹白露。” “皇帝陛下于今日抵达自己忠…
&p&坐在电脑前踏踏实实看完AlphaGo和李世石的五番对局，作为一个曾经的围棋运动员，从未经历过如此情绪复杂的五番棋：起初震惊，然后质疑，直到绝望。最后落幕时，陪着李世石一起投子，却开始回味，开始感动。&/p&&p&回忆赛前。李世石的预测是，5比0取胜。这并非他个人的妄言，而是整个向来内敛的围棋界的一致预测。因为棋手们知道，围棋除了计算力，还有大量先后时序的判断把握，无数纤毫精微的时机揣摩，这些都是超出了理论算法之外，依凭着大量经验与感觉而作出的人脑判断。毋宁说，还有棋手的个人风格与当天的棋感在作怪，这些，都是超出技术范畴外，仰赖着经验、逻辑，还仰赖一点点个人风格，才能企及到的事情。&/p&&p&但是我们都错了，而且认错的样子不算好看。&/p&&br&&p&记得第一盘棋快要结束时，新浪的直播室。李世石陷入苦战，一片败局。讲解人俞斌九段，曾经的国家队主教练。眉头紧锁，凝重而铁青地盯着棋盘。旁边的嘉宾，搜狗的ceo王小川先生，正大谈华尔街对科技界的融资与风投趋势。当王小川心情畅快地找俞斌九段搭话时，俞教练冷冷地道：“等你把围棋学会了再来说吧。”&/p&&p&刻薄可不是下棋人的长项，可那一刻我完全理解俞斌老师的心情。&strong&Alphago打败的可不是李世石抑或全人类，而是围棋这项智力运动千百年来演变发展积攒而出的人类自信。&/strong&&/p&&p&黄龙士与范西屏的风采不再，吴清源的镰仓十局也黯然。连聂卫平横刀立马中日擂台赛，一腔热血也饮冰。往大了说，这失败漫延出国境线，全世界的棋手降格一等，这个夜晚，人类棋手里没有胜者。往小了说，就想想无数个像俞斌这样棋木然呆立在棋盘前的智力者。你要让他们怎么相信，他们钻研精修了一辈子的手艺，以及附带之上手艺人的荣耀与自信，单靠一项机械的程序，就能轻松击败。&/p&&p&不单是站在竞技巅峰的职业佼佼者，想想东亚文明的明衢暗巷里，还藏着多少热爱围棋的心灵。更别说那些做围棋启蒙的工作者，你要让他们怎么告诉那些刚刚进入围棋世界的孩子们，就在今天下午，我们人类输了。至于赢家是谁，你甚至都不知道怎么和他们解释“人工智能”这四个字。&/p&&p&没错，围棋手们当下的这一刻，是难受的。这个时代，有可能在篮球场上造出比勒布朗·詹姆斯还能跑能扣的机械怪物，有可能造出比梅西更鬼魅的进球机器，越是凭借着人类的出众与卓绝垒砌起的堡垒，其被人工智能亲手摧垮的那天，越是来得崩裂与昏聩。对此，孤绝如李世石们，也只能默默收拾对局的残子，人类智力运动中最后一支被寄望的骄兵，最终也只能垂头击鼓，黯然鸣金。&/p&&p&“围棋”这项长久以来在大众想像里偏小众的运动，在公众视野里刚刚闪耀了那么一小下，就以一个不太体面的方式，消失在了公众的时间线里。&/p&&p&所幸所幸，如果我们能从围棋竞技这个单单悲情的角度中跳脱出去，这场比赛的结局并不冷酷，甚至是盎然生机。记得在赛前，科技界人士的预测里，几乎完全偏向AlphaGo会赢，一个与围棋界全然对立的看法。试图去理解双方不同预测的理由，竟会得出一个同样感动的原因：&/p&&p&科技界相信AlphaGo会赢，是因为他们专业，并且有所信仰。&/p&&br&&p&长年深耕在计算机网络的盘根错节里，他们信仰着计算机有着足以挑战人类的力量。而同样地，围棋手们信仰着围棋这门艺术蕴藏着的无穷潜力，他们相信黑白之间的奥秘远非机器所能触及。&strong&这两方都以极专业的眼光，仰视着在本领域坐标系里最高耸、最伟岸的山巅。同时又用极虔诚的信仰，自信地向世人宣布这座山峰，不可被征服。&/strong&所谓仰之弥高，钻之弥坚。这种仰视，是他们出于对自己专业的致敬，是全部热爱的本源，也最终引领他们向着泰山北斗破风而行。&/p&&p&所以与其说alphago颠覆了围棋界固有的实力对照体系，不如说是围棋手们收货了一套来自人工智能领域的全新价值体系。而google团队通过这次艰难的对抗，也完全能感受围棋的浩漫与精深。&strong&这场对局与其说在展示人机对抗，不如说是两个陌生的专业领域在相互致敬，两个杰出领域的精英在交换信仰，演奏一场人类专业精神的大交响。&/strong&千百年来人类智力的艺术凝结，与电子纪元人雕琢出的最强工艺，在历史浩淼又宽阔的长河两岸，郑重地，又匆匆地相互致意了一下。到最后，我们人类温暖又无力地发现，原来没有哪一种信仰是攻不可破的。&/p&&br&&br&&br&&br&&br&&p&最后的最后，我想表达一下对这场世纪大战的败者李世石的敬意。&/p&&br&&p&说真的，因为观赏门槛的原因，我不太认为围棋是一项能被大众讨论的运动，所以就算李世石在这五盘中有功过是非，那也是柯洁这个层级才能评断的。然而现实中对李世石进行点评的人数，明显比一流棋手，甚至职业棋手的人口基数要来得多。&/p&&p&我们不该胡乱把人类失败的委屈情绪推泄到李世石身上。更别说是因为贬损李世石带来的那种莫名膨胀的民族自豪。说真的，从十八岁崛起，衔续李昌镐的王朝，这天下第一人的宝座，李世石可是稳坐了好几年的。他穷凶极逆的剽悍棋风，足以让他成为和聂卫平曹熏铉李昌镐们并列的胜负师。&/p&&p&他也许会败给时间，也许会败给无数个柯洁，也许会因为这个标志性的事件被写在人类进程的事件簿，但就围棋而言，李世石不应该因为尊严或道德的原因被绑上耻辱柱。不论是人类或围棋界，甚至李世石个人，都不会因为某一场败局而末日来临。他曾是少年，也曾风光，也曾骄傲过。&/p&&p&至少至少，当第四局李世石弈出第87那惊耀千古的一手后，没人可以苛责他不尽力。若人类注定败局，这围棋手们绝望孤守的阵地里。最后一颗子弹，是他打出去的。&/p&
坐在电脑前踏踏实实看完AlphaGo和李世石的五番对局，作为一个曾经的围棋运动员，从未经历过如此情绪复杂的五番棋：起初震惊，然后质疑，直到绝望。最后落幕时，陪着李世石一起投子，却开始回味，开始感动。回忆赛前。李世石的预测是，5比0取胜。这并非他个…
&blockquote&围棋基础知识尚未了解的可以移步：&a href=&/question//answer/& class=&internal&&零基础应该怎么学围棋？&/a&&/blockquote&&p&『写在前面』&/p&&p&围棋的变化数对于目前看起来强大无比的计算机资源，仍然是一个无穷一般的概念。AlphaGo可以打败人类顶尖水准棋手，但是还远远达不到“最优解”的程度。&/p&&p&AlphaGo对于棋界无疑是一阵巨大的革新浪潮，现在总能在棋手聚会里看到非常精彩的新招拆解，也就是戏称为“狗招”的大局观极强的下法后续的定论探讨。&/p&&p&这篇文章为了帮助大家理解，做了很多比喻，希望大家能从这篇文字里开始理解AlphaGo。&/p&&p&&br&&/p&&p&『感受不寻常的“宁静”』&/p&&p&说起人工智能，最近老想到这个铁脑袋：&/p&&img src=&/v2-aa0e5c4d89fb98adfeb50b6ae790c9e3_b.jpg& data-caption=&& data-rawwidth=&400& data-rawheight=&400& class=&content_image& width=&400&&&p&禅雅塔，一个智能机械，居然是负责教导大家心灵平静，追寻inner peace 的禅师角色。&/p&&p&另外，禅师会通过释放大招加血，让你在无敌状态中感受真正的“宁静”。&/p&&p&&br&&/p&&p&&br&&/p&&p&很多朋友听说过国际象棋程序 -- 深蓝。在1997年深蓝击败了国际象棋特级大师卡斯帕罗夫。就在当时，围棋程序的水平仍然是k级，也就是不到业余初段。截止2015年，全世界6000多种&b&完全信息博弈&/b&游戏中，只有围棋程序无法抗衡相关领域的职业选手。 &/p&&p&等等，什么是完全信息博弈游戏！？&/p&&p&&b&完全信息博弈&/b&游戏的定义：是指每一参与者都拥有所有其他参与者的 &i&特征 &/i&、&i&策略 &/i&及 &i&&b&得益&/b&函数 &/i&等方面的准确信息的博弈。 &/p&&p&围棋、象棋落下子来，手中不藏牌，盘上规则没有变数，胜负在于面对于人脑近乎于无穷的变化数量，做一个优化的策略、&b&合理聚焦&/b&、深度速&b&算&/b&。对手隐藏的陷阱招数，全部隐含与已经落在盘上的棋子之间。&/p&&p&&br&&/p&&img src=&/v2-d8c939c24e378bba4e043a_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&272& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-d8c939c24e378bba4e043a_r.jpg&&&p&（成名多年的围棋高手也会常常被&b&妙算无穷&/b&的好棋深深折服，围棋的魅力正源于此）&/p&&p&&br&&/p&&p&&b&非完全信息博弈&/b&游戏，对比完全信息大家想必已经有大致了解了。桥牌，暗棋，各种带有战争迷雾的游戏。&/p&&p&&br&&/p&&img src=&/v2-34f1ab15e770c0870aa1cb_b.jpg& data-caption=&& data-rawwidth=&640& data-rawheight=&272& class=&origin_image zh-lightbox-thumb& width=&640& data-original=&/v2-34f1ab15e770c0870aa1cb_r.jpg&&&p&（这个策略，嗯，保留意见吧，墨镜挺帅的）&/p&&p&&br&&/p&&p&『围棋人工智能为什么来的这么晚』&/p&&p&从1997年到 2015年，近20 年的时间里，各类硬件发生了质的飞跃，我们不再有人指望囤积 BP机（寻呼机）还能赚钱，一部手机已经可以轻松运转类似无尽之剑这样精良的作品。为什么过了这么久，人机对抗仍然需要调用非常夸张的计算资源？&/p&&p&??围棋人工智能的难度主要体现在&b&两方面&/b&： &/p&&ol&&li&搜索空间巨大：合法的围棋的变化（10^170）大于宇宙中原子数（10^80）。&/li&&li&局面判断难：多人发表论文，说明，不可能有一个很好的&b&静态局面评估函数&/b&。&b&局面评估函数。静态局面评估函数（可以简单类比中国象棋残局）动态局面评估函数（类比中国象棋残局往前推算）。&/b&&/li&&/ol&&p&&b&（&/b&这两点暂且放在这里，之后细表↓&b&）&/b&&/p&&p&&br&&/p&&img src=&/v2-63ce00492fce8f7abdc50_b.jpg& data-caption=&& data-rawwidth=&312& data-rawheight=&176& class=&content_image& width=&312&&&p&&br&&/p&&p&???我们把围棋人工智能的发展分为三个阶段：&/p&&p&第一阶段：以&b&模式识别和人工启发式算法&/b&为主，水平低于业余初段。&/p&&p&第二阶段：以&b&蒙特卡洛搜索树算法&/b&为代表，水平最高达到业余5段。&/p&&p&第三阶段：以&b&机器学习算法&/b&为突破，战胜人类职业棋手。&/p&&p&&br&&/p&&p&?????
&b&第一代围棋人工智能 ???&/b&&/p&&p&第一个完整下完一盘棋的程序，是1968年，美国人&b&Albert L. Zobrist，&/b&作为他的博士论文完成的。 &/p&&p&不过，接下来的20年里，围棋AI们即使是对上刚入门的初学者，也难求一胜。&/p&&p&1987年，应氏围棋基金会悬赏&b&百万美元&/b&，寻求能够战胜职业棋手的围棋AI。这个悬赏分很多级，最低一级奖金，是十万新台币，相当于四千美元，奖励给第一个能够受让&b&十六子&/b&战胜业余高手的程序。&/p&&p&1987年的百万美元啊！当时程序的水平，可想而知。&/p&&p&&br&&/p&&img src=&/v2-107ca4c542d2de5a6b5b9a6d92999c48_b.png& data-caption=&& data-rawwidth=&1793& data-rawheight=&1739& class=&origin_image zh-lightbox-thumb& width=&1793& data-original=&/v2-107ca4c542d2de5a6b5b9a6d92999c48_r.png&&&p&（让十六个就是这样，黑棋关键的地方先摆上十六个，然后黑白一人一步比拼谁的领地大）&/p&&p&一直到1990年，一位中国人，中山大学化学系教授&b&陈志行&/b&，在退休以后，花了几个月的时间编写了名为“手谈”的程序。手谈问世以后几年内，实力快速增长。&/p&&p&1995年，手谈连续拿到了受让十四子和十二子战胜业余高手的奖金。&/p&&p&1997年，手谈再过业余高手的十子关。这三次突破共计为陈志行带来了六十万新台币的奖金。同时，在年，手谈在两项计算机围棋世界赛中&b&七连冠&/b&，在整个九十年代鹤立鸡群，独占鳌头。&/p&&p&&br&&/p&&img src=&/v2-f1aaff597b4c5db62d583_b.jpg& data-caption=&& data-rawwidth=&288& data-rawheight=&234& class=&content_image& width=&288&&&p&（这张照片与手谈软件都是与我们这一代棋迷一起长大的回忆）&/p&&p&&br&&/p&&p&◤◤手谈的秘密武器◢◢?&/p&&p&前面讲到，围棋难，一难在搜索空间大，就是不知道往哪里下，二难在局面判断难，就是看不出是要赢还是要输。陈教授为了解决这两个问题，祭出了一个秘密武器——“&b&势力函数&/b&”。 &/p&&p&&br&&/p&&img src=&/v2-20f48bee9a762ea2f0505533fcdee9df_b.png& data-caption=&& data-rawwidth=&500& data-rawheight=&500& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&/v2-20f48bee9a762ea2f0505533fcdee9df_r.png&&&p&请看这个图。&/p&&p&“&b&势力&/b&”是围棋术语，说白了，就是一个棋子对周围空间的影响。陈志行认为，这种影响是可以&b&量化&/b&的。比如，这图中有一颗黑子。离黑子最近的四个点，用圈标出的，受到的影响力是4. 稍微远点，用×标出的四个点，受到影响力是3. 用方块标出的，受影响力是2。三角形标出的，受影响力是1. 更远的地方，就没有影响了。当然，棋盘上有很多个子，位置不同。我们把所有棋子的影响力叠加起来，就可以得到，棋盘上的某一个空点，到底是黑棋的势力范围，还是白棋的势力范围。&/p&&p&这样一来，形式判断的问题就有了一个初步的解决方案。&/p&&p&对于这个图上的局面，&/p&&p&我们看下面这个图。当然，这个图不是手谈的形势判断，因为这个软件太旧了。不过直观上是相似的。&/p&&p&&br&&/p&&img src=&/v2-63f0f97f7ff2f3417e1e_b.png& data-caption=&& data-rawwidth=&220& data-rawheight=&235& class=&content_image& width=&220&&&p&（标字母的请忽略）&/p&&p&比如我们有这么一个局面。棋盘中间标有字母的几个黑棋请大家忽略，这些棋不在棋盘上。那么手谈会怎么判断呢？看下面这图 &/p&&p&&br&&/p&&img src=&/v2-7aa4617e7fbd4abd435a04_b.png& data-caption=&& data-rawwidth=&226& data-rawheight=&239& class=&content_image& width=&226&&&p&很直观的，更靠近白棋势力范围的，比如左上角，白色的方块几乎都涂满了，表示这是白棋的确定地。而右下，黑方的确定地，也是一样。而处于两者之间的，比如棋盘左边中间，黑白势力范围的交界处，也可以看出很明显的过渡。这就是一个&b&不太坏&/b&的静态的局面评估函数。&/p&&p&&br&&/p&&p&&i&所谓静态，就是给你一个局面，不用考虑这个局面会怎么发展，就能判断&/i&。&/p&&p&&br&&/p&&p&同样地，这个影响函数也能初步解决这棋该走哪的问题。比如说，陈志行经常举的一个例子。当年手谈的对手，其它程序们，面对一个棋型，总是懵逼。就是下面这个棋型：&/p&&p&&br&&/p&&img src=&/v2-47d1baa397a1b661f1149_b.png& data-caption=&& data-rawwidth=&500& data-rawheight=&311& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&/v2-47d1baa397a1b661f1149_r.png&&&p&（小棋盘的例子
?）&/p&&p&黑棋带圈的这两个子，构成一个棋型，叫做小飞。现在白棋走在1这个位置。对于下围棋的人来说，黑棋接下来的应法是常识。 &/p&&p&&br&&/p&&img src=&/v2-beed76ec328cb3_b.png& data-caption=&& data-rawwidth=&500& data-rawheight=&311& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&/v2-beed76ec328cb3_r.png&&&p&（这种走了被别人应对了自己就尴尬的叫做臭棋）&/p&&p&黑棋应该挡住。这样黑棋三个子连成一片，白1已经基本成为废子。&/p&&p&其它程序们不知道，但是手谈知道。对于上面那个局面，手谈的势力函数就发威了：根据一个局部影响函数的分布，手谈不难识别出，这是一个黑棋小飞，白棋威胁要切断黑棋的棋型。这就是一种所谓的模式识别。那么一旦遇到这种情况，我挡住就好了。好，到了实战的时候，手谈遇到对手，都能挡住小飞。而对手遇到手谈，就是下面这种情况。&/p&&p&&br&&/p&&img src=&/v2-d2dcc5d9de34d8cdd644a_b.png& data-caption=&& data-rawwidth=&826& data-rawheight=&718& class=&origin_image zh-lightbox-thumb& width=&826& data-original=&/v2-d2dcc5d9de34d8cdd644a_r.png&&&p&（被白棋冲穿了局部很不好收场）&/p&&p&黑方中间这两个子被白方切断。黑棋被撕裂，黑棋形势瞬间恶化。难怪手谈战无不胜。&/p&&p&但是。我必须说的是。这个势力函数，不是万能的。围棋有太多复杂的局部棋型，手谈对于识别更多的棋型无能为力。同时，基于势力函数的形势判断，也并不是很准确。这就限制了手谈的进一步提升。&/p&&p&陈教授的毕生目标是让手谈提升到受让陈教授自己九子能获胜的水平。&/p&&p&陈教授是业余高手，比刚才提到的，应氏基金会派出的测试手谈的棋手，水平还要高一些。能够受让九子战胜陈教授，可以说基本上达到了业余初段的水平。让九子是这么摆的： &/p&&p&&br&&/p&&p&&br&&/p&&img src=&/v2-1a7cf4fd5c5fde_b.png& data-caption=&& data-rawwidth=&1809& data-rawheight=&1741& class=&origin_image zh-lightbox-thumb& width=&1809& data-original=&/v2-1a7cf4fd5c5fde_r.png&&&p&（以前让新手好多次9子，也想起很久远的以前被让九个，被折腾的摸不着头脑）&/p&&p&黑棋先摆九个，然后白棋落子和黑棋比拼领地大小。&/p&&p&可以看到黑棋优势还是很大。可是，直到陈教授在2008年去世，手谈也没能过陈教授的九子关。实际上，在1997年后，围棋程序陷入了一段发展缓慢的时期。这就有了下面这个故事，“&b&初段围棋赌局”。&/b&&/p&&p&1997年，与深蓝战胜卡斯帕罗夫同一年，工程师Darren Cook，向计算机围棋从业者，包括陈教授，和几位职业棋手，提出了一个问题：什么时候才能有围棋程序达到业余初段水平？大家的答案五花八门。有说三年以后的。陈教授说2020年。有个职业棋手说要到23世纪。&/p&&p&&a href=&///?target=http%3A//www./worldcompgo.html& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://www.&/span&&span class=&visible&&/worldco&/span&&span class=&invisible&&mpgo.html&/span&&span class=&ellipsis&&&/span&&i class=&icon-external&&&/i&&/a& &/p&&p&（这里看 World Computer Go Championships）&/p&&p&&br&&/p&&p&&br&&/p&&p&【初段赌局】&/p&&p&其中最劲爆的是，一位计算机科学家，名叫John Tromp的回复，到2011年，不可能有围棋程序战胜我。John是欧洲业余一级，比业余初段只低一个级别。而且，John为自己押了一千美金。这比某位微博大V说川普赢了大选就吃翔，最后躺地打滚，要可靠多了。Darren欣然接受赌局。&/p&&p&那么这一千美金的赌局，最后结果如何呢？&/p&&p&我们要先讲完第二代人工智能。&/p&&p&&br&&/p&&p&&br&&/p&&p&??????? &b&第二代围棋人工智能 &/b&&/p&&p&一个下棋程序，可以归结为一个问题：&/p&&p&也就是，&b&在某一个局面下，轮到自己下棋，你要下在哪里。&/b&&/p&&p&围棋盘上，有许多选择，所以这个问题就归结为，这么多的选择，哪一个是最好的，或者说，比较好的。&/p&&p&&b&极小化极大搜索算法
&/b&Minimax tree search&/p&&p&&b&alpha–beta pruning&/b&&/p&&p&&br&&/p&&img src=&/v2-e32f85a4c08ec818afcc5_b.jpg& data-caption=&& data-rawwidth=&516& data-rawheight=&499& class=&origin_image zh-lightbox-thumb& width=&516& data-original=&/v2-e32f85a4c08ec818afcc5_r.jpg&&&p&（井字棋大概那么示意一下）&/p&&p&&br&&/p&&p&?&/p&&img src=&/v2-409e7d8dae6fc61694c41_b.png& data-caption=&& data-rawwidth=&500& data-rawheight=&501& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&/v2-409e7d8dae6fc61694c41_r.png&&&p&最简化的情况做一个讲解 ?&/p&&img src=&/v2-4b602afbe18c9f12132ff85_b.jpg& data-caption=&& data-rawwidth=&1920& data-rawheight=&1215& class=&origin_image zh-lightbox-thumb& width=&1920& data-original=&/v2-4b602afbe18c9f12132ff85_r.jpg&&&p&&br&&/p&&p&&br&&/p&&p&假设我们对每个局面有一个评分，评分越高代表对自己越有利。相反的，如果评分低，代表对对方有利。&/p&&p&当轮到自己落子时，自己面临两种选择A1，A2。自己选择A1后，对方可以选择B11，B12。自己选择A2后，对方可以选择B21，B22。&/p&&p&评分：&/p&&p&&b&B11: 3&/b&&/p&&p&&b&B12: 5&/b&&/p&&p&&b&B21: 0&/b&&/p&&p&&b&B22: 10&/b&&/p&&p&Minimax选择A1。&/p&&p&&br&&/p&&img src=&/v2-295ccb3ca07ea315fd4941c7_b.jpg& data-caption=&& data-rawwidth=&555& data-rawheight=&339& class=&origin_image zh-lightbox-thumb& width=&555& data-original=&/v2-295ccb3ca07ea315fd4941c7_r.jpg&&&p&（乱入一张图，五彩斑斓，还有全局（global）感）&/p&&p&&br&&/p&&img src=&/v2-69b98df2aa9fd0e6dbe8_b.png& data-caption=&& data-rawwidth=&1096& data-rawheight=&920& class=&origin_image zh-lightbox-thumb& width=&1096& data-original=&/v2-69b98df2aa9fd0e6dbe8_r.png&&&p&（围棋的选点很多，但是赋值却极为困难，而且随着局面变化会产生变化）&/p&&p&&b&那静态和动态都是人为赋予分数来计算，实际执行的时候会有什么明显差异么？&/b&&/p&&p&&b&静态评估，就是只看棋盘的当前状态。动态评估，还需看除当前状态外的其它状态。&/b&比如用蒙特卡洛模拟大量棋局进行评估。&/p&&p&Monte-Carlo methods &/p&&p&&b&第一代&/b&围棋人工智能的局限：局面评估相比国际象棋，围棋的局面评估非常难。大家可能了解，国际象棋里面的后和车，威力很大。如果一方多了一个后或者多了一个车，一般说来局面一定对那一方有利。当然还要根据子力位置好坏进行一定调整，但是一般说来利用子力价值评估，已经能得到相当好的局面评估。但是对于围棋，并不能这样套用。因为每一颗围棋棋子都是一样的，只是在棋盘上出现在不同位置，才出现了不同棋子之间的价值差别。而这对于电脑来说，是非常难以判断的。&/p&&p&MCTS &b&蒙特卡洛&/b&搜索树&/p&&p&蒙特卡洛是摩纳哥公国的一座城市，位于欧洲地中海。蒙特卡洛是摩纳哥的&b&历史中心&/b&，也是世界著名的赌城。蒙特卡洛算法蒙特卡洛方法（英语：Monte Carlo method），也称统计模拟方法，是二十世纪四十年代中期由于科学技术的发展和电子计算机的发明，而被提出的一种以概率统计理论为指导的一类非常重要的数值计算方法。是指使用随机数（或更常见的伪随机数）来解决很多计算问题的方法。&/p&&img src=&/v2-a3cb5f7c5abf79d3dbaa32_b.jpg& data-caption=&& data-rawwidth=&1024& data-rawheight=&683& class=&origin_image zh-lightbox-thumb& width=&1024& data-original=&/v2-a3cb5f7c5abf79d3dbaa32_r.jpg&&&p&(蒙特卡洛是这样的城市)&/p&&p&举例来说：假设我们要计算一个不规则图形的面积，那么图形的不规则程度和分析性计算（比如，积分）的复杂程度是成正比的。蒙特卡洛方法基于这样的思想：假想你有一袋豆子，把豆子均匀地朝这个图形上撒，然后数这个图形之中有多少颗豆子，这个豆子的数目就是图形的面积。当你的豆子越小，撒的越多的时候，结果就越精确。借助计算机程序可以生成大量均匀分布坐标点，然后统计出图形内的点数，通过它们占总点数的比例和坐标点生成范围的面积就可以求出图形面积。&/p&&p&&br&&/p&&img src=&/v2-409e7d8dae6fc61694c41_b.png& data-caption=&& data-rawwidth=&500& data-rawheight=&501& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&/v2-409e7d8dae6fc61694c41_r.png&&&p&&br&&/p&&p&在赌场中有很多数学概率计算的项目。蒙特卡洛算法在处理有些问题时候&b&相当有效&/b&。故因此得名。&br&蒙特卡洛搜索树算法是一个基于蒙特卡洛思想，解决围棋局面评估问题的算法。简单的说，对计算机来说，围棋局面很难评估孰优孰劣，因为没有定型的地方很难判断属于哪一方。但是，如果棋局已经下完了，那就可以数子，来判断谁赢了。那么，对于一个没下完的局面，就电脑模拟，把他下完。每模拟一次，就得到一个最终的胜利结果。假如对于一个未完成的局面，模拟10000局，其中黑方赢了5500局，白方赢了4500局。就认为此局面下黑方稍优，认为黑方胜率55%。&br&这种算法好处在于：&/p&&ol&&li&充分利用了电脑的计算能力。模拟的局数越多，得到的结果也就越精确。&/li&&li&这种算法是天然支持并行计算的。因为不同的模拟之间没有逻辑的因果联系，可以放到不同的机器上跑，最后再综合结果。&/li&&/ol&&p&这种算法也有其缺点：&/p&&ol&&li&招法只是根据统计结果来决定，有时会缺少前后逻辑关联。&/li&&li&打劫，尤其是连环劫。打劫有很强的前后关联。&/li&&li&平均值和最大值的差异。举例来说：（要先说minmax search）&/li&&li&现在有A1，A2两种选择：A1下面的是（3， 5），A2下面的是（0，10）。显然应该选A1。因为如果我选了A1，我的对手会选3。如果我选B，我的对手会选0。0比3要小，所以我会选A1，这样对我更有利。但是如果我用蒙特卡洛搜索树算法呢，我看了下A，有两个可能，平均值是4。看了一下B，有两种可能，平均值是5。这样看上去B更好。&/li&&li&不同的分支，搜索的深度应该并不一样。比如，思考A1招法时候，五步棋之后，明显发现不好，后面的就不需要看了。而A2招法，十步棋之后，也很难说好与不好，还需要继续往下计算。这时候如果平等的看待每个后续招法，是不合适的。&/li&&/ol&&p&&b&UCT 上限置信区间算法
&/b&In 2006, a new search technique, upper confidence bounds applied to trees (UCT), UCT算法是一种&b&特殊的蒙特卡洛搜索算法&/b&，它由树内选择策略、缺省仿真策略和仿真结果回传三部分组成。 &br&&/p&&ol&&li&时间可控，解决MCTS的第3个缺点，动态分配资源。&b&好钢用在刀刃上&/b&。如果算出去几步，一看情况不妙，马上收手，去算其他节点。&/li&&li&UCT 算法最后的作为搜索结果的节点以及次优节点一定是经过多次抽样的具有较高估值可信度的节点。&/li&&/ol&&p&--------------------------------------------------------------------------------------------------------------------------&/p&&p&在AlphaGo出现之前，最成功的围棋人工智能叫做&b&Zen&/b&，中文叫做天顶围棋。&/p&&p&&br&&/p&&p&§ 第三代人工智能?????&/p&&p&我们先揭晓一下之前提到的，“初段围棋赌局”的结局。在第二代人工智能兴起以后，围棋AI进步迅猛。2008年，采用蒙特卡洛树搜索的&i&MoGo&/i&受让九子战胜金明完九段。次年，MoGo受让六子战胜简立辰初段。业余初段似乎已经不是AI们的对手。不过，John也不是坐以待毙。在过去的十几年里，John已经从业余1级进步到了业余2段。赌局最后期限临近，悬念竟然不跌反增。2010年末，John Tromp 与当时的一流程序多面围棋大战四局。结果令人意外，John 以4比0横扫多面围棋。并且，从进程来看，多面围棋毫无还手之力，可以说是惨不忍睹啊。John就此赢得一千美元的赌金。&/p&&p&不过Darren不服。明明程序们早就超出了业余初段的水平，只不过是你John也进步了。可是你一个人的进步，能有程序们的进步快？两年以后我们再比一场，这次不求你赌，只求你出战。&/p&&p&2012年中，John再次站在了pk台上。这一次他的对手是Zen。&i&&u&Zen当时已经在西方围棋圈内小有名气。在KGS上，每天都有业余高手排着队挑战Zen。我记得当年我也和Zen下了十几局。印象中，快棋输得多。慢棋大致相当。当时我就觉得John一点机会都没有啊。&/u&&/i&结果，John居然赢下了第一局。不过，Zen没有再给John机会，连胜三局，从而赢得了这个系列赛。“初段赌局”就此告一段落。&/p&&p&同年，Zen在日本举行的电王战，也就是计算机围棋的大赛中，夺冠。随后Zen与武宫正树对抗。武宫正树九段，日本前超一流棋手，以“宇宙流”，也就是重视外势的风格，受到棋友的喜爱。结果Zen连破武宫正树的五子关、四子关，也就是分别受让五子和四子战胜武宫正树。这标志着围棋AI达到了业余高手的水平。&/p&&p&不过，回看当年视频，可以看出武宫对局心态相当放松，明显是用下指导棋的态度。棋局内容中武宫试探较多，有时也并未祭出最强下法。所以这个让四子，需要打一个小小的折扣。&/p&&p&就在圈内一片乐观之时，围棋AI的发展却又陷入了停滞。&a href=&tel:&&&/a&年，围棋AI进展缓慢。&/p&&p&2015 年末，在北京三里屯，世界围棋人工智能大会，程序石子旋风力挫Zen夺冠。在随后的人机对抗中，中国的连笑七段——连笑，处于当打之年的一流棋手。连笑让石子旋风四子和五子局皆胜，让六子局才败于石子旋风。&i&&u&在棋局中，石子旋风再次暴露出第二代围棋AI行棋缺乏逻辑性的问题，特别是一个连环劫，被连笑耍得团团转。&/u&&/i&&/p&&p&赛后，国家队总教练俞斌说，围棋AI战胜职业棋手，恐怕还需要一百年。即使是参赛程序开发者们的“乐观估计”，也认为这需要15-20年。&/p&&p&当时没人想到，有一个程序正在飞速成长，并已经战胜了一位职业棋手。&/p&&p&这个程序，现在大家都知道了，就是AlphaGo.&/p&&p&&br&&/p&&p&??
??&/p&&p&那我们接下来介绍AlphaGo.&/p&&p&大家或多或少可能知道，阿法狗采用了一项核心技术，DCNN，也就是&b&深度卷积神经网络。&/b&我们今天不展开讲神经网络。不过，为了方便理解，我还是给出一个神经网络的直观理解。&/p&&p&&br&&/p&&img src=&/v2-8b7d37daf49_b.jpg& data-caption=&& data-rawwidth=&530& data-rawheight=&398& class=&origin_image zh-lightbox-thumb& width=&530& data-original=&/v2-8b7d37daf49_r.jpg&&&p&人工神经网络，模拟的是人脑中的神经网络。成年人的大脑里有一千亿个神经元，而这一千亿神经元构成的网络能够实现无数不可思议的功能。一个普通的人工神经网络，通常能够实现人脑功能的很小一部分。我们可以把它看成一个黑箱，比如下面这个图。 &/p&&p&&br&&/p&&img src=&/v2-96d0ca066d07b3662862_b.jpg& data-caption=&& data-rawwidth=&728& data-rawheight=&546& class=&origin_image zh-lightbox-thumb& width=&728& data-original=&/v2-96d0ca066d07b3662862_r.jpg&&&p&具体到AlphaGo采用的神经网络，我们可以把它看成一个只会下棋的大脑。&/p&&p&一个只会下棋的大脑是什么样的呢？我们可以用人类棋手下棋时的思维方式类比。请看这个图。&/p&&p&&br&&/p&&img src=&/v2-5b0f139c36b6b1ce69deed_b.png& data-caption=&& data-rawwidth=&1920& data-rawheight=&1003& class=&origin_image zh-lightbox-thumb& width=&1920& data-original=&/v2-5b0f139c36b6b1ce69deed_r.png&&&p&我们下棋的时候，面对一个局面，就好像给大脑输入了信息。接下来，大脑处理这个信息，得到两个输出。一是候选招法。这个局面，根据我十几年下棋的经验，大概有ABCD这么四种走法。二是形势判断。这A招法，我获利10目。B招法，获利3目。C脱离战场，D方向错误。注意，这里的判断既有定量的，也有定性的。这是人类棋手判断的特点。最后我确定，选择招法A，并且默默再做一次判断，确定自己有优势。&/p&&p&其实AlphaGo和人类的思维方式十分接近。AlphaGo的神经网络主要分为策略网络和价值网络。&/p&&p&策略网络其实就是模仿人类给出候选招法的过程，而价值网络就是模拟人类形式判断的过程。接下来我们具体展开。&/p&&h2&策略网络&/h2&&p&策略网络的始祖，是监督学习策略网络，也就是Supervised Learning Policy Network。我们用一个棋手来做比喻，藤泽秀行。藤泽秀行，已故的日本名誉棋圣。在座的部分棋迷也很熟悉，秀行在日本以私生活混乱和酗酒著称。既有所谓“家中红旗不倒，外面彩旗飘飘”，也有在中国会见邓小平时，一身酒气，满嘴胡话的轶事。当然，我的重点是，藤泽秀行当年号称“前五十手天下第一”，说的是藤泽秀行布局功夫了得，选点有独到之处。这和监督学习策略网络很像。&/p&&p&监督学习策略网络，是从人类业余高手的棋谱中挑选出三千万个局面学习得到的。学习的结果是，这个网络在大部分时候能够像人类的业余高手一样选点，总体有业余3段的水平，&b&就好像一个超低配版的藤泽秀行。&/b&&/p&&p&&br&&/p&&img src=&/v2-48ab973cefad56b381744aced8953ad2_b.png& data-caption=&& data-rawwidth=&1428& data-rawheight=&1195& class=&origin_image zh-lightbox-thumb& width=&1428& data-original=&/v2-48ab973cefad56b381744aced8953ad2_r.png&&&p&&br&&/p&&p&这个低配版的藤泽，另一个特点就是“慢”。藤泽秀行下棋也慢，他曾经有一手棋长考三小时，然后怒屠对手大龙的经历。而低配版的藤泽秀行呢，一秒钟只能下三百步。你可能会问，一秒钟三百步还算慢？别急。跟接下来这位比，这个藤泽还真算慢的。&/p&&p&&br&&/p&&p&&br&&/p&&h2&&b&快速走子&/b&&/h2&&p&英文Fast Rollout.
我们也拿一位棋手&b&打比方&/b&，罗洗河。&/p&&p&罗洗河，中国职业九段，绰号神猪。当年罗洗河曾串烧五位韩国顶级棋手，并在决赛战胜石佛李昌镐，夺冠的同时，也终结了李昌镐的霸业。罗九段以幼年测智商160 闻名棋界，下棋时落子飞快，经常只用对手的一半时间。而我们的快速走子网络，比神猪罗洗河更快。快速走子，一秒能走五十万步，简直就要上天。不过，快，就要牺牲下棋的质量。当年我学棋的时候，有一段时间也下得飞快。我的老师就斥责我，“你这下得是围棋吗？你这简直就是摆石子！” 快速走子，实力也和摆石子状态的我差不多，业余2段水平。&/p&&p&但是这个水平也不简单啊。第二代围棋AI为什么遇到瓶颈？很大程度上就是因为在蒙特卡洛搜索树的模拟中缺少一个能把色子投得又快又好的人。现在我们有罗洗河。它比策略网络快一千倍，实力却差不了太多，恰好是负责模拟的最佳人选。另一方面，罗洗河天赋异禀。这个快速走子不是从完整的棋谱里训练出来的，而是把所有局部的棋型都列举出来。所有的局部棋型，12格的小方块里面，几万个棋型，大家算算3^12是多少，全部输入到罗洗河的脑子里，然后让他自己琢磨去。这个琢磨的方法不是深度学习，而是线性回归。不过，还是管用的。我们训练快速走子，“罗洗河”的口号就是，不求最好，只求管用！&/p&&p&&br&&/p&&img src=&/v2-2acee352feca_b.jpg& data-caption=&& data-rawwidth=&1425& data-rawheight=&964& class=&origin_image zh-lightbox-thumb& width=&1425& data-original=&/v2-2acee352feca_r.jpg&&&h2&&b&强化学习策略网络&/b&&/h2&&p&接下来是一位重量级人物，聂卫平。擂台赛英雄，不必多介绍了。这里值得一提的是，藤泽秀行当年为了帮助中国围棋发展，曾多次自费组团前往中国指导年轻棋手。老一辈的中国棋手，包括聂卫平在内，都把藤泽看作自己的老师。同样，强化学习策略网络，低配版的聂卫平，也是低配版藤泽，监督学习策略网络的学生。低配版聂卫平，从低配版藤泽的招法开始，在自我对弈的过程中不断更新迭代，稳定以后变得比老师更强大，达到业余4段。 &/p&&p&&br&&/p&&img src=&/v2-74f416bb1ba7bbc678291fbdcca4d9cc_b.jpg& data-caption=&& data-rawwidth=&1621& data-rawheight=&1166& class=&origin_image zh-lightbox-thumb& width=&1621& data-original=&/v2-74f416bb1ba7bbc678291fbdcca4d9cc_r.jpg&&&p&这个低配版“聂卫平”的主要职责，就是鞭策后生，训练价值网络。想当年，2002年围甲联赛，50岁的聂卫平和一位13岁少年对战。聂卫平宝刀不老，战胜少年。复盘时，老聂在棋盘上指点江山，轻松写意。不料，少年不服，反复强调如果我这么这么下就赢了。老聂不悦，拂袖而去，留下一句“你丫牛逼”。这位日后成为世界冠军的少年，就是陈耀烨。&/p&&h2&&b&价值网络&/b&&/h2&&p&陈耀烨以形势判断准确而著称。我们看围棋TV的直播，那么多顶尖职业做过主播，唯有陈耀烨判断最准，好像一台形势判断机器。而我们的价值网络，也是一台形势判断机器，一个低配版的陈耀烨。价值网络从强化学习策略网络的棋局样本中汲取营养，将自己训练到能够，看到一个局面，就立即给出当前局面黑方的胜率。这个判断有多准确呢？如果我们让价值网络单独上场，那么它能够达到业余3段的水平，相当不俗。&/p&&p&&br&&/p&&img src=&/v2-91b2bd43b_b.jpg& data-caption=&& data-rawwidth=&1531& data-rawheight=&1145& class=&origin_image zh-lightbox-thumb& width=&1531& data-original=&/v2-91b2bd43b_r.jpg&&&p&现在我们有一个“四人团队”了。“藤泽秀行”、“罗洗河”、“聂卫平”、“陈耀烨”，虽然都是低配版的。其实还有第五位，和“罗洗河”很像，就不展开讲了。那么这些只有业余水平的神经网络，是怎么变成战无不胜的AlphaGo的呢？关键回到之前介绍的，蒙特卡洛搜索树。 &/p&&p&&br&&/p&&img src=&/v2-1becc32c934dbf_b.png& data-caption=&& data-rawwidth=&1920& data-rawheight=&817& class=&origin_image zh-lightbox-thumb& width=&1920& data-original=&/v2-1becc32c934dbf_r.png&&&p&在AlphaGo这里，蒙特卡洛搜索树中的基本步骤，大致是上面这个图。第一步，选择。我们通过策略网络，就是图中的P，给出几个候选招法，这是第一层子节点。第二步，扩展。我们扩展第一层子节点，通过策略网络再下一招，给出第二层子节点。注意，这一步在刚开始模拟的时候是没有的。只有当第一层的子节点经过的次数超过40次的时候，才扩展这个子节点。第三步，评估。对于每一个子节点，我们分别用两种方式评估。一种是用价值网络，v_theta，直接做形势判断。第二种是用快速走子，p_pi，将棋局走到底，胜则记为1，败则记为0，这就是图中的r函数。最后一步，我们再把这两个结果返回第一层子节点，更新行动函数Q。重复N次以后，我们以行动函数Q，和另一个关于策略网络的函数u（P），这二者为依据，最终决定选择哪一招。 &/p&&p&&br&&/p&&img src=&/v2-c9fcf4942f_b.png& data-caption=&& data-rawwidth=&1920& data-rawheight=&1132& class=&origin_image zh-lightbox-thumb& width=&1920& data-original=&/v2-c9fcf4942f_r.png&&&p&上面那段可能有些朋友听了有点晕，我们再结合一个具体的局面解释。&/p&&p&这个图的棋盘部分是从AlphaGo的论文里摘下来的。拿到这样一个局面，我们先请出“陈耀烨”。你先看一眼这个棋大概谁好啊？&/p&&p&请看图a，“陈耀烨”说，哦这个棋，如果黑走这里，胜率50，走那里，胜率51，最好是走右下这个画圈的地方，胜率54。我说哦好谢谢，你可以走了。这里只是请“陈耀烨”看看而已，并不作为主要决策依据。&/p&&p&接下来我们请出“藤泽秀行”，以您老人家的布局眼光，这棋走哪里好呀？请看d图。“藤泽”说，以我五十年喝酒的经验，不，下棋的经验，这棋我多半会走下边中间这个扳。还有三分之一机会走右下角的冲。其它棋，我基本上不会选。好嘞，谢谢您。劳烦您，您说的这两步，再帮我们分别往下摆一手。藤泽老师就帮我们分别摆了一手。&/p&&p&接下来，我们再把“陈耀烨”请回来。再劳驾你看看藤泽推荐的这几招，到底好不好啊，你给判断判断？我们也把罗洗河请来。劳驾他用一秒钟五十万步的神功，模拟一下，谁赢谁输？哎，不是让他俩随机选变化。你们一开始要听长辈，藤泽老师的，重点模拟他那两手。过段时间，你们有信心了，再多考虑你们自己的想法，明白了吗？ UCT. 十几秒以后，陈耀烨给出了一个综合报告，就是图b，仍然坚持右下角的冲最好。罗洗河呢，报告说左下角的扳最好。这俩人的评价有分歧，听谁的呢？综合起来，我们取模拟次数最多的那一手。这就是图e，发现是右下角的冲模拟次数最多， 79%，下边的扳次之， 20%。我们最后选择右下角的冲。那图f是什么意思呢？图f，就是在由整个团队共同决定的模拟中，重复次数最多的那个分支，或者说变化。如果是两个阿法狗在对局，那么他们接下来就有比较大的可能按照图f进行下去。&/p&&p&这里有一点，“聂卫平”老师，也就是强化学习策略网络，没有出现。明明他比老师，藤泽秀行强呀，怎么不让他决策呢？AlphaGo的团队也曾经让聂卫平代替藤泽秀行做决策，结果单打独斗更强的“聂卫平”，在团队里的效果却不如“藤泽秀行”。为什么呢？这就有点玄学了，官方的解释是“聂卫平”给出的选择随机性太小。聂老布局水平高嘛，有很多棋在他眼里都不是围棋，只有他这一步才是对的。随机性小就阻碍了搜索的广度，这很不好，一不小心就漏看了一步棋。不过，说不定是聂卫平和团队里的其它成员八字不合吧，比如陈耀烨。不过，这个低配版“聂卫平”，并非没有价值。毕竟，他鞭策了后生，亲手训练了“陈耀烨”嘛。&/p&&p&这样的一个团队，通过蒙特卡洛搜索树结合到一起。三个臭皮匠赛过诸葛亮，战胜了职业二段樊麾，又在2016年3月，以4比1战胜传奇棋手李世乭。领头羊的突破总是会带动后来者。&/p&&p&&br&&/p&&img src=&/v2-1cc89eb5035089efccb3be3_b.jpg& data-caption=&& data-rawwidth=&472& data-rawheight=&201& class=&origin_image zh-lightbox-thumb& width=&472& data-original=&/v2-1cc89eb5035089efccb3be3_r.jpg&&&p&历史长河中，每个时代总会出现一位思维层次高过同时期其他所有人的棋界霸主，从黄龙士、道策、吴清源到李昌镐。&/p&&p&每个时代的大师都以前所未见的形式冲击了旧的思维禁锢，打开了新的天地。&/p&&p&不知道多少人曾经想象过这样一件事，如果计算机帮忙穷尽计算，我们来做决策，岂不美哉，AlphaGo的出现确实整体的拔高了棋界对围棋的理解。&/p&&p&如今绝艺每天在野狐出没，AlphaGo就要决战柯洁。&/p&&p&期待今年的人机大战，希望柯洁能够赢一盘。&/p&&p&（今年大家该赶紧做柯洁的表情包了~）&/p&&p&&br&&/p&&img src=&/v2-ec76b0e7c1dc3468e7caeea2b73f4750_b.jpg& data-caption=&& data-rawwidth=&400& data-rawheight=&494& class=&content_image& width=&400&&
围棋基础知识尚未了解的可以移步：『写在前面』围棋的变化数对于目前看起来强大无比的计算机资源，仍然是一个无穷一般的概念。AlphaGo可以打败人类顶尖水准棋手，但是还远远达不到“最优解”的程度。AlphaGo对于棋界无疑是一阵巨大的…
&blockquote&第二天早晨，在越王的剑室之中，阿青手持一根竹棒，面对着越国二十名第一流剑手。范蠡知道阿青不会教人如何使剑，只有让越国剑士模仿她的剑法。
　　但没一个越国剑士能当到她的三招。
　　阿清竹棒一动，对手若不是手腕被戳，长剑脱手，便是要害中棒，委顿在地。
　　第二天，三十名剑士败在她的棒下。第三天，又是三十名剑士在她一根短竹棒下腕折臂断，狼狈败退。
　　到第四天上，范蠡再要找她去会斗越国剑士时，阿青已失了踪影，寻到她的家里，只余下一间空屋，十几头山羊。范蠡派遣数百名部署在会稽城内城外，荒山野岭中去找寻，在也觅不到这个小姑娘的踪迹。
　　&b&八十名越国剑士没学到阿青的一招剑法，但他们已亲眼见到了神剑的影子。每个人都知道了，世间确有这样神奇的剑法。八十个人将一丝一忽勉强捉摸到的剑法影子传授给了旁人，单是这一丝一忽的神剑影子，越国武士的剑法便已无敌于天下。&/b&&/blockquote&&p&------金庸《越女剑》&/p&
第二天早晨，在越王的剑室之中，阿青手持一根竹棒，面对着越国二十名第一流剑手。范蠡知道阿青不会教人如何使剑，只有让越国剑士模仿她的剑法。
但没一个越国剑士能当到她的三招。
阿清竹棒一动，对手若不是手腕被戳，长剑脱手，便是要害中棒，委顿在地。…
满脑子都是这段。。&br&
八十名越国剑士没学到阿青的一招剑法，但他们已亲眼见到了神剑的影子。每个人都知道了，世间确有这样神奇的剑法。八十个人将一丝一忽勉强捉摸到的剑法影子传授给了旁人，单是这一丝一忽的神剑影子，越国剑士的剑法便已无敌于天下。
满脑子都是这段。。八十名越国剑士没学到阿青的一招剑法，但他们已亲眼见到了神剑的影子。每个人都知道了，世间确有这样神奇的剑法。八十个人将一丝一忽勉强捉摸到的剑法影子传授给了旁人，单是这一丝一忽的神剑影子，越国剑士的剑法便已无敌于天下。
开下脑洞，随手写个故事。&br&2016年3月，号称研发出可以轻易虐杀dota玩家的机器的谷弟公司，发出战书，将在长城挑战代表dota届最高水平的所有西恩dota玩家，挑战的口号是“大家轮着来”，并声称如果人工智能取胜，西恩dotaer要放弃DOTA，由人工智能主导的dota——这无疑对dota是毁灭性的的打击。&br&嚣张的行为彻底激怒了整个dota届，所有事关未来dota届是否由人工智能主导，一时间群情激愤，吸引了全世界的目光。&br&中国dota外事委员会首先召开新闻发布会，会上，dota届新闻发言人rotk对谷弟公司表示强烈谴责，并声称如果谷弟公司有种就来试试，强硬的态度博得了满堂喝彩。&br&《dota日报》发布了整版专栏——《谷弟公司科技主义都是纸老虎》，并要求各级省市区dota委员会召开专题学习会对该专栏进行学习。&br&正闹的鸡犬不宁的dota圈名人sylar和ruru共同发表联合声明——《关于暂停一切撕逼行为一致对外的联合声明》，大呼大家都是中国dotaer，号召全国dotaer同仇敌忾，共同对外。&br&贴吧论坛的草根大神纷纷报名参军，投上简历要求挑战人工智能，一时间军队人员爆满，中国dota军事发展委员会不得不发表声明提高标准——2分钟辉耀已是最低标准，超过两分钟出不了辉耀不符合贴吧平均标准的将被拒绝参军。&br&中央dota电视台组织dota届艺人，联合举办了一台旨在激励全体dota届的文体晚会——《西恩dota说不》，并要求各地方dota电视台停止一切娱乐活动反复播放晚会内容。&br&各地供奉dota真神的酒神庙香客爆满，祈祷dotaer战胜谷弟公司的香客络绎不绝，各地dota学院纷纷展开祈福，据悉各地蜡烛已经断货。&br&……&br&中国dota委员会第一书记处书记，张单车，代表全体dotaer接过谷弟公司挑战书，会晤中，张单车书记表示：谷弟公司人工智能很不错，很屌。会后，谷弟公司在其官方网站发表声明，要求张单车书记立刻停止这种妄图用特异功能影响竞赛公平性的行为并道歉。&br&&br&画风一变。&br&挑战日如期到来，清晨的长城一尘不染，巍峨的长城脚下，除了一排排标着路透社、法新社、新华社、ccav、草榴论坛、朝日新闻、知乎日报等logo的媒体转播车，其他车辆被实行交通管制。周围布满一圈圈荷枪实弹的特警武警，五步一岗，所有人表情凝重坚毅。空中是几架巡逻的武装直升机，不时还有战斗机掠过空中的声音，据彭博社前一晚的报道，辽宁号航母战斗群已经靠近渤海海湾。城墙上，是临时搭建起的挑战舞台和嘉宾观礼台。气氛有些压抑，天空几只和平鸽惊慌的掠过。这一刻的长城注定会全世界的焦点。为了观看这场挑战，中国各地中小学生放假一天，美国nba等四大职业联盟宣布暂停比赛一天，isis组织发表声明将今天定位和平日，表示会和所有dota爱好者一同观看比赛，日本东京热一本道等影业公司宣布休影一天——不顾所有av爱好者的抗战……。全世界都在屏息以待这场人机对话鹿死谁手，&br&“这条巍峨的长城，曾经见证过中国几千年的历史，见证过秦王赢政一统天下的王霸天下，也见证过汉武大帝兵出漠北的一往无前，见证过成吉思汗天子骄子的盛气凌人，也见证过满清王朝备受欺凌的屈辱不堪，而今天，这里又将见证人类dotaer和科技力量的角逐，究竟是人类dotaer技高一筹，还是人工智能创造历史，我们拭目以待，这里是ccav为您发回的现场报道！下面先进一段广告。”&br&“打dota熬夜没关系，快喝绿罐凉茶老王急，隔壁老王潜心二十年研制，著名选手批断手代言，永远不上火，怕上火，就喝老王急”&br&“其实人到了年纪，吃的也就不那么讲究了，有时候一碗面条就可以了，我下面八下了这么多年面，还是春撕面条好，大品牌，有保障，一包，顶过去五包”&br&“以前打职业爱吼，总是嗓子疼，有时候经常一疼就用错技能，要是我早点用上金嗓子喉宝，就不会用蝙蝠拉小兵了”&br&“妈妈妈妈，我回来啦，咦，这是？六个核桃？你再看我，你再看我！你再看我我就把你喝掉！六个核桃，职业选手砍手豪倾情推荐，他好我也好”&br&……&br&。 &br&趋近天价的广告费没有拦住广告商，这是一场全世界的狂欢，而这场party的高潮，无疑开始于这场挑战。&br&10点，挑战开始的时刻。观众陆续进场，一辆挂着京av2009车牌的轿车直接驶进了选手区，下来一个穿黑色风衣的男人和参赛选手分别拥抱鼓励。另一边，谷弟的人工智能早已经安排就绪，甚至不需要再调试，机器已经很完美，里面是一台目前最完美的cpu大脑，据说相当于10个爱因斯坦同时运行。&br&比赛规则由谷弟人工智能接受doter代表的轮流挑战，为了保证观赏性和互动性，除去事先安排的选手，还会随机抽取现场观众进行挑战。谷弟公司声称：要用最dotaer的方式击败dotaer。&br&第一个上场的，是号称六分钟无敌的男人天宇技师，仅仅3分钟，被单杀三次已经被压了三级的天宇绝望的打出“技不如机，甘拜下风”后退出了游戏。&br&全世界静默了，所有人在为中国dotaer捏一把汗的同时也为人工智能的强大而震惊。博彩网站纷纷调低了人类dotaer获胜的赔率。&br&第二场，由伐木小王子农民周鱼上场。双方开始了一场无聊的伐木大战，说无聊是因为人工智能一直在无聊的正反补全收，农民周鱼无聊的毫无办法。结果毫不意外。“人工智能可以通过大脑计算小兵血量，并且根据对方动作进行预判从而实现超高效伐木”。这是谷弟公司技术总监的解释。&br&第三场，是号称逃跑大师的胖鱼风登场。“我们的人工智能储存了10000本心理学和行为分析学著作，对方任何一个走位，一个动作，我们就可以判断他接下来的动作”。在胖鱼枫闪转腾挪还是被人工智能天火连续打死5次之后，谷弟公司开口解释道。&br&……&br&第九场，是号称拉谁说话的老怼怼出场。比赛一开始，“你会不会玩”“送，你继续送”“拉谁，说话”……一连串的声波从人工智能的低音炮中发出，超强的声波甚至震碎了对面老怼怼的椅子。老怼怼毫无还手之力。“我们说过了，要用最dotaer的方式击败dotaer”&br&第十场，最后一场，是号称鸽王的批断手上场，自从上次单杀苏梅尔拯救西恩dota之后，他又得到了西恩护国大师这个称号。如果说，他都没有一战之力，那么doter等于输了。进了游戏，批断手发现只有他一个人。&br&“just a joke”“你的这场挑战只是一个玩笑，或者说，只是逗你玩。我只是随口一说，而你已经认真了，你已经输了”。批断手血溅十丈，捂着胸口：你...胆敢...鸽我。陷入了昏迷。&br&而dotaer已经败了。&br&&br&台下观众已经有人开始哭泣，虽然中国从未触摸过大力神杯，可是现在就像丢掉了大力神杯一样痛苦。愤怒的观众控制不住情绪开始疯狂的把手中的手机，帽子，饮料和手边一切可以扔的东西甚至宠物扔向舞台。&br&台上，谷弟公司老板带着笑，口中说着承让承让，又嚣张的问，还有谁想挑战的，大可上来一试。他自信没有谁能超过他的机器，何况是在这些顶级dota之后。事实也是如此，除了谩骂和发泄，这群dotaer并没有别的办法。躲避着“枪林弹雨”，他就要宣布获胜。&br&&br&突然，一个黑色物体掠过舞台，重重的摔在舞台上。&br&等到谷弟公司老板看清后，诧异道，你是？&br&龙底迪还一阵晕晕乎乎，刚刚还坐在吴鲁鲁肩膀上看比赛，不知道怎么就被扔了上来。&br&台下，路人甲哈着腰跟吴鲁鲁道歉：“卧槽兄弟我以为那是你养的猴，顺手就给扔上去了，我说砸死这个傻x，对不住啊兄弟”。&br&“你这是要来挑战我们的人工智能？”眼前这个小不点让谷弟老板有些哭笑不得。&br&龙底迪心想，来都来了，丢不起这个人。回答道&br&“怎么滴？不行？”&br&“行，你的门票呢？验证一下身份就行”&br&“什么门票？哥免门票，哥长这么大，坐火车看电影售票员看见我就从来没让我买过票！”说完龙底迪抬着头倔强的看着谷弟公司老板又说道“是dotaer不就得了，我是龙…”&br&“开始吧”谷弟公司老板打断了龙底迪，他并不想知道这个小学生的名字，他觉得是浪费时间。&br&龙底迪朝台下使了个眼神，吴鲁鲁飞快的飞奔上台，抱着龙底迪坐上了椅子，还不忘垫上5个枕头，以免龙底迪看不到屏幕。&br&游戏很快开始。龙底迪暗暗给自己鼓了一口劲。拿了最拿手的矮人狙击手。&br&人工智能选择了一样的英雄，甚至用了一样的出门装——靠精确的计算。&br&龙底迪自信对线不如天宇，伐木不如周鱼，所以抿着嘴唇不敢出声。&br&人工智能没有留下一丝儿破绽，他毫无办法。&br&补刀的动作，细小的走位，出装的想法都和龙底迪相差无二。&br&对面就是一个进化到究极体的自己。&br&他放佛看到对面人工智能的CPU也做成了自己的模样，带着比自己还要更加淫邪猥琐的笑。&br&才几分钟，龙底迪感到一丝绝望。&br&按他的习惯，1号位打法只能退化成2号位打法了，很快，龙底迪身上的气势衰退的很快，回到了他熟悉的节奏。&br&“这把我要打大哥”&br&“这把还是帮你们杀人吧”&br&“算了这把我当肉盾”&br&“我帮你们买眼”&br&“算了我当眼吧”&br&……。&br&“唉，要输了”&br&龙底迪已经从1号位被打成了泉水指挥位。对面的人工智能也百无聊赖，很快，按照系统设定，他就要终结这场比赛。&br&然后接管未来的dota。&br&在准备打出gg的那一刻，龙底迪还是有些不甘，就像每次打出gg的感觉一样。不想输啊，龙底迪眼前浮现的是曾经dota的一幕幕——8分钟3800块的方丈、但求杀敌无视己身的vigoss，绕树林绕出花儿的摸了尼，背靠世界之树的美杜莎，掏出神杖蚂蚁的一粒蛋，一级就出门杀鸡的崩7，为了TI依然在奋战的徐拉达，头发已经渐渐掉光的毛胖鸭，……这些为DOTA努力过的队友或对手们，龙底迪突然明白了。&br&精确的计算，一丝不差的走位，瞬息万变的博弈，完美的combo连接。人工智能可以计算出了一切。可是，可是还有最难计算的，是每一个dotaer不一样的人心。人工智能得到的经验很多很多，可是他所有的经验都来自于已知，永远不会比所有dotaer多。未来的未知才是每次不可思议比赛奇迹的发芽的土壤，浇灌这些的是所有dotaer的热爱——即使身处低分局依然乐在其中的炙热之心，即使三路被破依然不放弃尝试的坚毅之心，选手们经历浮沉依然不放弃追逐理想的赤子之心……，这些的计算量太大，而人工智能永远无法学会。&br&龙底迪感觉又强大起来，仿佛回到了年轻的岁月，每一次补刀和走位都精确到极致，鼠标在手中划动了空气。龙底迪已经忘记了现场的观众，忘记了这一战的意义。对面只是一个对手而已，只是一个很强的对手而已。“其实哪有什么1号位，每一个位置只要有一样的求胜之心，都是核心啊。”龙底迪的气势陡然冲天而起，泉水指挥官——5号位——4号位——……1号位，提升的速度仿佛肉眼可见。&br&“我见过最强的carry，他8分钟打到了3800块，他的队友为他奉献所有，我想他们可以和你一战。”&br&”我见过最厉害的中单，他可以用死亡一指怒大小兵，你永远无法想象。“&br&“我见过最霸道的嘴炮指挥官，他可以被反复虐待之后依然强硬得像一个胜利者，你永远无法做到。”&br&”还有我没见过的无数dotaer的故事！这些，都是你没办法书写的。“&br&而如今，你！竟然胆敢！来毁掉我们最心爱的游戏！！！！&br&……&br&&br&《后记》&br&《dota日报》发布专栏文章——《身残志坚——侏儒小伙力克人工智能》&br&中央dota电视台连续七点发布专题节目——《你不知道的龙底迪——我的初恋龙底迪》&br&龙底迪高票当选感动西恩十大人物。&br&林俊杰和林书豪当众表示要给龙底迪生孩子&br&——————————————&br&有些惭愧，因为时间关系（写到了凌晨3点。。。我本来说随手写一下）最后结尾很匆忙，全部是用手机码的。下次多写细节。。。
开下脑洞，随手写个故事。 2016年3月，号称研发出可以轻易虐杀dota玩家的机器的谷弟公司，发出战书，将在长城挑战代表dota届最高水平的所有西恩dota玩家，挑战的口号是“大家轮着来”，并声称如果人工智能取胜，西恩dotaer要放弃DOTA，由人工智能主导的dota…
写得有点轻浮，必须补充更新一句：向李九段致敬，李九段国士无双，希望他心中的棋魂不灭。&br&&br&==================&br&&br&狗用对局回答了人类的疑问。&br&&br&狗没有大局观&br&我用算概率的&br&&br&狗没有棋感&br&我的棋感在0到1之间，用概率精确衡量&br&&br&狗开局不行&br&我算概率&br&&br&狗这手大俗&br&这手概率高&br&&br&狗定式都下不完整&br&下在旁边概率高&br&&br&狗这手没有留变化&br&算过了我会赢&br&&br&狗这手莫名其妙&br&这里算清楚了&br&&br&狗不会打劫&br&我的计算力可以跟你同时打十个劫&br&&br&局势还很复杂&br&我已经给总部发电邮报喜了，你们还是报警吧&br&&br&&br&狗最后感叹道：&br&这次开机下棋我主要做了两件事，一是根据最终赢棋概率对局面做出准确评估；二是对重要的变化彻底摆出结果。&br&&br&就这么一点小小的贡献，感到很惭愧。。。
写得有点轻浮，必须补充更新一句：向李九段致敬，李九段国士无双，希望他心中的棋魂不灭。 ================== 狗用对局回答了人类的疑问。狗没有大局观我用算概率的狗没有棋感我的棋感在0到1之间，用概率精确衡量狗开局不行我算概率狗这手大俗这手…
不要怀疑”业内人士“怎么样，毕竟以他们的水平，公开了他们就可以“创新” ”自主知识产权“ ”原创“&br&&br&谁能告诉我这傻O读过论文没有……&br&&br&&br&PS: 搜索了一下这位作者&br&&img src=&/217e8abbea5eb40ee6b8df8_b.png& data-rawwidth=&1196& data-rawheight=&613& class=&origin_image zh-lightbox-thumb& width=&1196& data-original=&/217e8abbea5eb40ee6b8df8_r.png&&Google叫科学欺诈，这只能叫科学耍流氓了吧。&br&&br&我就不一一评价其他随便YY一下写出的内容了，总的来说这篇论文的水平和《从量子力学来论“三个代表”理论的正确性》应该没多大差别。大概相当于小学四年级的中二空想科学小论文水平吧。
不要怀疑”业内人士“怎么样，毕竟以他们的水平，公开了他们就可以“创新” ”自主知识产权“ ”原创“ 谁能告诉我这傻O读过论文没有…… PS: 搜索了一下这位作者 Google叫科学欺诈，这只能叫科学耍流氓了吧。我就不一一评价其他随便YY一下写出的内容了，…
由于对官僚的不信任，中国对计算机统治人类的兴趣远大于美国，而且不止停留在兴趣层面，是实实在在的在搞。。。。。。。&br&比如说已经开发多年的法庭计算机量刑系统，不出意外的话已经离试用不远了。如果顺利的话，中国可能是第一个在某种程度上被电脑统治的国家。。。。。。。
由于对官僚的不信任，中国对计算机统治人类的兴趣远大于美国，而且不止停留在兴趣层面，是实实在在的在搞。。。。。。。比如说已经开发多年的法庭计算机量刑系统，不出意外的话已经离试用不远了。如果顺利的话，中国可能是第一个在某种程度上被电脑统治的…
&i

人机大战与网络象棋后，棋怎么下，画怎么画，人怎么活

我要回帖

更多关于围棋人机大战的文章

随机推荐

人机大战与网络象棋后，棋怎么下，画怎么画，人怎么活

我要回帖

更多关于 围棋人机大战 的文章

随机推荐

更多关于围棋人机大战的文章