有限注德州扑克克怎么去?有介绍的吗?

德州扑克的起源和历史简介
&最早的扑克游戏据考证起源于公元17世纪,在之后的200年间是扑克游戏竞技的初期发展时期。起源地公认的有三个,分别是英国/法国/德国。在这一时期的游戏中已经具备了牌力比较,诈唬和位置的三元素了,同时在法国和德国其叫法已经与“扑克”的发音非常接近了。在印度语中扑克的拼写是pukka,在印度也的确有一种叫做pukka
sahibs的游戏,所以也有很多人认为扑克是发源于印度。
&其实德州扑克是在几百年的岁月里通过广泛吸收和容纳不同的扑克游戏内容而存活下来的一种扑克累竞技游戏,并且越来越成熟并被大众所喜爱。
&1834年,扑克玩家乔纳森。格林写下了一本扑克方面的专业书籍,书名叫做“作弊的游戏”,并将这个游戏正是命名为“扑克”,这个称呼一直沿用至今。游戏是由20张牌进行,只由王牌,国王,女王,千斤顶和10组成。由2到4名玩家进行,每人获得5张底牌,最大的一手牌获得胜利。两年之后,该游戏演化为使用52张牌并加入了顺子和同花的概念,同时4-9名玩家进行游戏。1870年出现了蒲额累积奖金,用于防止玩家们用一些差牌等待抽牌而参与危险的奖金彩池。1872年,美国部长罗伯特前往英国时在皇家派对中把这种扑克游戏介绍给英国女皇维多利亚和出席的宾客。罗伯特应女皇的要求写了一片有关扑克规则介绍的文章并记录在“英国公爵夫人笔记中”,这也成为第一本介绍扑克游戏规则的书。
&1880年,总结众多扑克游戏的德州扑克走上了前台。德州扑克成为豪赌人士最佳的选择,它也为扑克游戏引入了公共牌的概念。德州扑克也随之高速发展,1896年出现了一本由游戏杂志出版的刊物“扑克筹码”,这是世界上第一本扑克专业杂志。1909年,美国两名密苏里州议员向州议会提交法案,立法管制扑克玩家以避免“愚蠢的玩家在不知道每手牌的价值时而损失数以百万计的金额。”1911年,美国加利福尼亚州律师-哈罗德西格尔。韦伯将暗牌游戏作为技术性赌博游戏,但明牌(梭哈)只是一种机会主义的游戏,所以被列为不合法。这导致暗牌类游戏爆炸性增长。在英国,政府把扑克列为一种机会游戏,于1938年宣布扑克在俱乐部中被列为不合法,但扑克在私人游戏中仍然盛行并被成为“诈唬”游戏。1960年禁令取消,这个游戏重又在俱乐部中获得了合法身份,俱乐部抽取服务费,但不抽取佣金。之后,赌场也开始提供扑克游戏。短短的五年之后,扑克就快速发展并走入了银幕世界。1965年,一部叫做“辛辛那提男孩”的扑克电影走遍全球,把扑克游戏带给了大众,同时也带给人们欢笑和娱乐,也让德州扑克进一步走入了人们的生活。
&每一项竞技游戏的成熟几乎都是以是否形成定期的规模型比赛为标准,德州扑克也是这样,第一场世界扑克系列赛(世界扑克锦标赛)于1970年在拉斯维加斯举行。比赛以德州扑克进行,现在已经成为世界性的德州扑克主导比赛,胜出者将获得当年度全球扑克冠军的称号。在开始的十二年中有九名冠军都是美国人,其中四名都是德克萨斯州人,就像发源于印度的佛教在中国更兴盛一样,美国人也似乎比德国人更擅长扑克。第二次世界扑克锦标赛冠军得主伊尔。布伦森于1978年出版了“超级系统”,这是一部结合顶级职业扑克选手经验而成的“武功秘笈”。在这本书中,布伦森提供了三条记本法则,那就是:“凶,凶,更凶!”布伦森崇尚无情战术,声称如果谁能好好运用这个战术,他将称雄牌桌。但这本书后来却给他带来了数百万的损失,因为玩家们已经熟悉了他的风格。这个大玩家犯了一个所有新手都知道的错误,原以为搬起了一块能轻易将对手砸死的石头,却不料最终把自己的脚砸了。
&之后的电视转播和互联网的线上扑克室更是把扑克从赌场和牌室中带到了成千上万扑通大众的家中。现在很多玩家都是线上玩德州扑克的,有些世界扑克锦标赛的冠军也是从网上走到赛场的。
&这就是我们今天的德州扑克,一个历经了四百多年的岁月,凝聚了无数前人智慧的竞技游戏。它蕴涵的大智慧和大勇气是值得永远探索和琢磨的。近年来,国内也有越来越多的人开始对德州扑克开始着迷,相信德州扑克比赛一定会给人们带来更多精彩纷呈的比赛。
鸣谢资料来源:扑克大师网站
德州扑克和奥马哈书店
大行扑克论坛
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。关于德州扑克a year ago赞赏2 人赞赏380收藏分享举报文章被以下专栏收录“前进!前进!不择手段地前进!”——托马斯·维德{&debug&:false,&apiRoot&:&&,&paySDK&:&https:\u002F\u002Fpay.zhihu.com\u002Fapi\u002Fjs&,&wechatConfigAPI&:&\u002Fapi\u002Fwechat\u002Fjssdkconfig&,&name&:&production&,&instance&:&column&,&tokens&:{&X-XSRF-TOKEN&:null,&X-UDID&:null,&Authorization&:&oauth c3cef7c66aa9e6a1e3160e20&}}{&database&:{&Post&:{&&:{&isPending&:false,&contributes&:[{&sourceColumn&:{&lastUpdated&:,&description&:&“前进!前进!不择手段地前进!”——托马斯·维德&,&permission&:&COLUMN_PUBLIC&,&memberId&:318608,&contributePermission&:&COLUMN_PUBLIC&,&translatedCommentPermission&:&all&,&canManage&:true,&intro&:&“前进!前进!不择手段地前进!”——托马斯·维德&,&urlToken&:&yuandong&,&id&:4846,&imagePath&:&4b70deef7&,&slug&:&yuandong&,&applyReason&:&&,&name&:&远东轶事&,&title&:&远东轶事&,&url&:&https:\u002F\u002Fzhuanlan.zhihu.com\u002Fyuandong&,&commentPermission&:&COLUMN_ALL_CAN_COMMENT&,&canPost&:true,&created&:,&state&:&COLUMN_NORMAL&,&followers&:15633,&avatar&:{&id&:&4b70deef7&,&template&:&https:\u002F\u002Fpic3.zhimg.com\u002F{id}_{size}.jpg&},&activateAuthorRequested&:false,&following&:false,&imageUrl&:&https:\u002F\u002Fpic3.zhimg.com\u002F4b70deef7_l.jpg&,&articlesCount&:42},&state&:&accepted&,&targetPost&:{&titleImage&:&&,&lastUpdated&:,&imagePath&:&&,&permission&:&ARTICLE_PUBLIC&,&topics&:[350],&summary&:&最近听说我的母校卡耐基梅隆大学德州扑克的AI Libratus以很大的优势赢得了与职业玩家的比赛,非常兴奋。在同时期,还有一篇来自加拿大阿尔伯塔大学(Univ of Alberta)的文章介绍了\u003Ca href=\&https:\u002F\u002Farxiv.org\u002Fabs\u002F\& data-editable=\&true\& data-title=\&DeepStack\&\u003EDeepStack\u003C\u002Fa\u003E,同样在3000局的比赛中击败了几位职业玩家。这样在非对称信息游…&,&copyPermission&:&ARTICLE_COPYABLE&,&translatedCommentPermission&:&all&,&likes&:0,&origAuthorId&:0,&publishedTime&:&T09:12:16+08:00&,&sourceUrl&:&&,&urlToken&:,&id&:2226046,&withContent&:false,&slug&:,&bigTitleImage&:false,&title&:&关于德州扑克&,&url&:&\u002Fp\u002F&,&commentPermission&:&ARTICLE_ALL_CAN_COMMENT&,&snapshotUrl&:&&,&created&:,&comments&:0,&columnId&:4846,&content&:&&,&parentId&:0,&state&:&ARTICLE_PUBLISHED&,&imageUrl&:&&,&author&:{&bio&:&Facebook人工智能研究院研究员\u002F研究经理,卡耐基梅隆大学机器人系博士&,&isFollowing&:false,&hash&:&be0d3bb133ad0151eefd188&,&uid&:32,&isOrg&:false,&slug&:&tian-yuan-dong&,&isFollowed&:false,&description&:&&,&name&:&田渊栋&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Ftian-yuan-dong&,&avatar&:{&id&:&71044e91d&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&memberId&:318608,&excerptTitle&:&&,&voteType&:&ARTICLE_VOTE_CLEAR&},&id&:538780}],&title&:&关于德州扑克&,&author&:&tian-yuan-dong&,&content&:&\u003Cp\u003E最近听说我的母校卡耐基梅隆大学德州扑克的AI Libratus以很大的优势赢得了与职业玩家的比赛,非常兴奋。在同时期,还有一篇来自加拿大阿尔伯塔大学(Univ of Alberta)的文章介绍了\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EDeepStack\u003C\u002Fa\u003E,同样在3000局的比赛中击败了几位职业玩家。这样在非对称信息游戏上人类再一次输给了AI。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E当然有AlphaGo的先例,这个对广大吃瓜群众的冲击可能没有那么大。但我个人觉得非对称信息博弈的实用价值更大些。因为非对称信息博弈的应用范围非常广泛,涵括我们每天遇到的所有决策,上至国家战略,下至日常琐事,全都可以以同样的方法建模。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E非对称信息博弈难在哪里?一方面是因为对于同样的客观状态,各个玩家看到的信息不同,因此增加了每个玩家状态空间的数目和决策的难度;另一方面即使在同样的状态数下,解非对称信息游戏所需要的内存也要比解对称信息要多得多,这个主要是对于对称信息博弈来说,只要记得当前局面并且向下推演找到比较好的策略就可以了;但对非对称信息博弈,只记得当前(不完整的)局面是不够的,即使盘面上的情况相同,但对手之前的各种招法会导致事实上局面不同,只有把它们全都罗列出来进行分析,才能保证想出的应对策略不被别人利用。比如说玩石头剪刀布,在看不到别人出招的时候轮到自己出招,如果别人一直用石头剪刀布各1\u002F3的混合策略,那自己就会发现好像怎么出招收益都是0,于是每次都出石头,但是这样的话,对手就可以利用这个策略的弱点提高自己的收益。所以一个好的算法就要求,基于别人已有策略得到的新策略尽可能地少被别人利用(low exploitability)。\u003C\u002Fp\u003E\u003Cp\u003E这次的游戏是Head-up unlimited Texas Hold'em,直译过来是两人无限注德州扑克。所谓两人就是一对一的零和游戏,不是多人游戏。所谓无限注,就是在加筹码的时候可以任意加(比如著名的把全部筹码都押上的All in),而限注(limited),是指在加筹码的时候只能加一个固定的数字(通常是前两轮和大盲注一样,后两轮是大盲注两倍)。两人有限注德州扑克(HULHE)因为玩家的选择比较少可以暴力计算,已经在2015年被Univ of Alberta解决,得到的策略离纳什均衡点非常近了(见\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fai.cs.unibas.ch\u002F_files\u002Fteaching\u002Ffs15\u002Fki\u002Fmaterial\u002Fki02-poker.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E这篇文章\u003C\u002Fa\u003E,发上了Science,AI叫Cepheus,用的方法是\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fpoker.cs.ualberta.ca\u002Fpublications\u002F2015-ijcai-cfrplus.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ECFR+\u003C\u002Fa\u003E)。这次CMU和Alberta用的方法,也和之前的类似,都是Counterfactual regret minimization (CFR)的变种。这次的主要贡献在于(1) DeepStack用上了Continuous Resolving,即动态地解子游戏以避开存储海量策略时内存不足的问题,还有值网络,(3) CMU用了\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fwww.cs.cmu.edu\u002F%7Enoamb\u002Fpapers\u002F17-AAAI-Refinement.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003Eendgame solving\u003C\u002Fa\u003E以细化状态空间和策略空间,当然他们的文章似乎还没有公布,细节还不明朗(比如说\u003Ca href=\&http:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fwww.cs.cmu.edu\u002F%7Esandholm\u002FdynamicThresholding.aaai17.pdf\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E剪枝\u003C\u002Fa\u003E应该是用上的)。\u003C\u002Fp\u003E\u003Cp\u003ECFR的思路非常简单,从随机策略开始,每次优化一个玩家的策略以提高其收益并反复迭代,最后取平均策略作为最终策略。每次优化用的是悔恨值最小化(Regret minimization)的办法,所谓悔恨值就是事后最优选择的收益,减去当时选择的收益,悔恨值最小化就是把到目前为止的累计悔恨值拿过来,看哪一步累计悔恨值高,以后就多走这一步,至于多走的概率,有各种算法(比如说Regret Matching和Hedge)。对于两人零和游戏,可以证明CFR会收敛到纳什均衡点,也就是“反正我就这么一招,你怎么也破不了”这样的终极招数。所以计算机现在使用的算法,最终目的并不是要利用对方弱点获得胜利,而是找出神功以达到无人可敌的境界。当然要达到这个境界,训练过程中仍然是不断找对方弱点让自己变强。\u003C\u002Fp\u003E\u003Cp\u003ECFR是个带有理论界的通用算法,说它可以解决一切的非对称信息博弈问题也不为过。但是世界上自然没有免费午餐,在跑CFR的时候,每次都要遍历一次游戏所有可能的状态,而任何一个稍微复杂点的游戏都有指数级的状态,所以运行时间上肯定是不能接受的。这就有很多折中办法,比如说状态量化(认为2到9都是小牌用同一个策略处理),剪枝(对方不太可能走这一步,那就不用再搜索下去了),随机采样(采样一些路径以代替全部的游戏分支),函数拟合(比如说用值网络来代替深层搜索),等等。总的来说,CFR和几年前的RL很像,都是传统AI的带理论界的老方法,都是在现实问题中有指数复杂度,都是现在渐渐开始深度学习化,所以我相信以后会有更广阔的发展。\u003C\u002Fp\u003E&,&updated&:new Date(&T01:12:16.000Z&),&canComment&:false,&commentPermission&:&anyone&,&commentCount&:21,&collapsedCount&:0,&likeCount&:380,&state&:&published&,&isLiked&:false,&slug&:&&,&lastestTipjarors&:[{&isFollowed&:false,&name&:&字节&,&headline&:&一枚软件工程师&,&avatarUrl&:&https:\u002F\u002Fpic4.zhimg.com\u002Fc97bede1e4e12dc34fc8ba_s.jpg&,&isFollowing&:false,&type&:&people&,&slug&:&zijie0&,&bio&:&杭城最新锐数据智能公司 急聘Java、Scala工程师 t.cn\u002FRpAFAlE&,&hash&:&dd44fd707897acda43e0a65ba07b3199&,&uid&:20,&isOrg&:false,&description&:&一枚软件工程师&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fzijie0&,&avatar&:{&id&:&c97bede1e4e12dc34fc8ba&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&isFollowed&:false,&avatarUrl&:&&,&isFollowing&:false,&type&:&people&,&slug&:&0&}],&isTitleImageFullScreen&:false,&rating&:&none&,&titleImage&:&&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&reviewers&:[],&topics&:[{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&人工智能&}],&adminClosedComment&:false,&titleImageSize&:{&width&:0,&height&:0},&href&:&\u002Fapi\u002Fposts\u002F&,&excerptTitle&:&&,&column&:{&slug&:&yuandong&,&name&:&远东轶事&},&tipjarState&:&activated&,&tipjarTagLine&:&真诚赞赏,手留余香&,&sourceUrl&:&&,&pageCommentsCount&:21,&tipjarorCount&:2,&annotationAction&:[],&hasPublishingDraft&:false,&snapshotUrl&:&&,&publishedTime&:&T09:12:16+08:00&,&url&:&\u002Fp\u002F&,&lastestLikers&:[{&bio&:&中二中年宅&,&isFollowing&:false,&hash&:&45e644a1dfd71347add86b04a7b0750d&,&uid&:96,&isOrg&:false,&slug&:&tian-hao-97&,&isFollowed&:false,&description&:&&,&name&:&田浩&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Ftian-hao-97&,&avatar&:{&id&:&24c15e2c8afd0cff1f0225&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&本科蹉跎,硕士搞机,贾维斯,说你好,ao&,&isFollowing&:false,&hash&:&dae055a7d&,&uid&:143000,&isOrg&:false,&slug&:&augusyan57-x1&,&isFollowed&:false,&description&:&no zuo no die one more try&,&name&:&闫铭川&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Faugusyan57-x1&,&avatar&:{&id&:&7c0942869cbb849f8fd30c92ec93a402&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&CS sophomore&,&isFollowing&:false,&hash&:&870d878a218fe2ee79eb86d4d839c079&,&uid&:992400,&isOrg&:false,&slug&:&DailinH&,&isFollowed&:false,&description&:&The more one limits oneself, the closer he is to infinity.&,&name&:&Diane&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002FDailinH&,&avatar&:{&id&:&v2-ecd717c7274302bee661&,&template&:&https:\u002F\u002Fpic3.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:null,&isFollowing&:false,&hash&:&2c23ba16adf98b70fb609ba&,&uid&:12,&isOrg&:false,&slug&:&bluewhale1&,&isFollowed&:false,&description&:&&,&name&:&Whale Blue&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fbluewhale1&,&avatar&:{&id&:&944f2caad58c9ac04c91346b&,&template&:&https:\u002F\u002Fpic1.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},{&bio&:&路痴&,&isFollowing&:false,&hash&:&5bed1c1d8414dab5fd89b&,&uid&:860300,&isOrg&:false,&slug&:&er-gou-zi-20-52-77&,&isFollowed&:false,&description&:&&,&name&:&二狗子&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Fer-gou-zi-20-52-77&,&avatar&:{&id&:&v2-0b5a6d9d8f536fb851e3&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false}],&summary&:&最近听说我的母校卡耐基梅隆大学德州扑克的AI Libratus以很大的优势赢得了与职业玩家的比赛,非常兴奋。在同时期,还有一篇来自加拿大阿尔伯塔大学(Univ of Alberta)的文章介绍了\u003Ca href=\&https:\u002F\u002Farxiv.org\u002Fabs\u002F\& data-editable=\&true\& data-title=\&DeepStack\&\u003EDeepStack\u003C\u002Fa\u003E,同样在3000局的比赛中击败了几位职业玩家。这样在非对称信息游…&,&reviewingCommentsCount&:0,&meta&:{&previous&:{&isTitleImageFullScreen&:false,&rating&:&none&,&titleImage&:&&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&topics&:[{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&人工智能&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&年终总结&}],&adminClosedComment&:false,&href&:&\u002Fapi\u002Fposts\u002F&,&excerptTitle&:&&,&author&:{&bio&:&Facebook人工智能研究院研究员\u002F研究经理,卡耐基梅隆大学机器人系博士&,&isFollowing&:false,&hash&:&be0d3bb133ad0151eefd188&,&uid&:32,&isOrg&:false,&slug&:&tian-yuan-dong&,&isFollowed&:false,&description&:&&,&name&:&田渊栋&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Ftian-yuan-dong&,&avatar&:{&id&:&71044e91d&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&column&:{&slug&:&yuandong&,&name&:&远东轶事&},&content&:&\u003Cp\u003E2016年是波澜壮阔的一年。\u003C\u002Fp\u003E\u003Cp\u003E这一年人工智能领域最抢眼的莫过于AlphaGo与李世石的五番棋对决。这一战,极大地扭转了大众对人工智能的认知,注定会载入史册。\u003C\u002Fp\u003E\u003Cp\u003E我有幸参与了历史。先是开了DarkForest这个项目,在计算机围棋上做了一些工作,开源了代码,给社区做了些贡献;同时在DeepMind公布AlphaGo的论文及人机对决前后,给大家做了一些科普,收获了许多关注。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E当然,两边资源投入的量级完全不同。在八月份美国围棋大会上,我有幸见到了AlphaGo的主要贡献者黄士杰(AjaHuang)和樊麾。我问他们,我们用了大概80到90块GPU来训练模型,我是否可以在演讲时说我们用了AlphaGo百分之一的GPU?\u003C\u002Fp\u003E\u003Cp\u003E那时Aja神秘地笑了笑说:具体数字不能讲。不过,也许小于百分之一吧。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E我无言以对。或许当初选择做围棋是个鲁莽的决定,不管是经验上还是资源上,差距都很大,但至少眼光是对的。并且实践过了之后,才知道强化学习(Reinforcement Learning,RL)这个方向的潜力。这个方向虽然有DeepMind和OpenAI的牛人们领头狂奔,但从十年的长远尺度上来说,还有大量的工作可以做。与传统的监督学习相比,强化学习不仅建模“得到数据以训练模型”这个问题,还建模了“如何从世界中得到数据”这个过程,这样天地一下子就广阔了很多。另一方面RL与行为决策直接挂钩,这就在一定程度上跳过了“认识世界”这个可能过于复杂的环节,而直指“改变世界”这样一个终极目标。当然,要让AI真能使用,就得要求它在复杂环境,很少的样本及非常稀缺的外界激励下,做出正确的决定。在这点上,大家还完全没有头绪,所以说未来的空间仍然很大。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E今年RL的一个突出特点是各种虚拟环境和新训练方案层出不穷,各家都说自己虚拟平台好,算法效果好,但是否能得到相互间可比较的结果,还是要期待明后年的工作。目前看来,Atari、OpenAI Gym或者参加各种AI比赛,都可以用来评测算法的好坏,但究竟什么样的评测是客观公正的,还需要摸索。因为各类虚拟环境实在太多,样本采集还有随机性,因此好的评测可能比设计计算机视觉中imagenet的数据集更加困难——也许最终都只能放到机器人上,在真实世界中做比较了吧。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003ERL的另一个有趣的地方是,研究者们需要同时具备强的研究能力、工程能力和数学基础;以后要是机器人大行其道,那就连硬件经验都要一并跟上。RL其实是个很老的跨学科领域,各时代的文章里数学符号和概念都不太一样,要读通需要花一番功夫,要发好文章则更要多思考。在工程上,相比日渐成熟的DL框架,RL的框架另有一些精巧的地方,各种小细节很多,往往错一个则全盘皆输。不过正因为如此,与在现有模型上调参数相比,做RL更具有挑战性。今年我们的Doom AI Bot拿了Track1的冠军是一个惊喜,我很幸运招到了\u003Ca href=\&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002F5c2b06e8ddca64fb72bbaf\& data-hash=\&5c2b06e8ddca64fb72bbaf\& class=\&member_mention\& data-hovercard=\&p$b$5c2b06e8ddca64fb72bbaf\&\u003E@吴育昕\u003C\u002Fa\u003E 这样优秀的实习生。\u003C\u002Fp\u003E\u003Cbr\u003E\u003Cp\u003E如何让计算机自动写代码则是另一个非常有意思的方向。去年可微计算机(Differentiable machine)非常火爆,大家都设计出带记忆带attention的深度网络模型去学习如何给定程序输入得到算法题的输出,但却忽略了让计算机自动写代码这个更直接,更切合人类思维方式的方案。果不其然,今年年底相关文章井喷,我们也投了一篇,不知道明年又会如何发展。\u003C\u002Fp\u003E\u003Cp\u003E---------------------------------\u003C\u002Fp\u003E\u003Cp\u003E总的来说,这一年过得不错。和老婆团聚,第一次被那么多人关注,第一次完成半程马拉松,第一次一个会议投三篇,第一次投稿深度学习的理论。做了那么多以前没能做成的事,真有一种人生才刚刚开始的感觉。\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cp\u003E希望接下来的2017年,更加精彩。\u003C\u002Fp\u003E&,&state&:&published&,&sourceUrl&:&&,&pageCommentsCount&:0,&canComment&:false,&snapshotUrl&:&&,&slug&:,&publishedTime&:&T15:01:40+08:00&,&url&:&\u002Fp\u002F&,&title&:&2016年总结&,&summary&:&2016年是波澜壮阔的一年。这一年人工智能领域最抢眼的莫过于AlphaGo与李世石的五番棋对决。这一战,极大地扭转了大众对人工智能的认知,注定会载入史册。我有幸参与了历史。先是开了DarkForest这个项目,在计算机围棋上做了一些工作,开源了代码,给社区做…&,&reviewingCommentsCount&:0,&meta&:{&previous&:null,&next&:null},&commentPermission&:&anyone&,&commentsCount&:26,&likesCount&:752},&next&:{&isTitleImageFullScreen&:false,&rating&:&none&,&titleImage&:&&,&links&:{&comments&:&\u002Fapi\u002Fposts\u002F2Fcomments&},&topics&:[{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&强化学习 (Reinforcement Learning)&},{&url&:&https:\u002F\u002Fwww.zhihu.com\u002Ftopic\u002F&,&id&:&&,&name&:&深度学习(Deep Learning)&}],&adminClosedComment&:false,&href&:&\u002Fapi\u002Fposts\u002F&,&excerptTitle&:&&,&author&:{&bio&:&Facebook人工智能研究院研究员\u002F研究经理,卡耐基梅隆大学机器人系博士&,&isFollowing&:false,&hash&:&be0d3bb133ad0151eefd188&,&uid&:32,&isOrg&:false,&slug&:&tian-yuan-dong&,&isFollowed&:false,&description&:&&,&name&:&田渊栋&,&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Ftian-yuan-dong&,&avatar&:{&id&:&71044e91d&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false},&column&:{&slug&:&yuandong&,&name&:&远东轶事&},&content&:&\u003Ch2\u003EIntroductions\u003C\u002Fh2\u003E\nIntroduction to reinforcement learning\u003Cbr\u003E\u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fmlg.eng.cam.ac.uk\u002Frowan\u002Ffiles\u002Frl\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EIndex of \u002Frowan\u002Ffiles\u002Frl\u003C\u002Fa\u003E\u003C\u002Fu\u003E\u003Cbr\u003E\u003Cbr\u003E\nICML Tutorials:\u003Cbr\u003E\u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Ficml.cc\u002FFtutorials\u002Fdeep_rl_tutorial.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Eicml.cc\u002FFtutorials\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003Edeep_rl_tutorial.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003C\u002Fu\u003E\u003Cbr\u003E\u003Cbr\u003E\nNIPS Tutorials:\u003Cbr\u003E\u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Frll.berkeley.edu\u002Fdeeprlcourse\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ECS 294 Deep Reinforcement Learning, Spring C\u002Fa\u003E\u003C\u002Fu\u003E\u003Cbr\u003E\u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F0B_wzP_JlVFcKS2dDWUZqTTZGalU\u002Fview\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Edrive.google.com\u002Ffile\u002Fd\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E\u002F0B_wzP_JlVFcKS2dDWUZqTTZGalU\u002Fview\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003C\u002Fu\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Ch2\u003EDeep Q-Learning\u003C\u002Fh2\u003E\nDQN:\u003Cbr\u003E\u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E[] Playing Atari with Deep Reinforcement Learning\u003C\u002Fa\u003E\u003C\u002Fu\u003E (and its nature version)\u003Cbr\u003E\u003Cbr\u003E\nDouble DQN\u003Cbr\u003E\u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E[] Deep Reinforcement Learning with Double Q-learning\u003C\u002Fa\u003E\u003C\u002Fu\u003E\u003Cbr\u003E\u003Cbr\u003E\nBootstrapped DQN\u003Cbr\u003E\u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E[] Deep Exploration via Bootstrapped DQN\u003C\u002Fa\u003E\u003C\u002Fu\u003E\u003Cbr\u003E\u003Cbr\u003E\nPriority Experienced Replay\u003Cbr\u003E\u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fwww0.cs.ucl.ac.uk\u002Fstaff\u002FD.Silver\u002Fweb\u002FApplications_files\u002Fprioritized-replay.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Ewww0.cs.ucl.ac.uk\u002Fstaff\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E\u002FD.Silver\u002Fweb\u002FApplications_files\u002Fprioritized-replay.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003C\u002Fu\u003E\u003Cbr\u003E\u003Cbr\u003E\nDuel DQN\u003Cbr\u003E\u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E[] Dueling Network Architectures for Deep Reinforcement Learning\u003C\u002Fa\u003E\u003C\u002Fu\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Ch2\u003EClassic Literature\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cb\u003E\u003Ci\u003ESuttonBook\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fpeople.inf.elte.hu\u002Florincz\u002FFiles\u002FRL_FSuttonBook.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Epeople.inf.elte.hu\u002Flori\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003Encz\u002FFiles\u002FRL_FSuttonBook.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fwebdocs.cs.ualberta.ca\u002F%7Esutton\u002Fbook\u002Febook\u002Fthe-book.html\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EBook\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003EDavid Silver's thesis\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fwww0.cs.ucl.ac.uk\u002Fstaff\u002Fd.silver\u002Fweb\u002FPublications_files\u002Fthesis.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Ewww0.cs.ucl.ac.uk\u002Fstaff\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E\u002Fd.silver\u002Fweb\u002FPublications_files\u002Fthesis.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003EPolicy Gradient Methods for Reinforcement Learning with Function Approximation\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fwebdocs.cs.ualberta.ca\u002F%7Esutton\u002Fpapers\u002FSMSM-NIPS99.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Ewebdocs.cs.ualberta.ca\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E~sutton\u002Fpapers\u002FSMSM-NIPS99.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\n(Policy gradient theorem)\u003Cbr\u003E\u003Cbr\u003E\n1. Policy-based approach is better than value based: policy function is smooth, while using value function to pick policy is not continuous.\u003Cbr\u003E\u003Cbr\u003E\n2. Policy Gradient method.\u003Cbr\u003E\nObjective function is averaged on the stationary distribution (starting from s0).\u003Cbr\u003E\nFor average reward, it needs to be truly stationary.\u003Cbr\u003E\nFor state-action (with discount), if all experience starts with s0, then the objective is averaged over a discounted distribution (not necessarily fully-stationary). If we starts with any arbitrary state, then the objective is averaged over the (discounted) stationary distribution.\u003Cbr\u003E\u003Ci\u003E\u003Cb\u003EPolicy gradient theorem\u003C\u002Fb\u003E\u003C\u002Fi\u003E: gradient operator can “pass” through the state distribution, which is dependent on the parameters (and at a first glance, should be taken derivatives, too). \u003Cbr\u003E\u003Cbr\u003E\n3. You can replace Q^\\pi(s, a) with an approximate, which is only accurate when the approximate f(s, a) satisfies df\u002Fdw = d\\pi\u002Fd\\theta \u002F\\pi\u003Cbr\u003E\nIf pi(s, a) is loglinear wrt some features, then f has to be linear to these features and \\sum_a f(s, a) = 0 (So f is an advantage function).\u003Cbr\u003E\u003Cbr\u003E\n4. First time to show the RL algorithm converges to a local optimum with relatively free-form functional estimator.\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003EDAgger\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fwww.cs.cmu.edu\u002F%7Esross1\u002Fpublications\u002FRoss-AIStats10-paper.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002Fwww.\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Ecs.cmu.edu\u002F~sross1\u002Fpubl\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003Eications\u002FRoss-AIStats10-paper.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Ch2\u003EActor-Critic Models\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cb\u003E\u003Ci\u003EAsynchronous Advantage Actor-Critic Model\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E[] Asynchronous Methods for Deep Reinforcement Learning\u003C\u002Fa\u003E\u003C\u002Fu\u003E\u003Cbr\u003E\u003Cbr\u003E\nTensorpack's BatchA3C (\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fgithub.com\u002Fppwwyyxx\u002Ftensorpack\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003Eppwwyyxx\u002Ftensorpack\u003C\u002Fa\u003E) and GA3C (\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E[] Reinforcement Learning through Asynchronous Advantage Actor-Critic on a GPU\u003C\u002Fa\u003E)\u003Cbr\u003E\nInstead of using a separate model for each actor (in separate CPU threads), they process all the data generated by actors with a single model, which is updated regularly via optimization. \u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003EOn actor-critic algorithms.\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fwww.mit.edu\u002F%7Ejnt\u002FPapers\u002FJ094-03-kon-actors.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002Fwww.\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Emit.edu\u002F~jnt\u002FPapers\u002FJ09\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E4-03-kon-actors.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\nOnly read the first part of the paper. It proves that actor-critic will converge to the local minima, when the feature space used to linearly represent Q(s, a) also covers the space spanned by \\nabla log \\pi(a|s) (compatibility condition), and the actor learns slower than the critic.
\u003Cbr\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fdev.spline.de\u002Ftrac\u002Fdbsprojekt_51_ss09\u002Fexport\u002F74\u002Fki_seminar\u002Freferenzen\u002Fpeters-ECML2005.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Edev.spline.de\u002Ftrac\u002Fdbsp\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003Erojekt_51_ss09\u002Fexport\u002F74\u002Fki_seminar\u002Freferenzen\u002Fpeters-ECML2005.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003ENatural Actor-Critic\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\nNatural gradient is applied on actor critic method. When the compatibility condition proposed by the policy gradient paper is satisfied (i.e., Q(s, a) is a linear function with respect to \\nabla log pi(a|s), so that the gradient estimation using this estimated Q is the same as the true gradient which uses the unknown perfect Q function computed from the ground truth policy), then the natural gradient of the policy's parameters is just the linear coefficient of Q. \u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003EA Survey of Actor-Critic Reinforcement Learning Standard and Natural Policy Gradients\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fhal.archives-ouvertes.fr\u002Fhal-2Fdocument\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Ehal.archives-ouvertes.fr\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E\u002Fhal-2Fdocument\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\nCovers the above two papers.\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Ch2\u003EContinuous State\u002FAction\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cb\u003E\u003Ci\u003EReinforcement Learning with Deep Energy-Based Policies \u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\nUse the soft-Q formulation proposed by \u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fpdf\u002F.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Earxiv.org\u002Fpdf\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E2.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E (in the math section) and naturally incorporate the entropy term in the Q-learning paradigm. For continuous space, both the training (updating Bellman equation) and sampling from the resulting policy (in terms of Q) are intractable. For the former, they propose to use a surrogate action distribution, and compute the gradient with importance sampling. For the latter, they use Stein variational method that matches a deterministic function a = f(e, s) to the learned Q-distribution. In terms of performance, they are comparable with DDPG. But since the learnt Q could be diverse (multimodal) under maximal entropy principle, it can be used as a common initialization for many specific tasks (Example, pretrain=learn to run towards arbitrary direction, task=run in a maze).
\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003EDeterministic Policy Gradient Algorithms\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fjmlr.org\u002Fproceedings\u002Fpapers\u002Fv32\u002Fsilver14.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Ejmlr.org\u002Fproceedings\u002Fpa\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003Epers\u002Fv32\u002Fsilver14.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\nSilver's paper. Learn an actor to prediction the deterministic action (rather than a conditional probability distribution \\pi(a|s)) in Q-learning. When trained with Q-learning, propagate through Q to \\pi. Similar to Policy Gradient Theorem (gradient operator can “pass” the state distribution, which is dependent on the parameters), there is also deterministic version of it. Also interesting comparison with stochastic offline actor-critic model (stochastic = \\pi(a|s)).
\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003EContinuous control with deep reinforcement learning\u003C\u002Fi\u003E\u003C\u002Fb\u003E (DDPG)\u003Cbr\u003E\nDeep version of DPG (with DQN trick). Neural network + minibatch → not stable, so they also add target network and replay buffer. \u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Ch2\u003EReward Shaping\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cb\u003E\u003Ci\u003EPolicy invariance under reward transformations: theory and application to reward shaping.\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fpeople.eecs.berkeley.edu\u002F%7Epabbeel\u002Fcs287-fa09\u002Freadings\u002FNgHaradaRussell-shaping-ICML1999.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Epeople.eecs.berkeley.edu\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E\u002F~pabbeel\u002Fcs287-fa09\u002Freadings\u002FNgHaradaRussell-shaping-ICML1999.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\nAndrew Ng's reward shaping paper. It proves that for reward shaping, policy is invariant if and only if a difference of a potential function is added to the reward. \u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003ETheoretical considerations of potential-based reward shaping for multi-agent systems\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fdl.acm.org\u002Fcitation.cfm%3Fid%3D2030503\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ETheoretical considerations of potential-based reward shaping for multi-agent systems\u003C\u002Fa\u003E\u003Cbr\u003E\nPotential based reward-shaping can help a single-agent achieve optimal solution without changing the value (or Nash Equilibrium). This paper extends it to multi-agent case.\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003EReinforcement Learning with Unsupervised Auxiliary Tasks\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E[] Reinforcement Learning with Unsupervised Auxiliary Tasks\u003C\u002Fa\u003E\u003Cbr\u003E\nICLR17 Oral. Add auxiliary task to improve the performance of Atari Games and Navigation. Auxiliary task includes maximizing pixel changes and maximizing the activation of individual neurons. \u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Ch2\u003ENavigation\u003C\u002Fh2\u003E\u003Cp\u003E\u003Ci\u003E\u003Cb\u003ELearning to Navigate in Complex Environments\u003C\u002Fb\u003E\u003C\u002Fi\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fopenreview.net\u002Fforum%3Fid%3DSJMGPrcle%26noteId%3DSJMGPrcle\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003Ehttps:\u002F\u002Fopenreview.net\u002Fforum?id=SJMGPrcle?eId=SJMGPrcle\u003C\u002Fa\u003E\u003Cbr\u003E\nRaia's group from DM. ICLR17 poster, adding depth prediction as the auxiliary task and improve the navigation performance (also uses SLAM results as network input)\u003Cbr\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E[] Reinforcement Learning with Unsupervised Auxiliary Tasks\u003C\u002Fa\u003E (in reward shaping)\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003EDeep Reinforcement Learning with Successor Features for Navigation across Similar Environments\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\nGoal: navigation without SLAM.\u003Cbr\u003E\nLearn successor features (Q, V before the last layer, these features have a similar Bellman equation.) for transfer learning: learn k top weights simultaneously while sharing the successor features, using DQN acting on the features). In addition to successor features, also try to reconstruct the frame.\u003Cbr\u003E\u003Cbr\u003E\nExperiments on simulation.\u003Cbr\u003E\nstate: 96x96x four most recent frames.\u003Cbr\u003E\naction: four discrete actions. (still, left, right, straight(1m))\u003Cbr\u003E\nbaseline: train a CNN to directly predict the action of A*\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003EDeep Recurrent Q-Learning for Partially Observable MDPs\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\nThere is no much performance difference between stacked frame DQN versus DRQN. DRQN may be more robust when the game state is flickered (some are 0)\u003Cbr\u003E\u003C\u002Fp\u003E\u003Cbr\u003E\u003Ch2\u003ECounterfactual Regret Minimization\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cb\u003EDynamic Thresholding\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fwww.cs.cmu.edu\u002F%7Esandholm\u002FdynamicThresholding.aaai17.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002Fwww.\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Ecs.cmu.edu\u002F~sandholm\u002Fdy\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003EnamicThresholding.aaai17.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cb\u003E\nWith proofs:\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fwww.cs.cmu.edu\u002F%7Eckroer\u002Fpapers\u002Fpruning_agt_at_ijcai16.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002Fwww.\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Ecs.cmu.edu\u002F~ckroer\u002Fpape\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003Ers\u002Fpruning_agt_at_ijcai16.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\nStudy game state abstraction and its effect on Ludoc Poker.\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fwebdocs.cs.ualberta.ca\u002F%7Ebowling\u002Fpapers\u002F09aamas-abstraction.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Ewebdocs.cs.ualberta.ca\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E~bowling\u002Fpapers\u002F09aamas-abstraction.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fwww.cs.cmu.edu\u002F%7Enoamb\u002Fpapers\u002F17-AAAI-Refinement.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002Fwww.\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Ecs.cmu.edu\u002F~noamb\u002Fpaper\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003Es\u002F17-AAAI-Refinement.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fpdf\u002Fv2.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Earxiv.org\u002Fpdf\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E1v2.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fanytime.cs.umass.edu\u002Faimath06\u002Fproceedings\u002FP47.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Eanytime.cs.umass.edu\u002Fai\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003Emath06\u002Fproceedings\u002FP47.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E\nDecomposition:\u003Cbr\u003E\u003Cb\u003ESolving Imperfect Information Games Using Decomposition\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fwww.aaai.org\u002Focs\u002Findex.php\u002FAAAI\u002FAAAI14\u002Fpaper\u002FviewFile\u002F76\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002Fwww.\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Eaaai.org\u002Focs\u002Findex.php\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003EAAAI\u002FAAAI14\u002Fpaper\u002FviewFile\u002F76\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\nSafe and Nested Endgame Solving for Imperfect-Information Games\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fwww.cs.cmu.edu\u002F%7Enoamb\u002Fpapers\u002F17-AAAI-Refinement.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002Fwww.\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Ecs.cmu.edu\u002F~noamb\u002Fpaper\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003Es\u002F17-AAAI-Refinement.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E\u003C\u002Fp\u003E\u003Ch2\u003EGame-specific RL\u003C\u002Fh2\u003E\u003Cp\u003E\u003Cb\u003E\u003Ci\u003EAtari Game\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fwww.readcube.com\u002Farticles\u002F10.Fnature14236\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002Fwww.\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Ereadcube.com\u002Farticles\u002F1\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E0.Fnature1C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003EGo\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\nAlphaGo \u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fgogameguru.com\u002Fi\u002F\u002Fdeepmind-mastering-go.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Egogameguru.com\u002Fi\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E3\u002Fdeepmind-mastering-go.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003C\u002Fp\u003E\u003Cp\u003EDarkForest \u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E[] Better Computer Go Player with Neural Network and Long-term Prediction\u003C\u002Fa\u003E\u003C\u002Fp\u003E\u003Cp\u003E\u003Ci\u003E\u003Cb\u003ESuper Smash Bros\u003C\u002Fb\u003E\u003C\u002Fi\u003E\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fpdf\u002F.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Earxiv.org\u002Fpdf\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E0.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003E\u003Ci\u003EDoom\u003C\u002Fi\u003E\u003C\u002Fb\u003E\u003Cbr\u003E\nArnold: \u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E[] Playing FPS Games with Deep Reinforcement Learning\u003C\u002Fa\u003E\u003Cbr\u003E\nIntel: \u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E[] Learning to Act by Predicting the Future\u003C\u002Fa\u003E\u003Cbr\u003E\nF1: \u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fopenreview.net\u002Fforum%3Fid%3DHk3mPK5gg%26noteId%3DHk3mPK5gg\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003Ehttps:\u002F\u002Fopenreview.net\u002Fforum?id=Hk3mPK5gg?eId=Hk3mPK5gg\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E\u003Cb\u003EPoker\u003C\u002Fb\u003E\u003Cbr\u003E\nLimited Texas hold' em\u003Cbr\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fai.cs.unibas.ch\u002F_files\u002Fteaching\u002Ffs15\u002Fki\u002Fmaterial\u002Fki02-poker.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Eai.cs.unibas.ch\u002F_files\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003Eteaching\u002Ffs15\u002Fki\u002Fmaterial\u002Fki02-poker.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003Cbr\u003E\u003Cbr\u003E\nUnlimited Texas hold 'em \u003Cbr\u003E\nDeepStack: \u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EExpert-Level Artificial Intelligence in No-Limit Poker\u003C\u002Fa\u003E\u003C\u002Fp\u003E&,&state&:&published&,&sourceUrl&:&&,&pageCommentsCount&:0,&canComment&:false,&snapshotUrl&:&&,&slug&:,&publishedTime&:&T06:02:33+08:00&,&url&:&\u002Fp\u002F&,&title&:&一些RL的文献(及笔记)&,&summary&:&Introductions\nIntroduction to reinforcement learning \u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Fmlg.eng.cam.ac.uk\u002Frowan\u002Ffiles\u002Frl\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003EIndex of \u002Frowan\u002Ffiles\u002Frl\u003C\u002Fa\u003E\u003C\u002Fu\u003E \nICML Tutorials: \u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Ficml.cc\u002FFtutorials\u002Fdeep_rl_tutorial.pdf\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttp:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Eicml.cc\u002FFtutorials\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003Edeep_rl_tutorial.pdf\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003C\u002Fu\u003E \nNIPS Tutorials: \u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=http%3A\u002F\u002Frll.berkeley.edu\u002Fdeeprlcourse\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003ECS 294 Deep Reinforcement Learning, Spring C\u002Fa\u003E\u003C\u002Fu\u003E \u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Fdrive.google.com\u002Ffile\u002Fd\u002F0B_wzP_JlVFcKS2dDWUZqTTZGalU\u002Fview\& class=\& external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E\u003Cspan class=\&invisible\&\u003Ehttps:\u002F\u002F\u003C\u002Fspan\u003E\u003Cspan class=\&visible\&\u003Edrive.google.com\u002Ffile\u002Fd\u003C\u002Fspan\u003E\u003Cspan class=\&invisible\&\u003E\u002F0B_wzP_JlVFcKS2dDWUZqTTZGalU\u002Fview\u003C\u002Fspan\u003E\u003Cspan class=\&ellipsis\&\u003E\u003C\u002Fspan\u003E\u003C\u002Fa\u003E\u003C\u002Fu\u003E Deep Q-Learning\nDQN: \u003Cu\u003E\u003Ca href=\&https:\u002F\u002Flink.zhihu.com\u002F?target=https%3A\u002F\u002Farxiv.org\u002Fabs\u002F\& class=\& wrap external\& target=\&_blank\& rel=\&nofollow noreferrer\&\u003E[] Pla…\u003C\u002Fa\u003E\u003C\u002Fu\u003E&,&reviewingCommentsCount&:0,&meta&:{&previous&:null,&next&:null},&commentPermission&:&anyone&,&commentsCount&:14,&likesCount&:428}},&annotationDetail&:null,&commentsCount&:21,&likesCount&:380,&FULLINFO&:true}},&User&:{&tian-yuan-dong&:{&isFollowed&:false,&name&:&田渊栋&,&headline&:&&,&avatarUrl&:&https:\u002F\u002Fpic4.zhimg.com\u002F71044e91d_s.jpg&,&isFollowing&:false,&type&:&people&,&slug&:&tian-yuan-dong&,&bio&:&Facebook人工智能研究院研究员\u002F研究经理,卡耐基梅隆大学机器人系博士&,&hash&:&be0d3bb133ad0151eefd188&,&uid&:32,&isOrg&:false,&description&:&&,&badge&:{&identity&:null,&bestAnswerer&:{&topics&:[{&type&:&topic&,&id&:&&,&name&:&人工智能&},{&type&:&topic&,&id&:&&,&name&:&深度学习(Deep Learning)&}],&description&:&优秀回答者&}},&profileUrl&:&https:\u002F\u002Fwww.zhihu.com\u002Fpeople\u002Ftian-yuan-dong&,&avatar&:{&id&:&71044e91d&,&template&:&https:\u002F\u002Fpic4.zhimg.com\u002F{id}_{size}.jpg&},&isOrgWhiteList&:false,&isBanned&:false}},&Comment&:{},&favlists&:{}},&me&:{},&global&:{&experimentFeatures&:{&ge3&:&ge3_9&,&ge2&:&ge2_1&,&androidPassThroughPush&:&all&,&nwebQAGrowth&:&experiment&,&qawebRelatedReadingsContentControl&:&open&,&marketTabBanner&:&market_tab_banner_show&,&liveStore&:&ls_a2_b2_c1_f2&,&qawebThumbnailAbtest&:&new&,&nwebSearch&:&nweb_search_heifetz&,&searchHybridTabs&:&without-tabs&,&enableVoteDownReasonMenu&:&enable&,&showVideoUploadAttention&:&true&,&isOffice&:&false&,&enableTtsPlay&:&post&,&newQuestionDiversion&:&true&,&wechatShareModal&:&wechat_share_modal_show&,&newLiveFeedMediacard&:&old&,&hybridZhmoreVideo&:&no&,&nwebGrowthPeople&:&default&,&nwebSearchSuggest&:&default&,&qrcodeLogin&:&qrcode&,&androidDbFollowRecommendHide&:&open&,&isShowUnicomFreeEntry&:&unicom_free_entry_off&,&newMobileColumnAppheader&:&new_header&,&androidDbCommentWithRepinRecord&:&open&,&feedHybridTopicRecomButtonIcon&:&yes&,&androidDbRecommendAction&:&open&,&zcmLighting&:&zcm&,&androidDbFeedHashTagStyle&:&button&,&appStoreRateDialog&:&close&,&topWeightSearch&:&new_top_search&,&default&:&None&,&isNewNotiPanel&:&no&,&androidDbRepinSelection&:&open&,&growthBanner&:&default&,&androidProfilePanel&:&panel_b&}},&columns&:{&next&:{},&yuandong&:{&following&:false,&canManage&:false,&href&:&\u002Fapi\u002Fcolumns\u002Fyuandong&,&name&:&远东轶事&,&creator&:{&slug&:&tian-yuan-dong&},&url&:&\u002Fyuandong&,&slug&:&yuandong&,&avatar&:{&id&:&4b70deef7&,&template&:&https:\u002F\u002Fpic3.zhimg.com\u002F{id}_{size}.jpg&}}},&columnPosts&:{},&columnSettings&:{&colomnAuthor&:[],&uploadAvatarDetails&:&&,&contributeRequests&:[],&contributeRequestsTotalCount&:0,&inviteAuthor&:&&},&postComments&:{},&postReviewComments&:{&comments&:[],&newComments&:[],&hasMore&:true},&favlistsByUser&:{},&favlistRelations&:{},&promotions&:{},&switches&:{&couldSetPoster&:false},&draft&:{&titleImage&:&&,&titleImageSize&:{},&isTitleImageFullScreen&:false,&canTitleImageFullScreen&:false,&title&:&&,&titleImageUploading&:false,&error&:&&,&content&:&&,&draftLoading&:false,&globalLoading&:false,&pendingVideo&:{&resource&:null,&error&:null}},&drafts&:{&draftsList&:[],&next&:{}},&config&:{&userNotBindPhoneTipString&:{}},&recommendPosts&:{&articleRecommendations&:[],&columnRecommendations&:[]},&env&:{&edition&:{&baidu&:false,&yidianzixun&:false,&qqnews&:false},&isAppView&:false,&appViewConfig&:{&content_padding_top&:128,&content_padding_bottom&:56,&content_padding_left&:16,&content_padding_right&:16,&title_font_size&:22,&body_font_size&:16,&is_dark_theme&:false,&can_auto_load_image&:true,&app_info&:&OS=iOS&},&isApp&:false,&userAgent&:{&ua&:&Mozilla\u002F5.0 (compatible, MSIE 11, Windows NT 6.3; Trident\u002F7.0; rv:11.0) like Gecko&,&browser&:{&name&:&IE&,&version&:&11&,&major&:&11&},&engine&:{&version&:&7.0&,&name&:&Trident&},&os&:{&name&:&Windows&,&version&:&8.1&},&device&:{},&cpu&:{}}},&message&:{&newCount&:0},&pushNotification&:{&newCount&:0}}

我要回帖

更多关于 有关德州扑克的电影 的文章

 

随机推荐