星际争霸手游2可以竞猜吗?

原标题:【星际争霸2】南大AI单机训练一天,击败最高难度内置 Bot

作者:庞振家、刘若泽等 编辑:三石、闻菲

【新智元导读】南京大学团队使用分层强化学习,结合宏动作学习、课程学习等方法,仅使用12个物理CPU核和48个线程,单机训练一天时间内,击败了《星际争霸2》内置AI。

9月19日,腾讯AI Lab团队号称“首次在《星际争霸2》完整的虫族VS虫族比赛中击败了游戏的内置AI Bot”,这是首个能在正式比赛中击败内置机器人的AI系统,堪称研究道路上的一大突破。

根据发表在arXiv上的预印版论文,腾讯AI Lab团队使用的方法是人工定义大量的宏动作(macro-action)、人工编码科技树建造建筑,用虫族(擅长快推)在3000多个CPU上取得了这一成果。

实际上,在更早的4月份,来自南京大学的俞扬团队也深入研究了《星际争霸2》的分层强化学习方法。与腾讯AI Lab不同的是,南京大学团队不依赖人工定义的宏动作,而是从人类的演示数据中自动学习宏动作。再依靠强化学习自动学习基地运营和战斗调度,并仅在12个物理CPU核、48个线程、智能体设定为神族、对手设定为人族的情况下,取得了突破性的成果。

在“《星际争霸2》学习环境”SC2LE上的实验结果表明,南大团队通过分层强化学习和课程学的方法,在最困难的非作弊内置AI(level-7)中获胜的概率超过了93%,是当前最佳成绩。

负责这项研究的南京大学计算机系副教授俞扬博士表示:

《星际争霸》这一款超大规模游戏是强化学习的一大挑战。击败内置AI只是小小的并不值得宣扬的第一步,其实我们的研究目标在于探索适用于大规模问题而又不失通用性的强化学习方法,因此我们必须找到在尽可能避免手工设定、使用少量计算资源的条件下仍能高效学习的方法。在这一篇工作中,我们结合分层强化学习、宏动作学习、课程学习、奖赏设计等多种不同的强化学习技巧,达到了只使用单机计算资源在一天时间单机训练可达到击败《星际争霸2》内置AI的水平,为未来大规模强化学习方法提供参考

现在,这篇论文的预印版已经可以在arXiv上公开访问,地址如下:

network)。虽然作战规则简单有效,但是在更大、更复杂的地图上可能会失败。因此采用更为智能的方法,就是作战网络。作战网络被构造为卷积神经网络,接收小地图和屏幕中的“特征地图”(feature-map)。如图3所示。作战网络的输出包括3个动作和1个位置矢量。3个动作分别是:全体进攻某个位置、全军撤退或者不做任何动作。

如下视频,演示了采用作战网络策略模型的效果:

混合模型(mixture module)。研究者发现,当把作战规则和作战网络进行结合以后,会获得比两者更好的结果。当在作战网络的位置向量中预测到某一值时,军队的攻击位置将变为由先验知识计算出来的位置。这就是混合模型策略。

下面一段视频演示了混合模型对战难度7内置AI的效果:

在训练初期,智能体会构建许多冗余的建筑物,而在训练后,智能体将更有效地利用建筑资源,并且控制每种人口单位的生产数量比例。

南大的研究团队还研究了各种的训练方法对学习效果的影响性。

图a到图d分别演示了课程学习的有效性(图a),模块化训练的作用(图b),以及使用战斗规则(图c)和战斗网络(图d)时同时更新(simultaneous)与交替更新(alternative)的区别。

图4 训练过程中的胜率曲线

在难度级别1-10的条件下做了评估测试。在每个难度条件下进行了100场比赛。从表1中可以看到,在难度1-7的条件下,智能体的表现非常良好。在难度8、难度9和难度10条件下,由于智能体没有在这些难度下进行训练,并且内置bot具有不同的作弊技巧,所以它们对智能体的泛化性要求很高。然而,可以看出智能体在与他们的战斗中仍然有很好的表现。

作战网络的表现似乎并不如作战规则,这是由于作战网络在对局中产生了过多的平局。如果把平局的表现也考虑进去的话,那么作战网络的性能也具备可比性。

值得一提的是,通过表1,可以发现作战网络和作战规则的混合模型在1-7难度级别中取得了最佳的结果。

为了验证训练出的智能体的泛化性,研究团队还测试了智能体对抗其他两个种族的胜率表现。如表2所示:

表2 与其他两个种族对抗的测试结果

研究团队还实验了各种不同的设置对于训练结果的影响。

结果如图5所示,显示出了分层结构、奖励设置以及超参数对结果的重要影响。

为大规模强化学习现实应用提供启示

在这篇论文中,南京大学团队研究了用于完整长度《星际争霸2》游戏的分层强化学习方法。

该结构采用两级抽象层次结构。 经过适当的训练,本文的结构在当前具有挑战性的平台SC2LE上取得了最佳的结果。

不过,虽然实验结果非常理想,但这项工作仍然存在一些不足。 例如,目前测试的64x64地图很小,只使用初级的两个兵种。南大团队表示,他们将来会在更大的地图上探索、学习,并尝试使用更多的武器和兵种来组织战术。

希望这个框架可以为今后强化学习在现实世界问题上的研究提供一些启示。

如果将古剑系列比喻成《叶问》,那么轩辕剑 []

大规模的游戏机入华将发生在不久之后,其路径已

电子竞技进体育是有道理的

任天堂计划在全球范围内关闭Wii频道服务

《全面战争:罗马2》各大外媒高分不断,销量在PC单上也占据榜首,然而在中国却是不愠不火的状态..........
时隔8年主机行业再次迎来洗牌。更多迹象显示,主机市场的疲软只是表象,玩家们依然饥渴。......

热门:暗黑3 星际争霸2 现代战争2

我要回帖

更多关于 星际争霸手游 的文章

 

随机推荐