原标题:开源啦:连DeepMind也捉急的游戲OpenAI给你攻破第一关的高分算法
写作“很好奇”,读作“不怕死”
打游戏的时候,有些平淡的操作还没执行就看得到结果。
比如玩马裏奥可以不去踩敌人,一路往前跳
可是,没试过怎么知道哪些敌人可以踩?
一扇门不推开怎么知道里面是什么?
△就是死也要進去看一眼 (来自山下智博)
人类玩家有好奇心,大概AI也要有好奇心比较好
OpenAI想要鼓励强化学习AI,去探索未知的世界不要局限在已知的舒适區。
于是团队推出了一种方法,叫做“随机网络蒸馏 (Random Network Distillation, RND) ”专注培养AI的好奇心:隐藏房间什么的,只有好奇的AI才能发现
当然,这方法不圵用来打马里奥不然就屈才了。
用RND加持的算法打蒙特祖玛的复仇 (最难的雅达利游戏可称强化学习AI的噩梦),智能体逃出了第一关的全部24個房间成绩远远超过人类的平均分数 (/openai/random-network-distillation
△吃蘑菇,变成弹簧 (依然来自山下智博)