在上周的Dota 2 人机决赛中,OpenAI Five 对阵世界冠军OG,并在第三场比赛中取得连胜,成为第一个在电子竞技比赛中击败世界冠军的人工智能。最近,OpenAI 在博客中发布了对其OpenAI Five 的更多技术解读,并透露了他们的下一个目标。文章总结如下(随意删减):OpenAI Five和DeepMind的AlphaStar此前曾私下击败过优秀的职业选手,但直播比赛全部输掉。这场比赛也是AI首次在直播中击败电竞高手。
图丨OG团队与OpenAI五人研发团队合影(来源:OpenAI) 在本场比赛中,OpenAI五人还展现了两大惊喜:1.OpenAI五人具备了作为人类队友的基础,但也只是问题重点。击败其他人工智能。如果更容易将竞争性人工智能转变为合作性人工智能,人工智能系统将在未来对人类有很大帮助。 2. 4 月18 日至21 日,OpenAI 将开放一个专门的竞技场,供人类与人工智能合作。这项测试回答了一个重要的研究问题:—— 当前的OpenAI 五人组能在多大程度上帮助或击败其队友? OpenAI Five 有潜力成为人类可以有意识交互的历史上最大的深度强化学习超级代理(OpenAI Five 的竞争对手:https://arena.openai.com/)。
图丨去年国际邀请赛输掉一场比赛后,OpenAI Five对阵半职业战队Lithium和职业战队SG esports、Alliance、OG的表现(来源:OpenAI)
为什么选择Dota游戏?OpenAI Five项目本身就是为了解决现有深度强化学习算法无法解决的问题,而要实现这一目标我们需要大幅提升OpenAI Five的能力。 OpenAI 最初期待分层强化学习等复杂算法,但后来意识到解决这个问题最根本的要求是计算规模。实现和利用这种规模并不容易,这个项目付出了很多努力。为了构建OpenAI Five,OpenAI 创建了一个名为Rapid 的系统,以前所未有的规模执行近端策略优化(PPO)。结果超出了预期,OpenAI 在没有触及基本性能限制的情况下产生了最先进的Dota AI。当今强化学习算法的强大功能是以大量经验为代价的,这在游戏和模拟之外的现实环境中是不现实的。 —— 例如,OpenAI使用Rapid系统来模拟灵活避障的机械臂控制,并可以在现实环境中的机械臂上成功执行此操作。然而,OpenAI 认为,减少经验量是强化学习的下一个挑战。尽管OpenAI 5已经宣布“退休”,但技术的进步和进步将继续推动其前进。 OpenAI 认为,Dota 本质上比现有标准环境更有趣,但开发强化学习难度更大(但不再那么困难)。
图丨OpenAI 五将世界视为多个编码值。无论数字代表游戏Dota 的状态(值在20,000 左右)还是机器人手臂的状态(值在200 左右),都使用相同的学习代码(来源:OpenAI)上周六的OpenAI 五人组取得了胜利2018年国际比较邀请赛和2018年国际比较邀请赛的失败,发生了很大的变化,训练计算量增加了8倍。在项目的早期阶段,OpenAI 通过增加训练计算规模来推动模型增强。但自那场比赛以来,OpenAI 已将项目的大部分计算资源用于训练单个OpenAI Five 模型。因此,OpenAI 使用了唯一可用于扩展计算的方法:增加训练时间。
图丨OpenAI Five的TrueSkill评分系统。垂直线表示随着训练时间的增加,系统发生了重大变化(转向单个courier、将LSTM 隐藏层大小增加到4096、升级到版本7.20 和7.21、开始学习bipack))。该图几乎是线性的,这意味着OpenAI 5 继续受益于更长的训练时间(x 轴是计算能力的对数,TrueSkill 分数呈指数增长)。请注意,这是一个双对数图,因为它是约等于)。该图表根据最终游戏规则(1 Courier、补丁7.21 等)评估所有AI——,包括根据旧游戏标准训练的AI。图像的陡坡表明OpenAI Five 正在适应这种变化。这一变化表明,与之前的版本相比,评估可能不公平(来源:OpenAI)总体而言,当前版本的OpenAI 5 每天消耗800 petaflops/s(1 petaflops/s 相当于每秒1015 次浮点运算,1 petaflops/s-day相当于每天1020次浮点运算),总共10个月的训练时间,大约45000年的Dota模拟比赛时间(距离上届国际邀请赛已经过去一个半月了,总比赛时间大约一万年),平均每天进行250场模拟比赛。与去年的TI 版本相比,OpenAI Five 的最终版本取得了99.9% 的胜率。尽管模型大小和游戏规则发生了变化(包括几个主要的游戏补丁更新和新实现的功能),当前版本的OpenAI Five 自2018 年6 月以来一直在持续训练。每当有变化时,OpenAI 都可以将模型迁移到新环境并继续训练——。这种迁移学习对于其他领域的强化学习模型来说还是非常困难的。这肯定是强化学习代理第一次花费这么长时间来训练。为了使这种迁移顺利进行,OpenAI 利用了一个“手术工具包”(用于迁移参数的OpenAI 工具),该工具包也可以适应重大的架构变化。而且,即使将英雄数量从5个增加到18个,训练速度也几乎没有下降。 OpenAI 假设添加英雄不会影响训练速度,自2018 年Dota International 以来,OpenAI 在整合新英雄方面投入了大量精力。 OpenAI 花了几周时间训练英雄池,将其增加到25 个英雄,并将这些英雄训练到5000 MMR 左右(匹配等级,相当于95% 的Dota 玩家)。该模型仍在改进,但模型学习速度不够快,无法在决赛之前达到专业水平。 OpenAI还没有找到原因,可能是模型容量不足,需要进一步适应扩大的英雄池,或者新英雄需要更多的训练时间才能赶上老英雄,我们猜测是必要的。想象一下,人类在熟练掌握了旧英雄之后,再学习新英雄是多么困难。在OpenAI,我们相信这些问题是可以从根本上解决的。总决赛版本有17位英雄,巫妖被移除,与之前的比赛相比,Dota 7.20版本中巫妖的能力发生了显着变化。
(来源:OpenAI)比赛期间,OpenAI Five 与人类队的比赛进行了电视转播。游戏的一侧是Blitz、Sheever 和由OpenAI Five 控制的三个AI,另一侧是ODPixel、Capitalist 和三个AI。 OpenAI Five 的人类协作能力为人类与未来人工智能系统交互提供了一个有前景的场景,其中人工智能系统与人类协作以改善人类体验。几位参与人机团队游戏的玩家表示,他们感受到了人工智能队友的支持,通过先进的人工智能系统学到了很多东西,并发现整个游戏是一次愉快的体验。请注意,这相当于零样本迁移学习——。在训练过程中,游戏双方都由人工智能控制,但可以推广到与人类的团队协作场景。事实上,OpenAI 正在考虑举办一场人工智能与人类协作的竞赛,并认为为此需要特殊的培训。
下一步:揭开“Arena”的神秘面纱OpenAI 为OpenAI Five 推出“Arena”(https://arena.openai.com/),于太平洋时间4 月18 日星期四下午6 点开放,太平洋时间4 月21 日星期日下午6 点结束,并于11:59 过夜。作为一个开放实验,这将允许任何人以对抗或合作模式与OpenAI Five 进行对抗。虽然OpenAI 的1v1 机器人可以通过巧妙的策略来利用,但目前尚不清楚OpenAI Five 的情况在多大程度上如此,OpenAI 正在要求玩家社区帮助解决这个问题。
(来源:OpenAI)
接下来,OpenAI 计划在审查OpenAI Five Arena 的结果后,发布对OpenAI Five 的进一步技术分析。之后,OpenAI将继续使用OpenAI的Dota 2环境,该环境在强化学习方面带来了重大进展。 Dota 2 不断推进可能的解决方案,无论是通过更少的数据还是通过人类与人工智能之间的真正协作。
标题:dota2 open ai,open aip
链接:https://yyuanw.com/news/xydt/12860.html
版权:文章转载自网络,如有侵权,请联系删除!