文耕发布者:奥飞斯量子比特| 公众号QbitAITeam OG,Dota2 世界冠军战队。
在人工智能OpenAI 5面前,OG处于弱势。人类五人队此前毫无悬念地输给了0:2,但两回合加起来,OG只推掉了两座外塔。
然而,这还不是人工智能的顶峰。
现在,OpenAI 训练了一种名为Rerun 的新AI。面对碾压OG的OpenAI Five,Rerun的胜率达到了……呃……98%。
听到这个消息的推特用户发布了敏智的照片。
如果你主要依靠自学,你可以在像Dota 2 这样的复杂游戏中获得优势。人工智能是如何做到的呢?今天我们就来揭晓答案。
没错,OpenAI不仅发布了Rerun,还通过论文正式宣布了对Dota2项目长达三年多的研究。
在这篇文章中,我们将解释整个系统,包括OpenAI的原理、架构、计算量和参数。 OpenAI指出,增加批量大小和总训练时间会增加计算规模,从而证明当今的强化学习技术可以在复杂的电子竞技游戏中达到超人的水平。
这些研究可以进一步应用于两个对手之间的各种顺序零和博弈。
(也许读完之后)OG 团队发推文说:“哇!这篇论文太棒了!”
这时,有网友亲切地喊道:“哇!” OG 团队有没有称赞这篇论文看起来有多好?很快再见.
这篇论文到底说了什么?
我们总结了一些要点。
第一点:Dota2比围棋更复杂相比国际象棋游戏,电子竞技游戏更复杂。
解决这个问题的关键是将现有的强化学习系统扩展到前所未有的水平,这需要数千个GPU 和数月的时间。 OpenAI 为此构建了一个分布式训练系统。
培训的挑战之一是环境和代码不断变化。为了避免每次进行更改时都必须重新开始,OpenAI 开发了一套工具,允许您在不降低性能的情况下重新启动训练。这套工具被称为“手术”。
每场Dota 2 比赛持续约45 分钟,每秒生成30 帧游戏镜头。 OpenAI Five 每4 帧执行一次操作。一盘国际象棋大约有80 步,一盘围棋大约有150 步,但相比之下,玩Dota2 游戏,人工智能需要“下”大约20,000 步。是的。
而且由于战争迷雾的原因,Dota 2中的战斗双方只能看到整个游戏的部分内容,而其他部分的信息则被隐藏。
与下围棋的AlphaGo 相比,下Dota2 的AI 系统的批量大小要长50 至150 倍,模型长20 倍,训练时间长25 倍。
第2点:AI如何学习玩Dota2?人类玩Dota2使用键盘和鼠标之类的东西来做出实时决策。如前所述,OpenAI Five 每4 帧执行一次动作。这称为时间步长。在每个时间步长中,OpenAI 都会接收血量和位置等数据。
人类和OpenAI Five 以完全不同的方式接收相同的信息。
当人工智能系统发出动作指令时,你大概可以这样想:
AI的背后是一系列的神经网络。策略()被定义为从观测数据到动作概率分布的函数,是一个具有1.59 亿个参数的RNN 神经网络。该网络主要由单层4096 个单元LSTM 组成。
结构如下图所示。
LSTM贡献了这个模型84%的参数。
玩家使用增强版的近端策略优化(PPO)方法进行训练,这也是OpenAI 目前默认的强化学习训练方法。这些代理的目标是最大化指数衰减的未来奖励的总和。
OpenAI 5在训练策略的过程中不使用人类游戏数据,而是使用自我游戏。类似的训练方法也适用于围棋和国际象棋等问题。
其中,80%的对手是最新参数的分身,20%的对手是旧参数的分身。每第10 次迭代,新训练的化身就会被标记为旧计时器。当当前训练的人工智能战胜新人或老手时,系统会根据学习率更新其参数。
根据OpenAI CTO此前的说法,OpenAI 5在击败OG之前已经练习了相当于Dota 45,000年的时间。每天的AI 训练量相当于人类180 年的游戏时间。
要点3:在计算和超参数方面训练如此复杂的人工智能系统绝对是资源密集型的。
OpenAI 估算用于优化的GPU 消耗。最终的结论是,OpenAI Five 的GPU 计算使用量约为77050 至82050 PFlops/秒/天,今天新提到的更强大的重运行将在未来两个月内增加,这就是训练。GPU 计算消耗约为150 5 PFlops/s/天。
同样,OpenAI 仅报告用于优化的计算量,这仅占总训练开销的一小部分,约占30%。
此前,OpenAI还透露,OpenAI 5的日常训练需要256个P100 GPU和128,000个CPU核心。
关于整个神经网络的超参数,OpenAI在论文中表示,它根据训练Rerun时的经验进一步简化了超参数。最终只改变了四个主要的超参数。
• 学习率• 熵惩罚因子• 团队精神• GAE 时间范围
当然,OpenAI 也指出这些超参数还有进一步优化的空间。
第四点:不仅仅是自学最后,我还要强调一点。
OpenAI在论文中明确指出,在Dota2的学习过程中,AI系统并没有完全依赖强化学习进行自我学习,而是利用了一些人类知识做到了。它与后来的AlphaGo Zero不同。
有些游戏机制是脚本程序。比如英雄购买装备或者学习技能的顺序、使者的控制等。 OpenAI 在其论文中表示,使用这些脚本有几个历史原因,以及成本和时间方面的考虑。不过论文也指出,这些最终都可以通过自学来完成。
全文在名为《Dota 2 with Large Scale Deep Reinforcement Learning》的论文中,OpenAI 公布了详细信息。
https://cdn.openai.com/dota-2.pdf
比赛回顾结束,我们来回顾一下OpenAI五连胜OG的整场比赛。
第一款游戏AI(半径):火枪、飞机、冰女、死亡先知、斯文。
人类(夜魇):特立独行者、巫医、毒龙、隐刺、暗影恶魔
选择阵容后,OpenAI Five 认为其胜率达到67.6%。
比赛一开始,OpenAI五人就获得一血,人类势力迅速击杀了AI冰女。此后,在前期,两队的人数几乎持平。尽管人工智能一直占据着整体经济的领先地位,但最富有的英雄始终是人类的老大哥——暗影恶魔。
这也说明了双方策略上的明显差异。 OG是传统人类3核心+2辅助的打法,而AI 5英雄的经济分配相对均匀,造成了“大锅”。
经过几次强势领先和团战,比赛进行到了19分钟左右,AI自己预测的胜率超过了90%。自信的人工智能一举征服了人类的高度。
随后OG选择分路推进,一些评论员猜测这是为了尽可能分散AI并阻止他们集体推进,但这并没有持续多久。
然而,坚持到了第38分钟,人类这边的小牛就这样买了命,AI最后一波全面进攻将人类基地推到了一边。
OpenAI Five 赢得了第一场比赛。现场也响起了掌声。
在这场比赛中,AI提出了一些奇怪的想法。如果出去的时候选择了两大药水,你的后续装备就会倾向于购买消耗品而不是提升特性。
另外,我前面提到的“大锅”政策和游戏初期频繁的职业购买与人类职业玩家的习惯有很大不同。
第二场比赛AI(半径):冰女、飞机、斯文、巫医、毒龙。
人类(夜魇):火枪手、特立独行者、死亡先知、小鱼人、瑞恩。
选择英雄后AI自身的胜率预测为60.8%,比之前的阵容略低。
比赛的前两分钟,两队都在平静地领先,直到出人意料的人类中单托普森迅速提供了第一血。
之后,人类代表以惊人的速度被击败。
5分钟,AI信心大幅提升,预测胜率80%;7分钟,AI推倒上路塔;10分钟,AI已经领先人类4000金币。他表现出色,又推掉了两座塔,但是……他估计自己的胜率是95%。
11分钟,AI已经到达OG的高地。
OpenAI 五人轻松拿下第二局,仅用21 分钟就推开了OG 的据点。到了比赛结束,OG的击杀数依然在个位数,却被AI打到了46:6。
这一局很轻松就赢了,但在比赛过程中就明显看出AI在细节上存在一些缺陷。例如,面对在复杂森林中徘徊的人类,人工智能就无能为力。在今天的比赛中,Seb 绕过森林拯救了一条生命。
最后,希望大家周末愉快。
- 就这样-
量子比特QbitAI·今日头条签名
关注我们,第一时间了解最新技术动态
标题:og dota2,dota2 oga联赛
链接:https://yyuanw.com/news/xydt/12855.html
版权:文章转载自网络,如有侵权,请联系删除!