北京时间8月6日凌晨,OpenAI的AI系统与人类又进行了三场Dota 2比赛,最终以2-1击败了人类队。
本次比赛旨在测试AI系统是否具备与TI8(2018 Dota2国际邀请赛)顶级职业队伍抗衡的能力。看来OpenAI又要开始新的征程了。
此次代表人类的是Blitz、Cap、Fogged、Merlini、MoonMeander,他们都是欧美Dota界著名主播、解说、前任和现任职业选手,其中Merlini是Dota 1选手Zeus头衔的持有者。经典的“绕林三杀”获得了无数玩家的好评。据OpenAI官网显示,他们的平均水平高于99.95%的Dota2玩家,但五人从未一起训练过,默契有限。
根据DOTABUFF数据显示,他们的天梯排名均处于异常状态,排名最高的是Complexity活跃成员MoonMeander,美服排名第40位,排名最低的是Capitalist,美服排名第1054位。美国服务器,有。
与一个多月前的5V5镜像英雄Dota2大赛不同,这次OpenAI不仅扩大了英雄库,允许双方以随机招募模式(无禁令)选择英雄,而且AI的反应速度也有所提高。该系统的反应时间在80毫秒到200毫秒之间,接近人类的反应时间,也消除了之前许多不利于人类的限制。
绘画比赛限制
相比之下,最大的变化是新规则允许玩家防御、隐身(使用袖剑和欺骗之雾等)以及与肉山战斗。解除这些限制可以让人类获得更多的信息和发展空间,使用狡猾的侦察守卫可以获得更多的信息并弥补技能连接错误和反应时间慢的弱点,这意味着你可以使用更多的战术和策略,比如
图| OpenAI 五人击败肉山
这也意味着AI在短短一个多月的时间里就掌握了这些英雄、操作以及相应的对策。此前,一些评论者和Reddit论坛上的大多数意见认为,掌握这些复杂的游戏机制还有很长的路要走,至少需要一两年的时间。然而,人类被人工智能打脸的事并不少见。
正式比赛前,AI系统与5名当地观众进行了一场热身赛。仅仅13分钟后,观众队就以4分21秒之差落败。 AI在游戏中表现出了强烈的攻击压制欲望,跳塔击杀、绕塔gank、钻森林TP。只需10分钟即可到达高地你控制一个人类玩家,为所欲为。
图丨首场比赛阵容
不过,随着正式比赛中球员水平的显着提高,这种情况得到了改善。第一局对线阶段,人类玩家的最后一击与AI相差不远,AI的冲塔欲望也明显降低,因为玩家对于走位和耗血更加谨慎,被抑制了。与此同时,人类在画野技上的优势压倒了AI,这也是第一次让AI控制的英雄原地打转。
然而经济的繁荣并不能持续太久,AI精准的技能和血量计算让它在小规模的战斗中能够取得优势,但人类玩家不仅在几次战斗后无法取得优势,有时打3就输了。玩家。尽管屡次击败小股,甚至被AI击败,火枪手们还是绕着森林进行了反击。自此,AI开始接管脑力和经济霸权,经常展现出非常明显的群体晋级策略,有着杀人夺塔的“完美节奏”。
影魔创造出藏刀后,人类队伍稍微稳定了局势,并通过一些成功的捕获和交换减缓了AI的杀戮节奏。此时,AI并没有表现出传统机器人的无脑集体进步,开始进行2-3人的小规模抓捕,而它的老大哥火枪和直升机偶尔也会野性起来。以补充发展。不难看出,AI系统实际上正在塑造其对游戏的“理解”,意味着它可以在不同的情况下做出不同的选择。
此后,事态继续失控。人类队伍面对AI凶猛的gank和抱团无能为力。毕竟,火枪狙击手和直升机高射炮可以轻松快速地杀死支援。当AI队拿下上下路高地时,人类死灵术受挫,但他们第一时间选择了购买生命。事实上,AI团队也像人类玩家一样选择了撤退,并要求下次有更好的情况。随后,当他们再次进攻高地时,人神牛一跃被莱恩击败,这不仅标志着团队比赛的崩溃,也标志着高地的丧失,并决定了比赛未来的走向。最终,人类无力抵抗,在24分钟内攻击了GG。
第二场比赛的整体走势与第一场非常相似,人类团队试图利用隐藏的尖峰来获取更多信息,增加了不确定性,增加了AI的影响我的判断。虽然取得了一些初步成果,但AI的整体思路没有改变,利用群山压制人类兄弟的发育,主动漫游、变线、TP、杀杀、灭塔推。人类玩家。
隐刺、神牛、影魔的配合已经产生了一些积极的效果,他们多次成功击杀了AI枪械和辅助工具,但当人类追求胜利时,AI总是打败人类,寻找突破口进行击杀。值得注意的是,在第一场比赛中,人类玩家由于游戏滞后而暂停了比赛,而在第二场比赛中,AI系统也暂停了一次,这是由于AI学习了人类的行为。证明存在,尽管我无法理解其背后的原因。
比赛进行到15分钟左右,人类中路失利,局势再次被AI掌控。最终,AI队用时24分钟赢得了第二局比赛。
在2-0击败人类队伍后,OpenAI首席技术官Greg Brockman宣布:“我们的系统已经准备好在TI8上与顶级职业队伍较量!”
图片丨OpenAI CTO推文
接下来的第三场比赛对于拯救人类最后的尊严来说意义重大,因为双方都是观众选择的,而AI则全权负责游戏内的操作。最后我们可以看到,OpenAI对于观众选择的阵容非常“不满意”,赛前预测的胜率只有2.9%。
第三场比赛的走向也证明了OpenAI赛前的预测是正确的,尽管没有前两场比赛的流畅和完美节奏。比赛初期,AI控制的斧王选择了双盾,并与三名队友(不包括隐刺)联手强行控制了人类优势线,但效果并不理想。小鱼双核缺乏设备支持,效果有限。
在失去分支知识和熟悉的节奏后,AI英雄在10-25分钟内频繁在地图上的不同位置被捕获,五位英雄独立作战,有效反击、防守,而且无法组织漫游。比赛也进入人类节奏,随后OpenAI下路高地崩塌,鱼人随机使用影舞,女王放大被风杖吹飞的死亡先知,摇摆和斧头,王者徘徊在敌人的塔下。 AI系统给了游戏绝望的1%胜率。
33分钟人类攻击AI中高地,但AI在BKB直升机面前没有太多有效抵抗就被击败。最终,人类恢复了平静,保留了尊严。与此同时,当前人工智能系统的缺点也变得明显。这意味着你还没有学到足够的知识来有效应对逆风情况。
事实上,OpenAI 承认,在击败业余人类团队之后,在项目开始时,它并没有想到毫无根据的强化学习会达到如此高的水平。
图丨OpenAI五网架构图
OpenAI的Dota 2人工智能系统被称为“OpenAI五号”。根据OpenAI之前的论文,该系统基于机器学习和神经网络技术,由256个GPU和128,000个CPU(谷歌云平台)支持,并使用24小时工作。每天的训练量相当于180年的比赛时间。
整个训练过程中没有使用人类玩家的数据,也没有搜索或观看人类游戏的视频。然而,目前所有的英雄装备和技能选择都是人类编写的脚本,AI每场比赛随机选择一套。
由于AI系统需要“控制”五个英雄,OpenAI为每个英雄分配了一个长短期记忆循环神经网络(LSTM RNN网络)。网络之间没有直接的沟通渠道,仅在同一个游戏内,五个网络通过“团队精神”超参数值相互协调。该参数在0到1之间,用于调整个人和团队之间的注意力分配。最终将其设置为0.97,以确保每个网络优先考虑其团队的最大利益。
在训练过程中,OpenAI 团队使用奖励和惩罚机制来定义每个英雄将获得的“分数”。完成最后一次攻击或摧毁塔等行为被视为奖励,死亡被视为惩罚。
有趣的是,GitHub上的开源奖励机制文档指出,击杀敌对英雄的百分比是-0.6。这是因为“杀戮”所获得的金钱和经验会增加很多点。这是为了平衡“杀戮”带来的好处。换句话说,行为本身就被设置为一种“惩罚”,减少其带来的分数提升,防止AI过度追杀。
图丨AI系统计算个人奖励比例
上述机制不仅印证了Dota 2的本质不是“杀戮”而是“推塔”,更重要的是理性的决策机制与短期盈利和长期收益之间的博弈。感兴趣的时期。
本质上,通过强化学习训练的人工智能系统不断搜索和计算“最佳解决方案”,该解决方案可以是局部最优解,也可以是全局最优解。游戏的细节表明,AI系统实际上放弃了眼前的利益,而是考虑形势和整体发展。
因此,OpenAI认为“我们的系统确实是长期优化的”。
从大局来看,人工智能系统所表现出的战术增长、沟通、协调和权衡可以很容易地概括为“实现最终目标的长期规划”。无论是Dota 2 的OpenAI Five,还是围棋的DeepMind Alpha Go,人工智能都会做一些人类难以理解的事情,其中很多是完全没有意义却又必要的。人工智能系统仍在探索中,正在逐步完善。然而,无数类似的行动已被证明最终带来了胜利并激励了人类。
国外评论员Purge和Pixel在游戏过程中多次提到,人类玩家可以从AI身上学到很多技能,比如分享和交流仇恨。这也是OpenAI系统的正确使用方法,虽然AI系统的套路和策略目前人类还无法理解,但我们相信,通过反复训练和实战,人类对抗AI的能力一定会提高。这可以用来提高人类玩家的表现。
OpenAI联合创始人兼首席技术官(CTO)Greg Brockman表示,因为OpenAI也是人类智慧的成果,“无论结果如何,赢家(利润)都是人类。”说。
标题:dota2 ai难度区别,dota ai
链接:https://yyuanw.com/news/xydt/12861.html
版权:文章转载自网络,如有侵权,请联系删除!