Farhi透露◆◆★■■,现在AI在训练环境中自我对战,平均每局要打上将近50分钟,比以前慢了不少。
两场比赛过去,我们意犹未尽◆◆■★,十分期待OpenAI卷土重来,也很想亲手和它打一局◆◆。
但是★◆■◆,这种疯狂推进的打法在前两天的比赛中没有出现,而且★■◆,可能◆◆◆,再也回不来了。
我们在之前的报道中也提到过◆■■,去掉这个限制是在上周六,AI随后训练了4天就去比赛了★◆■★◆◆。
月初轻松击败7000分半职业五人组,17天过后却输给职业战队,还被越洋围观的群众骂成小学生◆★■◆★。这个AI DOTA2选手的经历,可以说大起大落。
没有了5只无敌信使,这样的打法就行不通了。在每方一只信使的比赛里,如果还要运输之前那么多补给★■◆■■,是要排队的。于是■◆■★★★,英雄被打到残血就只能回家泡温泉养伤。
但是,AI也没有对所有英雄一视同仁。在让AI选阵容的时候,己方和敌方已经选了什么英雄会影响到它的选择,AI也觉得队伍里的英雄在技能、属性上有所差异更好。
AI塔下插眼、自家野区乱插眼★■★★、甚至在家里插眼,可能就是对这个硬编码的抗争。
比如买装备◆◆■★◆。什么时候该买什么装备,人类是给AI设定了规则的,买眼(守卫)这件事,就是人类强制AI完成的◆◆。
原因很简单■■■◆◆◆,AI队伍中的5个智能体,线个一模一样的LSTM神经网络,没有角色的区分。它们甚至会尽量让所有英雄保持差不多的升级节奏。
那到翻盘无望塔下乱逛的时候,发个GG也是可以的吧◆★★◆◆■?的确可以★◆★■■,不过,OpenAI在TI8上没有给AI这个权利。
为了让AI接受更艰苦的训练,OpenAI研究员们其实也试着提升难度,比如说★■■◆★◆,他们会强行为其中一方创造优势,让某些英雄开局就是4级。这种设置,类似于围棋的让子。
Farhi讲过这样一种猜测:工程师强制AI买眼★★◆■,可是AI想用那个物品栏买别的东西于是,它们就只好把眼随机扔一个地方■★■◆◆。
因此,AI为了翻盘■◆,会做出种种超越常规的操作,看在人类眼里是自暴自弃★★◆■,其实人家AI觉得◆★◆★◆■,这样起码不是必败无疑啊!
AI会不会自己在训练中逐渐发现有的英雄注定是酱油呢?这只能等OpenAI慢慢公布了■◆★◆。
究其根本原因,在于AI在训练中完全没见过这么强大的对手:训练环境里陪AI玩游戏的,都是它自己的复制版或旧版★★◆■■◆。
不过这些规则■■■■,也不见得会持续存在下去◆◆■。OpenAI用来打DOTA的模型一直在迭代■◆■,比如现在的OpenAI Five,就去掉了去年1v1版本专门针对卡兵设置的奖励。
硬编码的不止这些游戏操作,还有网友们喜闻乐见的■■◆“AI用聊天轮盘发了个消息◆★■◆■”■◆。
想要完全理解AI的动机,搞清楚它在想什么◆★★★★,现在还很难,不过,熟悉OpenAI Five的研究员们做出了不少猜测。
前两天的比赛也表明,想要和人类职业选手抗衡,AI需要适应这个设置■◆★,培养新的战术和节奏◆★■◆◆。
OpenAI Five之前的疯狂推进打法■★★,会靠着信使源源不断运来的补给,维持割草一般的推塔节奏。
能入围TI的那种高手,AI在训练时从来没遇到过,这么大的劣势★■◆,AI也几乎没经历过。
Farhi谈到了这样一种推测◆★■★◆■,AI在训练时遇到的对手除了水平不够高之外◆★■,还有一个特点★★◆★■■:几乎不失误。(emmm我们看到的奇葩操作,对AI来说都不算失误)
“打出bug■■”一般都出现在后期劣势阶段◆◆★。其实,AI这两天在战斗的前20分钟里,打得都算不错◆■◆◆★★。
除了强制AI买眼,工程师们还对该升级什么技能、什么时候买活■◆◆◆、信使怎么运输物品等等都做了硬编码。这些方面,都是神经网络自学不太成功的地方。
好消息是,卷土重来可能不用等明年上海见◆★■。Farhi说,他们再努力几周或者几个月,就打算找职业战队再打一场。
人类战队中★★,总有1-5号位的角分◆◆,大哥负责带着队伍走向胜利★■■◆,辅助负责到处插眼。上图显示的是AI对战中国TI冠军联队时双方财产状况■★,从中也能看出,人类战队里不同的角色★■◆★★,贫富差距巨大。
比如说买活这件事。OpenAI团队曾经放权给神经网络,让它自己决定要不要买活。结果★◆◆■,AI完全放弃了这个操作,它认为什么时候买活都不划算。于是,人类越俎代庖地设定了规则◆◆★。
原因很简单,投降的依据当然是胜率★★★■■★,可是这两天出场的AI有个bug,自信心有点爆棚★◆■◆,胜率预测实在是不太靠谱。
这种单纯的训练环境,也带来一个副作用,那就是网友们吐槽的★■★★“AI被打出bug来了”。
人类在劣势中坚持补刀抢人头,大多数情况下根本不能缩小和对手的差距★■■■◆★,但是,如果对手失误,翻盘的机会就来了★◆◆★■。可是对于AI来说◆◆★◆■■,它自己几乎不会失误◆★◆■◆,它练习时的对手也一样。于是,在AI的世界里就没有“你失误我翻盘”的概念。
虽说OpenAI没有强制为智能体划分核心和酱油英雄,但其实在OpenAI Five里,有不少硬编码的部分。
OpenAI在赛后总结中提到,他们在TI8上玩的版本,更接近选手们眼中真正的DOTA:打破了每个英雄一只无敌信使的配置★◆■■★★,改成了人类比赛中通用的每队一只普通信使★◆◆。
收获吐槽能量最多的,除了“打出bug◆■★■”可能就要数AI战队的大锅饭政策了■◆■★。
为了弄清楚这些问题★■■◆★◆,量子位和新浪科技查阅了现有的各种资料◆◆★,还联系到直接深度参与了这个项目的OpenAI研究员David Farhi■★★,来答疑解惑。
两天前,AI全村的希望OpenAI Five更是在二连败之后◆◆,提前为TI之旅画上了句号。
Farhi解释说,很多人在这一点上都误会了★★■■★◆,OpenAI Five根本不跟人类学习■◆◆。
先在庞大的计算机集群上◆★,让AI自己跟自己反复对战★◆,告诉它赢得比赛、做出某些好操作就能获得奖励,让它从结果中学习■■★■◆★。要和人类对战的时候★★◆■■◆,OpenAI就从自我对局环境中导出最新版的AI来用。
当然,4天对AI来说并不短◆◆★★◆◆。按照OpenAI之前公布的配置,AI训练用了256块P100 GPU和12.8万个CPU核心,每天的训练量相当于打了180年游戏■■★◆。4天,就是人间720年。
说不定★■◆,等OpenAI把人类的经验也引入到AI训练中,会再带来一波提升。不过■★★◆,这个工程量浩大优先级不高的想法,还没有提上日程。
坏消息是,把OpenAI Five放到Steam创意工坊上造福大众这件事,还没有提上日程,还要再提升提升。
所以说,我们在比赛中看到的那些进步◆★◆■★■,和那些诡异操作◆■◆■,都是AI在自我对战过程中摸索出来的,想要靠示范带坏AI,目前还做不到。
8月6日那一场人机大战中,AI抱团推塔杀人之凶猛,给围观群众都留下了深刻印象。
装饰材料:400-887-8773 健康家居:400-826-2831
市场监管部:0572-8406855
监事会:0572-8406378
COPYRIGHT© 2020 德华凯发k8(中国)天生赢家,凯发一触即发,凯发K8国际首页装饰新材股份有限公司 ALL Rights RESERVED.
浙公网安备 33052102000172号 浙ICP备10021016号-1 全案策划:LEBANG