凯发·k8(国际) - 官方网站·一触即发

　　Farhi透露◆◆★■■，现在AI在训练环境中自我对战，平均每局要打上将近50分钟，比以前慢了不少。

　　两场比赛过去，我们意犹未尽◆◆■★，十分期待OpenAI卷土重来，也很想亲手和它打一局◆◆。

　　但是★◆■◆，这种疯狂推进的打法在前两天的比赛中没有出现，而且★■◆，可能◆◆◆，再也回不来了。

　　我们在之前的报道中也提到过◆■■，去掉这个限制是在上周六，AI随后训练了4天就去比赛了★◆■★◆◆。

　　月初轻松击败7000分半职业五人组，17天过后却输给职业战队，还被越洋围观的群众骂成小学生◆★■◆★。这个AI DOTA2选手的经历，可以说大起大落。

　　没有了5只无敌信使，这样的打法就行不通了。在每方一只信使的比赛里，如果还要运输之前那么多补给★■◆■■，是要排队的。于是■◆■★★★，英雄被打到残血就只能回家泡温泉养伤。

　　但是，AI也没有对所有英雄一视同仁。在让AI选阵容的时候，己方和敌方已经选了什么英雄会影响到它的选择，AI也觉得队伍里的英雄在技能、属性上有所差异更好。

　　AI塔下插眼、自家野区乱插眼★■★★、甚至在家里插眼，可能就是对这个硬编码的抗争。

　　比如买装备◆◆■★◆。什么时候该买什么装备，人类是给AI设定了规则的，买眼（守卫）这件事，就是人类强制AI完成的◆◆。

　　原因很简单■■■◆◆◆，AI队伍中的5个智能体，线个一模一样的LSTM神经网络，没有角色的区分。它们甚至会尽量让所有英雄保持差不多的升级节奏。

　　那到翻盘无望塔下乱逛的时候，发个GG也是可以的吧◆★★◆◆■？的确可以★◆★■■，不过，OpenAI在TI8上没有给AI这个权利。

　　为了让AI接受更艰苦的训练，OpenAI研究员们其实也试着提升难度，比如说★■■◆★◆，他们会强行为其中一方创造优势，让某些英雄开局就是4级。这种设置，类似于围棋的让子。

　　Farhi讲过这样一种猜测：工程师强制AI买眼★★◆■，可是AI想用那个物品栏买别的东西于是，它们就只好把眼随机扔一个地方■★■◆◆。

　　因此，AI为了翻盘■◆，会做出种种超越常规的操作，看在人类眼里是自暴自弃★★◆■，其实人家AI觉得◆★◆★◆■，这样起码不是必败无疑啊！

　　AI会不会自己在训练中逐渐发现有的英雄注定是酱油呢？这只能等OpenAI慢慢公布了■◆★◆。

　　究其根本原因，在于AI在训练中完全没见过这么强大的对手：训练环境里陪AI玩游戏的，都是它自己的复制版或旧版★★◆■■◆。

　　不过这些规则■■■■，也不见得会持续存在下去◆◆■。OpenAI用来打DOTA的模型一直在迭代■◆■，比如现在的OpenAI Five，就去掉了去年1v1版本专门针对卡兵设置的奖励。

　　硬编码的不止这些游戏操作，还有网友们喜闻乐见的■■◆“AI用聊天轮盘发了个消息◆★■◆■”■◆。

　　想要完全理解AI的动机，搞清楚它在想什么◆★★★★，现在还很难，不过，熟悉OpenAI Five的研究员们做出了不少猜测。

　　前两天的比赛也表明，想要和人类职业选手抗衡，AI需要适应这个设置■◆★，培养新的战术和节奏◆★■◆◆。

　　OpenAI Five之前的疯狂推进打法■★★，会靠着信使源源不断运来的补给，维持割草一般的推塔节奏。

　　能入围TI的那种高手，AI在训练时从来没遇到过，这么大的劣势★■◆，AI也几乎没经历过。

　　Farhi谈到了这样一种推测◆★■★◆■，AI在训练时遇到的对手除了水平不够高之外◆★■，还有一个特点★★◆★■■：几乎不失误。（emmm我们看到的奇葩操作，对AI来说都不算失误）

　　“打出bug■■”一般都出现在后期劣势阶段◆◆★。其实，AI这两天在战斗的前20分钟里，打得都算不错◆■◆◆★★。

　　除了强制AI买眼，工程师们还对该升级什么技能、什么时候买活■◆◆◆、信使怎么运输物品等等都做了硬编码。这些方面，都是神经网络自学不太成功的地方。

　　好消息是，卷土重来可能不用等明年上海见◆★■。Farhi说，他们再努力几周或者几个月，就打算找职业战队再打一场。

　　人类战队中★★，总有1-5号位的角分◆◆，大哥负责带着队伍走向胜利★■■◆，辅助负责到处插眼。上图显示的是AI对战中国TI冠军联队时双方财产状况■★，从中也能看出，人类战队里不同的角色★■◆★★，贫富差距巨大。

　　比如说买活这件事。OpenAI团队曾经放权给神经网络，让它自己决定要不要买活。结果★◆◆■，AI完全放弃了这个操作，它认为什么时候买活都不划算。于是，人类越俎代庖地设定了规则◆◆★。

　　原因很简单，投降的依据当然是胜率★★★■■★，可是这两天出场的AI有个bug，自信心有点爆棚★◆■◆，胜率预测实在是不太靠谱。

　　这种单纯的训练环境，也带来一个副作用，那就是网友们吐槽的★■★★“AI被打出bug来了”。

　　人类在劣势中坚持补刀抢人头，大多数情况下根本不能缩小和对手的差距★■■■◆★，但是，如果对手失误，翻盘的机会就来了★◆◆★■。可是对于AI来说◆◆★◆■■，它自己几乎不会失误◆★◆■◆，它练习时的对手也一样。于是，在AI的世界里就没有“你失误我翻盘”的概念。

　　虽说OpenAI没有强制为智能体划分核心和酱油英雄，但其实在OpenAI Five里，有不少硬编码的部分。

　　OpenAI在赛后总结中提到，他们在TI8上玩的版本，更接近选手们眼中真正的DOTA：打破了每个英雄一只无敌信使的配置★◆■■★★，改成了人类比赛中通用的每队一只普通信使★◆◆。

　　收获吐槽能量最多的，除了“打出bug◆■★■”可能就要数AI战队的大锅饭政策了■◆■★。

　　为了弄清楚这些问题★■■◆★◆，量子位和新浪科技查阅了现有的各种资料◆◆★，还联系到直接深度参与了这个项目的OpenAI研究员David Farhi■★★，来答疑解惑。

　　两天前，AI全村的希望OpenAI Five更是在二连败之后◆◆，提前为TI之旅画上了句号。

　　Farhi解释说，很多人在这一点上都误会了★★■■★◆，OpenAI Five根本不跟人类学习■◆◆。

　　先在庞大的计算机集群上◆★，让AI自己跟自己反复对战★◆，告诉它赢得比赛、做出某些好操作就能获得奖励，让它从结果中学习■■★■◆★。要和人类对战的时候★★◆■■◆，OpenAI就从自我对局环境中导出最新版的AI来用。

　　当然，4天对AI来说并不短◆◆★★◆◆。按照OpenAI之前公布的配置，AI训练用了256块P100 GPU和12.8万个CPU核心，每天的训练量相当于打了180年游戏■■★◆。4天，就是人间720年。

　　说不定★■◆，等OpenAI把人类的经验也引入到AI训练中，会再带来一波提升。不过■★★◆，这个工程量浩大优先级不高的想法，还没有提上日程。

　　坏消息是，把OpenAI Five放到Steam创意工坊上造福大众这件事，还没有提上日程，还要再提升提升。

　　所以说，我们在比赛中看到的那些进步◆★◆■★■，和那些诡异操作◆■◆■，都是AI在自我对战过程中摸索出来的，想要靠示范带坏AI，目前还做不到。

　　8月6日那一场人机大战中，AI抱团推塔杀人之凶猛，给围观群众都留下了深刻印象。

Prev Next

了解凯发k8(中国)天生赢家,凯发一触即发,凯发K8国际首页

品牌实力

企业文化

专卖店查询

防伪查询

售后服务

招聘信息

招商加盟

大客户合作

基本信息

信息公告

公司治理

了解凯发k8(中国)天生赢家,凯发一触即发,凯发K8国际首页

品牌实力

企业文化

专卖店查询

防伪查询

售后服务

招聘信息

招商加盟

大客户合作

基本信息

信息公告

公司治理

遇劣势变蠢、发语音嘲讽……OpenAI这操作跟谁学的？

相关推荐

了解凯发k8(中国)天生赢家,凯发一触即发,凯发K8国际首页

品牌实力

企业文化

专卖店查询

防伪查询

售后服务

招聘信息

招商加盟

大客户合作

基本信息

信息公告

公司治理

网站搜索

了解凯发k8(中国)天生赢家,凯发一触即发,凯发K8国际首页

品牌实力

企业文化

专卖店查询

防伪查询

售后服务

招聘信息

招商加盟

大客户合作

基本信息

信息公告

公司治理

网站搜索

遇劣势变蠢、发语音嘲讽……OpenAI这操作跟谁学的？

相关推荐