怎么样在电脑上玩电玩(OpenAI以7万小时电玩视频训练AI玩Minecraft)

OpenAI以7万小时电玩视频训练AI玩Minecraft

AI模型开发商OpenAI宣布以创新方法来训练其AI模型，有望省去标注大量资料的训练过程。

传统上要训练AI模型，像是OpenAI的语言模型GPT，需要先以人力在大量训练资料集上标注再送入神经网络，相当耗时。为此，OpenAI实验了一种名为视频预训练（VideoPretraining，VPT）的方法，仅使用少量由约聘人员标注的资料，再经过以模仿学习及增强学习法二次微调，就在大量未标注的游戏视频上训练神经网络，使它学会玩《Minecraft》这个知名电玩。

《Minecraft》提供多种模式，玩家可利用方块进行创建一个虚拟世界。像是在生存模式中，玩家必须开采资源求取生存，在创造模式中，玩家拥有无限的资源并可自由创造建筑。其他玩家也可以通过公开的网络视频观摩这些过程。但是视频无法精确展示作者怎么做到的，例如看不到作者的鼠标动作及按了哪些按钮。如果要以创建语言模型GPT的方法来创建打造虚拟世界的AI模型，就会碰到缺乏行为（action）资料标签的问题。

这项计划中，OpenAI使用了半监督式模仿学习方法，称为图片预训练（videopretraining，VPT）。OpenAI一开始先搜集约聘人员的一小笔（2,000小时）的录像资料，包括图片及他们的按钮、鼠标动作。研究小组先训练了反向动态模型（inversedynamicsmodel，IDM），这模型已可以预测视频中玩家的每一动作，然后，研究人员再以这IDM来标签7万小时的《Minecraft》网络视频资料集，希望创建一个行为复制（behavioralcloning，BC）模型。

OpenAI以7万小时电玩视频训练AI玩Minecraft

图片来源／OpenAI

前述的视频是研究小组从网络搜来、玩家分享他们玩《Minecraft》时的视频。这些图片由IDM加注标签，最后创建出一个模型，称为VPT基础模型（VPTfoundationmodel）。这模型完成了增强学习几乎不可能从头完成的任务；它会砍树、搜集木材，将木材劈成木板，再把木板做成桌子。光是这个过程，娴熟《Minecraft》的人类玩家都得要花上50秒，或是1,000个连续动作。

此外，VPT模型还能执行其他复杂技能，像是游泳、猎捕动物、进食，甚至学会了《Minecraft》里玩家常见利用方块在大楼之间跳来跳去的动作。

研究人员之后对这VPT模型，以2种方法微调。首先，通过行为复制（behavioralcloning）方法，研究人员以约聘人员玩《Minecraft》盖房子的新视频来训练VPT基础模型，视频只有10分钟。经过微调，VPT基础模型技能可因此再深化，能使用木柴，还能使用石材，甚至从其他村庄取得物资。

其次，OpenAI用增强式学习来进行第2次模型微调。OpenAI利用增强学习方法，训练VPT基础模型搜集钻石鹤嘴锄，若使用Minecraft原生接口，又是难上加上的任务。研究人员发现，VPT模型经过这种方法微调后，不但学会打造钻石鹤嘴锄，而且能搜集所有必要材料。这个实验中，OpenAI首次让计算机模型完成了人类平均20多分钟才完成（24,000个动作）的任务。

OpenAI研究人员结论，以公开网络视频这种没有标签的资料来训练AI的探索行为（像是打Game、学习计算机）是可能的。通过创建初步模型，再以模仿学习及增强学习方法微调，就能使AI模型学习高难度技能，这也让无标签资料训练变得可能。OpenAI只实验了《Minecraft》，但研究团队相信，这种少量样本训练方式也可以用在其他领域，像是计算机使用，因为两者是开放式结局，接口也相似（都是键盘、鼠标）。

OpenAI也将约聘人员的资料、《Minecraft》环境、模型程序代码及模型权重等资料都公开出来。OpenAI并和游戏平台MineRLNeurIPS合作，祭出奖金邀请玩家加入协助微调其VPT模型。

怎么样在电脑上玩电玩(OpenAI以7万小时电玩视频训练AI玩Minecraft)

客服电话

台式电脑

怎么样在电脑上玩电玩(OpenAI以7万小时电玩视频训练AI玩Minecraft)

台式电脑

怎么样在电脑上玩电玩(OpenAI以7万小时电玩视频训练AI玩Minecraft)

相关新闻