怎么样在电脑上玩电玩(OpenAI以7万小时电玩视频训练AI玩Minecraft)
AI模型开发商OpenAI宣布以创新方法来训练其AI模型,有望省去标注大量资料的训练过程。
传统上要训练AI模型,像是OpenAI的语言模型GPT,需要先以人力在大量训练资料集上标注再送入神经网络,相当耗时。为此,OpenAI实验了一种名为视频预训练(VideoPretraining,VPT)的方法,仅使用少量由约聘人员标注的资料,再经过以模仿学习及增强学习法二次微调,就在大量未标注的游戏视频上训练神经网络,使它学会玩《Minecraft》这个知名电玩。
《Minecraft》提供多种模式,玩家可利用方块进行创建一个虚拟世界。像是在生存模式中,玩家必须开采资源求取生存,在创造模式中,玩家拥有无限的资源并可自由创造建筑。其他玩家也可以通过公开的网络视频观摩这些过程。但是视频无法精确展示作者怎么做到的,例如看不到作者的鼠标动作及按了哪些按钮。如果要以创建语言模型GPT的方法来创建打造虚拟世界的AI模型,就会碰到缺乏行为(action)资料标签的问题。
这项计划中,OpenAI使用了半监督式模仿学习方法,称为图片预训练(videopretraining,VPT)。OpenAI一开始先搜集约聘人员的一小笔(2,000小时)的录像资料,包括图片及他们的按钮、鼠标动作。研究小组先训练了反向动态模型(inversedynamicsmodel,IDM),这模型已可以预测视频中玩家的每一动作,然后,研究人员再以这IDM来标签7万小时的《Minecraft》网络视频资料集,希望创建一个行为复制(behavioralcloning,BC)模型。
图片来源/OpenAI
前述的视频是研究小组从网络搜来、玩家分享他们玩《Minecraft》时的视频。这些图片由IDM加注标签,最后创建出一个模型,称为VPT基础模型(VPTfoundationmodel)。这模型完成了增强学习几乎不可能从头完成的任务;它会砍树、搜集木材,将木材劈成木板,再把木板做成桌子。光是这个过程,娴熟《Minecraft》的人类玩家都得要花上50秒,或是1,000个连续动作。
此外,VPT模型还能执行其他复杂技能,像是游泳、猎捕动物、进食,甚至学会了《Minecraft》里玩家常见利用方块在大楼之间跳来跳去的动作。
研究人员之后对这VPT模型,以2种方法微调。首先,通过行为复制(behavioralcloning)方法,研究人员以约聘人员玩《Minecraft》盖房子的新视频来训练VPT基础模型,视频只有10分钟。经过微调,VPT基础模型技能可因此再深化,能使用木柴,还能使用石材,甚至从其他村庄取得物资。
其次,OpenAI用增强式学习来进行第2次模型微调。OpenAI利用增强学习方法,训练VPT基础模型搜集钻石鹤嘴锄,若使用Minecraft原生接口,又是难上加上的任务。研究人员发现,VPT模型经过这种方法微调后,不但学会打造钻石鹤嘴锄,而且能搜集所有必要材料。这个实验中,OpenAI首次让计算机模型完成了人类平均20多分钟才完成(24,000个动作)的任务。
OpenAI研究人员结论,以公开网络视频这种没有标签的资料来训练AI的探索行为(像是打Game、学习计算机)是可能的。通过创建初步模型,再以模仿学习及增强学习方法微调,就能使AI模型学习高难度技能,这也让无标签资料训练变得可能。OpenAI只实验了《Minecraft》,但研究团队相信,这种少量样本训练方式也可以用在其他领域,像是计算机使用,因为两者是开放式结局,接口也相似(都是键盘、鼠标)。
OpenAI也将约聘人员的资料、《Minecraft》环境、模型程序代码及模型权重等资料都公开出来。OpenAI并和游戏平台MineRLNeurIPS合作,祭出奖金邀请玩家加入协助微调其VPT模型。