集结号玩家指南沃尔县新一代科学研究:人工智能模_91y鱼商在线
- 编辑:Taskpo -集结号玩家指南沃尔县新一代科学研究:人工智能模_91y鱼商在线
91y玩者指南
作者:电脑之心
责任编辑为约2418字,提议写作5两分钟
责任编辑如是说了OpenAI 的科学研究项目组合作开发的一类能玩《我的当今世界》的智能化体。
《我的当今世界》里,玩者不一定都是人类文明,现在 AI 也会玩了。
《我的当今世界》是全球名气最低的对外开放当今世界格斗游戏。小学生只需观赏十两分钟的课堂教学音频,就能专业委员会在格斗游戏中找寻珍贵的宝石,但这看似 AI 在此之前难以撼动的度。
那时 OpenAI 的科学研究项目组正式宣布他们合作开发了一类能玩《我的当今世界》的智能化体,其中采用《我的当今世界》格斗游戏大批未记号音频统计数据集体能训练数学模型,仅采用小量记号统计数据。
松动之后,OpenAI 体能训练的数学模型还能自学制做矿机辅助工具,娴熟的人类文明玩者在 20 两分钟内能顺利完成这个各项任务(24000 次作)。OpenAI 的数学模型采用按钮和滑鼠终端掌控设计模式,这使该数学模型非常通用型,这向通用型计算机系统采用智能化体迈进了一步棋。
他们先来看下效用,数学模型修建两个破旧的铁制庇护所:
制做石镐
在村子里追踪
VPT 方式
网络包涵大批可供他们自学的申明音频,比如格斗游戏玩者模拟格斗游戏动作游戏,《我的当今世界》玩者修建两个错综的新房子。不过这些音频只提供了事发生的历史记录,而不是确凿的实现方式,即没有表明滑鼠终端和按钮的确凿次序。
较之于 OpenAI 的小型词汇数学模型,要在音频格斗游戏等更通用型应用领域构筑小型基础数学模型(foundation model),缺乏动作标签带来了新的挑战。集结号格斗游戏币一键回收
为了利用网络上可用的大批未记号音频统计数据,该科学研究提出了一类新颖但简单的半监督模仿自学方式:音频预体能训练(VPT)。
该科学研究首先从格斗游戏商家那里收集了两个小型统计数据集,其中不仅历史记录了玩格斗游戏的音频,还历史记录了玩者采取的行动,即按钮和滑鼠的终端。利用这些统计数据,该科学研究体能训练了两个逆动力学数学模型 (IDM),以预测音频中每个步骤所采取的动作。重要的是,IDM 能采用过去和未来的信息来猜测每一步棋动作。与仅给定过去音频帧预测动作的行为克隆各项任务较之,这种各项任务要容易得多,需要的统计数据也要少得多。然后该科学研究采用经过体能训练的 IDM 来记号更大的在线音频统计数据集,并通过行为克隆来自学行动。
下图为VPT 方式概览:
VPT 零样本结果
该科学研究选择《我的当今世界》这个格斗游戏中验证了所提方式,因为它 (1) 是当今世界上集结号格斗游戏币一键回收最流行的音频格斗游戏之一,拥有大批可免费获得的音频统计数据,并且 (2) 是对外开放式的,能提供各种各样的行为动作,类似于现实当今世界的应用程序(如计算机系统采用)。与之前的工作在《我的当今世界》中采用简化动作空间不同,OpenAI 的新数学模型采用更普遍适用、难度也更大的原生设计模式:滑鼠和键盘采用 20Hz 帧率。
该科学研究的行为克隆数学模型(VPT 基础数学模型)采用 70000 小时的 IDM 记号在线音频进行体能训练,在《我的当今世界 》中顺利完成了强化自学几乎不可能实现的各项任务。新数学模型专业委员会了砍树收集原木,将原铁制做成木板,然后将木板制做成箱子;这个行为序列对于《我的当今世界》高级玩者在约 50 秒内执行 1000 个连续的格斗游戏动作。
此外,该数学模型还能执行人类文明在格斗游戏中经常执行的其他复杂技能,比如游泳、狩猎动物、食用食物以及一些《我的当今世界》专用技能。
用行为克隆进行松动
基础数学模型旨在具有广泛的行为特征,并且顺利完成各种各项任务。为了整合新知识或让他们专注于更具体的各项任务,通常的做法是基于更小、更具体的统计数据集对数学模型进行松动。
那么,VPT 基础数学模型如何松动到下游统计数据集呢?OpenAI 让人类文明玩者在新一代版《我的当今世界》中玩了 10 两分钟,并用基本的材料修建新房子。OpenAI 希望这能增强基础数学模型执行早期格斗游戏技能的能力。结果表明,基础数学模型在可靠执行早期格斗游戏技能方面有了巨大进步,而且松动后的数学模型还掌握了制做石器等新技能。
统计数据扩展
也许该科学研究中最重要的假设是,采用记号的 contractor 统计数据体能训练 IDM(作为 VPT pipeline 的一部分)要比直接从同两个小型 contractor 统计数据集体能训练 BC 基础数学模型有效得多。为了验证这一假设,科学研究者不断增加统计数据量来体能训练基础数学模型,统计数据量规模从 1 小时增加到 70000 小时。他们将体能训练分为两个部分,如下图虚线所示,体能训练统计数据时长以 2000 为分界线。集结号格斗游戏币一键回收
基础数学模型体能训练统计数据对松动的影响:从图中能看出,随着基础数学模型统计数据的增加,数学模型制做能力随之增加,只有在最大的统计数据规模下,他们才会看到石器辅助工具制做的出现。
通过强化自学进行松动
当指定的奖励函数足够好时,强化自学便能够成为一类强大的方式去激发更高的,甚至是超人类文明的表现。VPT 数学模型和 RL 搭配更好,因为模仿人类文明行为可能比采取随机行动更有帮助。该科学研究设置了一些数学模型挑战各项任务,即收集宝石鹤嘴锄,这是在《我的当今世界》中前所未有的能力。
制做一把宝石鹤嘴锄需要一长串复杂的子各项任务。为了使这个各项任务易于处理,该科学研究会奖励序列中的每一项智能化体。
该科学研究发现,从随机初始化(标准 RL 方式)体能训练的 RL 策略几乎没有获得任何奖励。与之形成鲜明对比的是,VPT 数学模型的松动不仅能(它在 10 两分钟的《我的当今世界》中有 2.5% 会这样做),而且它在收集所有物品以获得宝石镐方面的成功率甚至达到了人类文明的水平。这是人类文明首次展示计算机系统智能化体能够在《我的当今世界》中制做宝石辅助工具,而人类文明平均需要 20 多两分钟(24000 次作)。集结号格斗游戏币一键回收
VPT 让智能化体通过观赏网络上的大批音频就能进行自学铺平了道路。与只会产生表征先验的生成音频建模或对比方式较之,VPT 提供了在更多应用领域能直接自学大规模行为先验的可能性,而不仅仅是词汇。虽然该科学研究只在 《我的当今世界》中进行实验,但该格斗游戏对外开放的,并且原生设计模式(滑鼠和键盘)非常通用型,因此这项科学研究也会给其他应用领域带来益处,比如电脑采用。
此外,该科学研究还开源了统计数据、《我的当今世界》所需环境、数学模型代码、数学模型权重,他们希望这些开源有助于未来 VPT 的科学研究。
原文链接:
https://openai.com/blog/vpt/