日本东京大学的研究人员与 Alternative Machine 公司的合作研究取得了新突破,开发出一款能够直接将自然语言命令映射到机器人行动的人形机器人系统 Alter3。它的后台模型采用了 GPT-4技术,可完成一系列复杂任务,例如自拍或者扮演幽灵等。
这是越来越多基于基础模型与机器人系统相结合的研究成果之一。虽然这些系统还未达到可扩展的商业解决方案,但近年来它们推动了机器人研究的发展并展现出巨大潜力。
Alter3采用 GPT-4技术作为后台模型,接收描述动作或机器人需做出反应的情景的自然语言指令。首先,模型使用 "代理框架" 规划机器人完成目标所需的一系列行动步骤。其次,通过编码代理,生成机器人执行每个步骤所需的命令。由于 GPT-4没有接受 Alter3编程命令的训练,因此研究人员使用其上下文学习能力,将其行为适应机器人的 API。
因此,prompt 包含命令列表和一组说明如何使用每个命令的示例。然后,模型将每个步骤映射到一个或多个 API 命令,以发送给机器人执行。
研究人员添加了功能,使得人类可以提供反馈,例如 “将手臂抬高一点”。这些指令会发送给另一个 GPT-4代理,对代码进行推理、进行必要的更正并将动作序列返回给机器人。改进后的行动配方和代码被存储在数据库中供将来使用。
研究人员在 Alter3上进行了多项测试,包括日常动作,例如自拍和喝茶,以及模仿动作,例如扮演幽灵或蛇。他们还测试了模型应对需要精心规划行动的情况的能力。GPT-4对人类行为和动作的广泛了解,使得可以为 Alter3等人形机器人创建更逼真的行为计划。研究人员的实验还表明,他们能够在机器人中模仿羞耻和喜悦等情感。