银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

1 月 10 日消息，银河通用昨日（1 月 9 日）宣布，联合北京智源人工智能研究院（BAAI）及北京大学和香港大学研究人员，发布首个全面泛化的端到端具身抓取基础大模型 GraspVLA。

注：“具身智能”是指将人工智能融入机器人等物理实体，赋予它们感知、学习和与环境动态交互的能力。

据介绍，GraspVLA 的训练包含预训练和后训练两部分。其中预训练完全基于合成大数据，训练数据达到了有史以来最大的数据体量 —— 十亿帧「视觉-语言-动作」对，掌握泛化闭环抓取能力、达成基础模型。

预训练后，模型可直接 Sim2Real（注：从模拟到现实）在未见过的、千变万化的真实场景和物体上零样本测试，官方宣称满足大多数产品的需求；而针对特别需求，后训练仅需小样本学习即可迁移基础能力到特定场景，维持高泛化性的同时形成符合产品需求的专业技能。

官方公布了 VLA 达到基础模型需满足的七大泛化“金标准”：光照泛化、背景泛化、平面位置泛化、空间高度泛化、动作策略泛化、动态干扰泛化、物体类别泛化。

声明：内容均采集自公开的网站等各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

银河通用发布全球首个端到端具身抓取基础大模型 GraspVLA，预训练数据十亿帧“视觉-语言-动作”对

AI诈骗的7种典型套路，防范“AI换脸”诈骗你需要的知识都在这儿了

中文互联网语料 AI 资源平台发布：27 个数据集、总量 2.7T

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

AI诈骗的7种典型套路，防范“AI换脸”诈骗你需要的知识都在这儿了

中文互联网语料 AI 资源平台发布：27 个数据集、总量 2.7T

全国首批人形机器人具身智能标准发布：按下肢运动、上肢作业等分 4 个等级

具身智能公司银河通用官宣再获 5 亿战略轮资，累计完成 12 亿融资

清华、浙大推GPT-4V开源平替！LLaVA、CogAgent等开源视觉模型大爆发

阿里云宣布“通义舞王”免费上线 ：仅凭一张照片就可生成AI跳舞视频

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

阿里云宣布“通义舞王”免费上线：仅凭一张照片就可生成AI跳舞视频