北大清华等联合发布 LLaVA-o1：首个自发性视觉AI模型，推理计算 Scaling 新思路

11 月 19 日消息，由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学（Lehigh University）组成的研究团队，最新推出了 LLaVA-o1，这是首个具备自发性（Spontaneous，具体解释可参考文末）、类似于 GPT-o1 的系统性推理视觉语言模型。

LLaVA-o1 是一种新型的视觉语言模型（VLM），其设计目标是进行自主的多阶段推理。

LLaVA-o1 拥有 110 亿个参数，基于 Llama-3.2-Vision-Instruct 模型开发，设计了总结（summary）、描述（caption）、推理（reasoning）和结论（conclusion）4 个推理阶段。

该模型使用名为 LLaVA-o1-100k 的数据集进行微调，该数据集源自视觉问答（VQA）来源和由 GPT-4o 生成的结构化推理注释。

LLaVA-o1 采用了阶段级束搜索（stage-level beam search）的推理时间 Scaling 技术，能够在每个推理阶段生成多个候选答案，并选取最佳答案。

该模型在处理复杂任务时具备较强的能力，在复杂视觉问答任务中，可以突破传统视觉语言模型的局限性。

与基础模型相比，LLaVA-o1 在多模态推理基准测试中提高了 8.9% 的性能，超过了许多大型和闭源的竞争对手。

北大清华等联合发布 LLaVA-o1：首个自发性视觉AI模型，推理计算 Scaling 新思路

LLaVA-o1 的推出填补了文本和视觉问答模型之间的重要空白，在多个基准测试中的优异表现，特别是在数学和科学视觉问题的推理领域，展示了结构化推理在视觉语言模型中的重要性。

自发性人工智能（Spontaneous AI）是指能够模拟动物自发行为的人工智能系统。这种技术的研究主要集中在如何通过机器学习和复杂的时间模式设计出具有自发行为的机器人或智能系统。

附上参考地址

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

北大清华等联合发布 LLaVA-o1：首个自发性视觉AI模型，推理计算 Scaling 新思路

全球个人智能音频设备出货量增长 15%，市场持续回暖

英伟达发布新 AI 硬件：H200 NVL PCIe GPU 和 GB200 NVL4 超级芯片

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

​全球个人智能音频设备出货量增长 15%，市场持续回暖

英伟达发布新 AI 硬件：H200 NVL PCIe GPU 和 GB200 NVL4 超级芯片

草案显示美国准备全力以赴地对快速发展的 AI 技术实施国家规则

Stability AI 推出商业版会员计划，对AI模型的商业使用收费

GitHub Accelerator 2024扶持11个开源 AI 项目 推动技术创新

Meta 开源小语言 AI模型 MobileLLM 家族：适用智能手机、提供 125M-1B 版本

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

全球个人智能音频设备出货量增长 15%，市场持续回暖

GitHub Accelerator 2024扶持11个开源 AI 项目推动技术创新