Hugging Face 发布 SmolVLM 开源 AI模型：20 亿参数，用于端侧推理，体积小、速度快

Hugging Face 平台昨日（11 月 26 日）发布博文，宣布推出 SmolVLM AI 视觉语言模型（VLM），仅有 20 亿参数，用于设备端推理，凭借其极低的内存占用在同类模型中脱颖而出。

官方表示 SmolVLM AI 模型的优点在于体积小、速度快、内存高效，并且完全开源，所有模型检查点、VLM 数据集、训练配方和工具均在 Apache 2.0 许可证下发布。

SmolVLM AI 模型共有 SmolVLM-Base（用于下游微调）、SmolVLM-Synthetic（基于合成数据微调）和 SmolVLM-Instruct（指令微调版本，可以直接用于交互式应用）三个版本。

架构

SmolVLM 最大的特点在于巧妙的架构设计，借鉴了 Idefics3，使用了 SmolLM2 1.7B 作为语言主干，通过像素混洗策略将视觉信息的压缩率提高到 9 倍。

训练数据集包括 Cauldron 和 Docmatix，并对 SmolLM2 进行了上下文扩展，使其能够处理更长的文本序列和多张图像。该模型通过优化图像编码和推理过程，有效降低了内存占用，解决了以往大型模型在普通设备上运行缓慢甚至崩溃的问题。

内存

SmolVLM 将 384x384 像素的图像块编码为 81 个 tokens，因此在相同测试图片下，SmolVLM 仅使用 1200 个 tokens，而 Qwen2-VL 则使用 1.6 万个 tokens。

吞吐量

SmolVLM 在 MMMU、MathVista、MMStar、DocVQA 和 TextVQA 等多个基准测试中表现出色，且处理速度相比较 Qwen2-VL，预填充（prefill）吞吐量快 3.3 到 4.5 倍，生成吞吐量快 7.5 到 16 倍。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

Hugging Face 发布 SmolVLM 开源 AI模型：20 亿参数，用于端侧推理，体积小、速度快

AI 公司格灵深瞳总经理赵勇辞职：第三季度亏损同比扩大两倍

昆仑万维“天工大模型 4.0”o1 版启动邀测，具备中文逻辑推理能力

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

AI 公司格灵深瞳总经理赵勇辞职：第三季度亏损同比扩大两倍

昆仑万维“天工大模型 4.0”o1 版启动邀测，具备中文逻辑推理能力

世界最大开源 AI 社区 Hugging Face 将免费提供 1000 万美元共享 GPU，帮助小企业对抗大公司

Stability AI开源SD 3：6月12日可下载 不可商用

智谱AI宣布开源 GLM 第四代模型 GLM-4-9B

告别“默片”：智谱发布新清影，可生成 10 秒 4K60 帧 / 自带音效视频

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

Stability AI开源SD 3：6月12日可下载不可商用