Meta AI新量化版本Llama 3.2:速度提高2倍、体量减少56%,手机就能运行

最近,Meta AI 推出了全新的量化 Llama3.2模型,包含1B 和3B 两个版本,这款模型可以在多种设备上进行微调、蒸馏和部署。

Meta AI新量化版本Llama 3.2:速度提高2倍、体量减少56%,手机就能运行

过去,虽然像 Llama3这样的模型在自然语言理解和生成方面取得了显著成就,但其庞大的体量和高计算需求使得很多组织难以使用。训练时间长、能源消耗高以及对昂贵硬件的依赖,无疑加大了科技巨头与小型企业之间的鸿沟。

Llama3.2的特点之一就是支持多语言文本和图像处理。1B 和3B 模型经过量化处理,平均可以缩小56% 的体积,并且在内存使用上减少了41%,并实现2-3倍的速度提升,非常适合在移动设备和边缘计算环境中运行。

具体来说,这些模型采用了8位和4位的量化策略,将原本32位浮点数的权重和激活精度降低,从而大幅降低了内存需求和计算能力要求。这意味着量化后的 Llama3.2模型可以在普通的消费级 GPU 甚至 CPU 上运行,而且在性能上几乎没有损失。

用户现在可以在手机上进行各种智能应用,比如实时总结讨论内容或者调用日历工具,这些都得益于这些轻量级模型。

Meta AI新量化版本Llama 3.2:速度提高2倍、体量减少56%,手机就能运行

Meta AI 还与高通和联发科技等行业领先的合作伙伴合作,将这些模型部署到基于 Arm CPU 的系统单芯片上,确保能够在广泛的设备上高效使用。早期测试表明,量化 Llama3.2在主要的自然语言处理基准测试中达到了 Llama3模型效果的95%,而内存使用量减少了近60%。这对于希望在不投入高昂基础设施的前提下实现人工智能的企业和研究者来说,意义重大。

声明:内容均采集自公开的网站等各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

全球最强模型:OpenAI 被曝 12 月推出 Orion,AI 性能百倍级跃升

2024-10-25 9:59:56

资讯

美国女子起诉聊天机器人平台 Character.AI:称其导致儿子自杀

2024-10-25 10:03:47

搜索