阿里通义千问开源Qwen1.5-MoE-A2.7B模型

通义千问团队推出了 Qwen 系列的首个 MoE 模型，命名为 Qwen1.5-MoE-A2.7B。这个模型只有27亿个激活参数，但性能却与当前最先进的70亿参数模型相媲美。与 Qwen1.5-7B 相比，Qwen1.5-MoE-A2.7B 只有20亿个非嵌入参数，大约是原模型大小的三分之一。此外，相较于 Qwen1.5-7B，Qwen1.5-MoE-A2.7B 的训练成本降低了75%，推理速度提升了1.74倍。

Qwen1.5-MoE 模型采用了特别设计的 MoE 架构。与传统 MoE 方法不同的是，Qwen1.5-MoE 使用了64个 finegrained experts，并引入了新的 routing 机制 DeepSeek-MoE 和 DBRX。这种 finegrained experts 设计的目的是在不增加参数数量的情况下生成更多 expert。Qwen1.5-MoE 模型在训练成本和推理效率方面表现出色，性能接近最先进的7B 模型。

Qwen1.5-MoE-A2.7B 模型拥有14.3亿激活参数和2亿非嵌入参数，训练成本降低了75%。在实验中，使用单个 NVIDIA A100-80G GPU 测试时，Qwen1.5-MoE-A2.7B 的推理速度提高了约1.74倍。Qwen1.5-MoE 模型已在 ModelScope 社区开源，可直接下载使用。

除了性能和效率，Qwen1.5-MoE 模型还将持续更新对第三方框架的支持，包括 llama.cpp、MLX 等。

总体来说，Qwen1.5-MoE 模型在性能、效率和推理速度方面取得了显著的优势，是推理训练的最佳实践之一。

Qwen1.5-MoE体验链接:

https://modelscope.cn/studios/qwen/qwen1.5-MoE-A2.7B-Chat-GPTQ-Int4-demo

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

阿里通义千问开源Qwen1.5-MoE-A2.7B模型

周鸿祎自称“开源信徒”：宣布将开源 360智脑 7B 模型，支持 50 万字长文本输入

马斯克突然发布Grok 1.5！上下文长度飙升16倍和GPT-4齐平

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

周鸿祎自称“开源信徒”：宣布将开源 360智脑 7B 模型，支持 50 万字长文本输入

马斯克突然发布Grok 1.5！上下文长度飙升16倍和GPT-4齐平

阿里通义千问开源 320 亿参数模型，已实现 7 款大语言模型全开源

阿里云：通义千问API日调用量破亿 企业用户破9万

阿里大模型产品“通义听悟”升级：超长视频自由问，还会做思维导图

大模型投资2024：阿里腾讯，争做一号“金主”

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

阿里云：通义千问API日调用量破亿企业用户破9万