微软发布 Phi-3.5 系列 AI 模型：上下文窗口 128K，首次引入混合专家模型

微软公司发布了 Phi-3.5 系列 AI模型，其中最值得关注的是推出了该系列首个混合专家模型（MoE）版本 Phi-3.5-MoE。

本次发布的 Phi-3.5 系列包括 Phi-3.5-MoE、Phi-3.5-vision 和 Phi-3.5-mini 三款轻量级 AI 模型，基于合成数据和经过过滤的公开网站构建，上下文窗口为 128K，所有模型现在都可以在 Hugging Face 上以 MIT 许可的方式获取。IT之家附上相关介绍如下：

Phi-3.5-MoE：首个混合专家模型

Phi-3.5-MoE 是 Phi 系列中首个利用混合专家（MoE）技术的模型。该模型在 16 x 3.8B MoE 模型使用 2 个专家仅激活了 66 亿个参数，并使用 512 个 H100 在 4.9T 标记上进行了训练。

微软研究团队从零开始设计该模型，以进一步提高其性能。在标准人工智能基准测试中，Phi-3.5-MoE 的性能超过了 Llama-3.1 8B、Gemma-2-9B 和 Gemini-1.5-Flash，并接近目前的领先者 GPT-4o-mini。

Phi-3.5-vision：增强型多帧图像理解

Phi-3.5-vision 共有 42 亿个参数，使用 256 个 A100 GPU 在 500B 标记上进行训练，现在支持多帧图像理解和推理。

Phi-3.5-vision 在 MMMU（从 40.2 提高到 43.0）、MMBench（从 80.5 提高到 81.9）和文档理解基准 TextVQA（从 70.9 提高到 72.0）上的性能均有提高。

Phi-3.5-mini：轻量级、强功能

Phi-3.5-mini 是一个 38 亿参数模型，超过了 Llama3.1 8B 和 Mistral 7B，甚至可媲美 Mistral NeMo 12B。

该模型使用 512 个 H100 在 3.4T 标记上进行了训练。该模型仅有 3.8B 个有效参数，与拥有更多有效参数的 LLMs 相比，在多语言任务中具有很强的竞争力。

此外，Phi-3.5-mini 现在支持 128K 上下文窗口，而其主要竞争对手 Gemma-2 系列仅支持 8K。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

微软发布 Phi-3.5 系列 AI 模型：上下文窗口 128K，首次引入混合专家模型

美国一市长候选人欲用 ChatGPT 治理城市，遭 OpenAI 封号

泡茶、弹琴、练咏春，星尘智能发布 AI 机器人助理 Astribot S1

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

美国一市长候选人欲用 ChatGPT 治理城市，遭 OpenAI 封号

泡茶、弹琴、练咏春，星尘智能发布 AI 机器人助理 Astribot S1

蛋糕快被OpenAI们分完了，AI初创公司陷融资困境

消息称微软将推出自研新 AI模型“MAI-1”，与谷歌、OpenAI 竞争

微软推出全新 Phi-3.5 系列 AI模型，击败谷歌、OpenAI等

微软Reading Coach上线 AI打造定制化阅读体验

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注