阿里巴巴发布新语音模型 Qwen2-Audio，实力超越 OpenAI Whisper

近日，阿里巴巴在其 Qwen-Audio 的基础上，推出了全新的开源语音模型 Qwen2-Audio。这款模型不仅在语音识别、翻译和音频分析方面表现出色，更是在功能和性能上实现了显著提升。Qwen2-Audio 提供了基础版和指令微调版，用户可以通过语音对音频模型提问，并识别和分析内容。

比如，用户可以让某位女性说一段话，Qwen2-Audio 可以判断她的年龄或分析她的情绪;如果输入一段嘈杂的声音，模型则能分析出其中的各种声音成分。Qwen2-Audio 支持包括中文、粤语、法语、英语和日语在内的多种语言，这为情感分析和翻译应用的开发提供了很大的便利。

产品入口:https://top.aibase.com/tool/qwen2-audio

相较于第一代的 Qwen-Audio，Qwen2-Audio 在架构和性能上进行了全面优化。在预训练阶段，这款新模型采用了更为自然的语言提示，替代了之前的复杂分层标签。这一改进让模型在理解和响应各种任务时更加得心应手，泛化能力也得到了显著提升。

Qwen2-Audio 的指令跟随能力也大幅提高，能够更加准确地理解用户指令。例如，当用户发出 “分析这段音频中的情感倾向” 的指令时，Qwen2-Audio 可以精准判断音频中所蕴含的情感。此外，该模型引入了语音聊天和音频分析两种模式，让用户的语音交互更加自然。在音频分析模式下，Qwen2-Audio 能够深入分析各种类型的音频，并提供详尽准确的分析结果。

为了确保模型的输出符合人类的期望，Qwen2-Audio 还引入了监督式微调和直接偏好优化等先进技术。在与人类交互时，模型显得更加自然和精准。

在性能测试方面，Qwen2-Audio 在多个主流基准测试中表现优异，尤其是在语音识别和翻译的准确性上，超越了 OpenAI 的 Whisper-large-v3。这款新模型的表现不仅在业内引发了广泛关注，也预示着语音技术的新未来。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

阿里巴巴发布新语音模型 Qwen2-Audio，实力超越 OpenAI Whisper

Anthropic 扩大漏洞奖励计划，测试下一代AI安全系统

北京航空航天大学发布“小航”AI 助手：200 PFlops 算力、12PB 存储能力

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

Anthropic 扩大漏洞奖励计划，测试下一代AI安全系统

北京航空航天大学发布“小航”AI 助手：200 PFlops 算力、12PB 存储能力

消息称阿里巴巴正打造 AI 电商产品“绘蛙”

阿里巴巴开源 1100 亿参数 Qwen1.5-110B 模型，与 Meta Llama3-70B 相媲美

阿里巴巴将推出人工智能对话式采购引擎，预计 9 月发布

阿里新语音技术CosyVoice让AI说话更有人味儿

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注