Qwen2-Audio：千问系列的音频多模态模型无需文字即可语音交互

阿里云最新发布了一名为 Qwen-Audio 的大规模音频语言型，该模型可接受多种音频信号输入，够进行音频分析或直接回答语音指令极大地提升了语音交互体验。

在此次发布中，Qwen2udio 提供了两种独特的音交互模式:音聊天和音频分析。用户无需输入文字即与 Qwen2-Audio 进行语音交，同时还可以交互中提供音频和文本令进行分析为用户带来更便捷的体验。

Qwen2-Audio能够智能地理解音频中的内容，并按照语音命令做出适当的响应。例如，在同时包含声音、多扬声器对话和语音命令的音频段中，Qwen2-Audio 可以直接理解该命令并提供对音频的解释和响应。

此外，DPO 还优化了模型在事实性和对期望行为的遵守方面的性能。根据AIR-Bench的评估结果，Qwen2-Audio在专注于以音频为中心的指令跟踪功能的测试中，优于以前的SOTA，如Gemini-1.5-pro。Qwen2-Audio是开源的，旨在促进多模态语言社区的进步。

据了解，Qwen2-Audio 系列将推出两款型号:Qwen2-Audio 和 Qwen-Audio-Chat，为用户提供更丰富的音频互体验。

研究人员将对 Qwen2-Audio 模型进行全面评估，评估其在各种任务中的性能，而无需进行任何特定于任务的微调。英语自动语音识别（ASR）结果方面，其中Qwen2-Audio与以前的多任务学习模型相比表现出更高的性能。

Qwen2-Audio的聊天能力方面，研究人员在AIR-Bench的聊天基准上测量了其性能（Yang et al.，2024），Qwen2-Audio 展示了跨语音、声音音乐和混合音频子集的最先进的 (SOTA) 指令跟踪功能。与 Qwen-Audio 相比，它显示出实质性的改进，并且显着优于其他 LALM。

声明：内容均采集自公开的网站等各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

Qwen2-Audio：千问系列的音频多模态模型无需文字即可语音交互

苹果、英伟达等科技公司被曝未经许可使用YouTube视频训练AI

OpenAI 推出 AI 模型 GPT-4o mini，号称功能最强、成本效益最高的小模型

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

苹果、英伟达等科技公司被曝未经许可使用YouTube视频训练AI

OpenAI 推出 AI 模型 GPT-4o mini，号称功能最强、成本效益最高的小模型

阿里云通义千问 2.5 大模型发布，号称“多项能力赶超 GPT-4”

小米小爱同学与阿里云通义大模型合作 成果已在小米汽车等落地

阿里云 CTO 周靖人：通义开源模型下载量破 2000 万，坚定拥抱开源

阿里云通义千问开源两款语音基座模型，识别效果优于 OpenAI Whisper

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

小米小爱同学与阿里云通义大模型合作成果已在小米汽车等落地