阿里云最新发布了一名为 Qwen-Audio 的大规模音频语言型,该模型可接受多种音频信号输入,够进行音频分析或直接回答语音指令极大地提升了语音交互体验。
在此次发布中,Qwen2udio 提供了两种独特的音交互模式:音聊天和音频分析。用户无需输入文字即与 Qwen2-Audio 进行语音交,同时还可以交互中提供音频和文本令进行分析为用户带来更便捷的体验。
Qwen2-Audio能够智能地理解音频中的内容,并按照语音命令做出适当的响应。例如,在同时包含声音、多扬声器对话和语音命令的音频段中,Qwen2-Audio 可以直接理解该命令并提供对音频的解释和响应。
此外,DPO 还优化了模型在事实性和对期望行为的遵守方面的性能。根据AIR-Bench的评估结果,Qwen2-Audio在专注于以音频为中心的指令跟踪功能的测试中,优于以前的SOTA,如Gemini-1.5-pro。Qwen2-Audio是开源的,旨在促进多模态语言社区的进步。
据了解,Qwen2-Audio 系列将推出两款型号:Qwen2-Audio 和 Qwen-Audio-Chat,为用户提供更丰富的音频互体验。
研究人员将对 Qwen2-Audio 模型进行全面评估,评估其在各种任务中的性能,而无需进行任何特定于任务的微调。英语自动语音识别(ASR)结果方面,其中Qwen2-Audio与以前的多任务学习模型相比表现出更高的性能。
Qwen2-Audio的聊天能力方面,研究人员在AIR-Bench的聊天基准上测量了其性能(Yang et al.,2024),Qwen2-Audio 展示了跨语音、声音音乐和混合音频子集的最先进的 (SOTA) 指令跟踪功能。与 Qwen-Audio 相比,它显示出实质性的改进,并且显着优于其他 LALM。