阿里开源Qwen2.5-Omni,7B参数,采用多模式感知设计

阿里发布多模态大模型Qwen2.5-Omni,采用Apache 2.0许可证开源7B参数版本,支持文本、图像、音频和视频多模态输入输出;创新设计Thinker-Talker架构实现实时语音视频聊天,并提出TMRoPE技术同步视频与音频时间戳,适合手机等终端设备部署;模型性能超越同等大小的单模态模型,在OmniBench等多模态任务中达到领先水平,语音生成展现较好稳健性和自然性。

搜索