-
OpenAI 发布新一代语音模型,让 AI 智能体语音表达更自然
3 月 21 日消息,OpenAI 昨日(3 月 20 日)发布博文,宣布推出语音转文本(speech-to-text)和文本转语音(text-to-speech)模型,提升语音处理能力,支持开发者构建更精准、可定制的语音交互系统,进一步推动人工智能语音技术的商业化应用。 在语音转文本模型上,OpenAI 主要推出了 gpt-4o-transcribe 和 gpt-4o-mini-transcri…- 768
-
MiniMax 海螺语音 AI 产品上线:支持 17 种语言生成,最长可输入多达 10000 字符
1 月 21 日消息,MiniMax 昨日宣布,带来全新升级的 T2A-01 系列语音模型,并全球同步上线海螺语音产品。 据介绍,依托于 T2A-01 系列语音模型,用户在海螺AI 仅需输入文字即可生成自然、流畅的超拟人人声,最长可输入多达 10000 字符。与此同时,用户可以根据需要自由配置输出语音的情绪、语速、音高,甚至调整音色效果,满足复杂场景的精细化需求。 1AI注意到,海螺语音支持中文、…- 1.9k
-
智谱清言上线情感语音模型 GLM-4-Voice:可理解情感,有情绪表达和共鸣
智谱宣布上线 GLM-4-Voice 端到端情感语音模型。官方表示,其能够理解情感,有情绪表达、情感共鸣,可自助调节语速,支持多语言和方言,并且延时更低、可随时打断,用户即日起可在“智谱清言”App 上体验。 据介绍,GLM-4-Voice 具备如下特点: 情感表达和情感共鸣:声音有不同的情感和细腻的变化,如高兴、悲伤、生气、害怕等。 调节语速:在同一轮对话中,可以要求 TA 快点说 or 慢点说…- 7.6k
-
阿里巴巴发布新语音模型 Qwen2-Audio,实力超越 OpenAI Whisper
近日,阿里巴巴在其 Qwen-Audio 的基础上,推出了全新的开源语音模型 Qwen2-Audio。这款模型不仅在语音识别、翻译和音频分析方面表现出色,更是在功能和性能上实现了显著提升。Qwen2-Audio 提供了基础版和指令微调版,用户可以通过语音对音频模型提问,并识别和分析内容。 比如,用户可以让某位女性说一段话,Qwen2-Audio 可以判断她的年龄或分析她的情绪;如果输入一段嘈杂的声…- 9.7k
-
宣称超过XTTS!VoiceCraft:一个支持克隆语音及修改原始音频文本的语音模型
近日,一款名为VoiceCraft的语音模型引起了业界的广泛关注。据官方宣称,该模型的性能已经超过了XTTS,这无疑为AI音频处理领域带来了新的突破。 项目地址:https://github.com/jasonppy/VoiceCraft VoiceCraft的最大亮点在于其强大的音频克隆能力。用户只需提供一段原始音频,VoiceCraft就能通过深度学习技术,复制出与原音频声音极为相似的新音频,…- 3.7k