Groq上线whisper-large-v3模型,支持语音转录和翻译、免费开放

Groq 最新上线了 Whisper Large-V3模型,用户可以在 Playground 或本地项目中使用 API,实现语音转录和翻译功能。该模型支持多种语言的转录,转录速度极快,且支持将其他语言翻译成英文。

Groq上线whisper-large-v3模型,支持语音转录和翻译、免费开放

Playground链接:https://console.groq.com/playground

目前,用户可以在 Playground 上体验并免费使用该功能,转录一段4分30秒的视频只需要大约3秒的时间。同时,Groq 还提供了 API 接口,用户可以在本地项目中集成使用。

Whisper API的接口设计遵循了与OpenAI的兼容性标准,为用户提供了两个核心功能的访问路径:语音转文本和语音翻译。用户可以轻松地将这些功能集成到自己的应用程序中,无论是开发智能助手还是自动化翻译系统,都能享受到便捷的开发体验。

在性能方面,Whisper API采用了先进的"whisper-large-v3"模型,确保了在语音转文本和翻译任务中的顶尖性能。

此外,API对音频文件的格式和大小也有明确的支持标准,包括mp3、mp4、wav等常见格式,但要求文件大小不超过25MB。特别值得注意的是,对于包含多个音轨的文件,Whisper API将仅处理第一个音轨,这要求用户在上传前进行适当的音频预处理。

为了提高转录的质量和效率,Whisper API在服务端会对音频进行下采样处理,降至16,000Hz的单声道。Groq推荐用户在客户端完成这一预处理步骤,这不仅有助于减小文件体积,还能使得更长的音频文件得以上传和处理。

API 接口:

语音转文本:https://api.groq.com/openai/v1/audio/transcriptions

语音翻译:https://api.groq.com/openai/v1/audio/translations

声明:内容均采集自公开的网站等各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
资讯

腾讯元宝AI搜索解析能力升级 支持千万字超长文处理

2024-6-21 9:52:51

资讯

德国研究团队发布新 AI模型,可根据网球运动员肢体语言识别情绪

2024-6-22 9:26:41

搜索