Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

Stability AI 立足 Stable Diffusion 文生图模型，进一步向音频领域拓展，推出了 Stable Audio Open，可以基于用户输入的提示词，生成高质量音频样本。

Stable Audio Open 最长可以创建 47 秒的音乐，非常适合鼓点、乐器旋律、环境音和拟声音效，该开源模型基于 transforms 扩散模型（DiT），在自动编码器的潜在空间中操作，提高生成音频的质量和多样性。

Stable Audio Open 目前已经开源，IT之家附上相关链接，感兴趣的用户可以在 HuggingFace 上试用。据说它使用了来自 FreeSound 和 Free Music Archive 等音乐库的 486000 多种采样进行训练。

Stability AI 公司表示：“虽然它可以生成简短的音乐片段，但并不适合完整的歌曲、旋律或人声”。

Stable Audio Open 和 Stable Audio 2.0 不同是，前者为开源模型，专注于短音频片段和音效，而后者能够生成最长 3 分钟的完整音频。

声明：内容均采集自公开的网站等各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

腾讯混元文生图开源大模型加速库发布：生图时间缩短 75%

OPPO 今年计划让约 5 千万用户的手机搭载生成式 AI，海外机型将接入谷歌 Gemini 大模型

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

腾讯混元文生图开源大模型加速库发布：生图时间缩短 75%

OPPO 今年计划让约 5 千万用户的手机搭载生成式 AI，海外机型将接入谷歌 Gemini 大模型

​Stability AI发布AI音频模型Stable Audio Open：支持文本生成鼓点、乐器等音效

Stability AI开源音频生成模型Stable Audio Open，可生成47秒的立体声音频

迎战 OpenAI Dall-E 3，Stable Diffusion 3 开启邀测：扩展 8 亿-80 亿不同参数

无需提示词，Stability AI 演示 MindEye：目标想什么就能生成什么

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

Stability AI发布AI音频模型Stable Audio Open：支持文本生成鼓点、乐器等音效