Stability AI开源音频生成模型Stable Audio Open，可生成47秒的立体声音频

最近，Stability AI 团队推出了一款全新的开源音频生成模型，名为 Stable Audio Open。这款模型的特别之处在于，它能够从文本提示生成时长可达47秒的立体声音频，采样率高达44.1kHz。

与许多当前流行的音频生成模型不同，Stable Audio Open 的权重是开放的，这意味着任何人都可以查看、修改和扩展这个模型。这样的设计理念不仅推动了科学研究的进展，也为开发者提供了更多的可能性。更重要的是，这款模型只使用了获得 Creative Commons 许可的音频文件进行训练，这样不仅确保了数据的合法性，还避免了潜在的版权问题，体现了对道德数据使用的高度重视。

在技术架构方面，Stable Audio Open 采用了先进的架构，确保了文本转音频生成的高保真度。它可以生成高质量的立体声音频，这让用户能够享受到清晰且真实的声音体验。在训练过程中，模型接触了多种多样的音频样本，这也帮助它学习到了更丰富的音景，使得生成的音频更加真实多样。

此外，为了确保新模型的表现能与行业顶尖模型相媲美，开发团队进行了全面的性能评估。通过 FDopenl3这一关键评估指标，研究人员发现该模型在生成高质量音频方面表现不俗，与业界的其他优秀模型相当。这个对比研究进一步证明了 Stable Audio Open 的优越性和实用性。

Stable Audio Open 的推出不仅关注开放性和高质量的音频合成，还为研究者、艺术家和开发者提供了一个重要的工具。

声明：内容均采集自公开的网站等各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

{{userData.name}}已认证

Stability AI开源音频生成模型Stable Audio Open，可生成47秒的立体声音频

扎克伯格：Llama 3.1有望成为开源AI的Linux

Sakana AI 推出新模型，重现日本传统浮世绘艺术

AI微博

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

{{userData.name}}已认证

相关内容：

扎克伯格：Llama 3.1有望成为开源AI的Linux

Sakana AI 推出新模型，重现日本传统浮世绘艺术

Stability AI开源SD 3：6月12日可下载 不可商用

​Stability AI发布AI音频模型Stable Audio Open：支持文本生成鼓点、乐器等音效

Stable Diffusion3开源商用协议，将开源更大版本模型

Stability AI推新AI模型Stable Fast 3D：半秒内生成3D图像 速度提升1200倍

AI应用

5000+AI应用！每日更新

AIAICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注

Stability AI开源SD 3：6月12日可下载不可商用

Stability AI发布AI音频模型Stable Audio Open：支持文本生成鼓点、乐器等音效

Stability AI推新AI模型Stable Fast 3D：半秒内生成3D图像速度提升1200倍