Stability AI开源音频生成模型Stable Audio Open,可生成47秒的立体声音频

最近,Stability AI 团队推出了一款全新的开源音频生成模型,名为 Stable Audio Open。这款模型的特别之处在于,它能够从文本提示生成时长可达47秒的立体声音频,采样率高达44.1kHz。

Stability AI开源音频生成模型Stable Audio Open,可生成47秒的立体声音频

与许多当前流行的音频生成模型不同,Stable Audio Open 的权重是开放的,这意味着任何人都可以查看、修改和扩展这个模型。这样的设计理念不仅推动了科学研究的进展,也为开发者提供了更多的可能性。更重要的是,这款模型只使用了获得 Creative Commons 许可的音频文件进行训练,这样不仅确保了数据的合法性,还避免了潜在的版权问题,体现了对道德数据使用的高度重视。

在技术架构方面,Stable Audio Open 采用了先进的架构,确保了文本转音频生成的高保真度。它可以生成高质量的立体声音频,这让用户能够享受到清晰且真实的声音体验。在训练过程中,模型接触了多种多样的音频样本,这也帮助它学习到了更丰富的音景,使得生成的音频更加真实多样。

此外,为了确保新模型的表现能与行业顶尖模型相媲美,开发团队进行了全面的性能评估。通过 FDopenl3这一关键评估指标,研究人员发现该模型在生成高质量音频方面表现不俗,与业界的其他优秀模型相当。这个对比研究进一步证明了 Stable Audio Open 的优越性和实用性。

Stable Audio Open 的推出不仅关注开放性和高质量的音频合成,还为研究者、艺术家和开发者提供了一个重要的工具。

 

声明:内容均采集自公开的网站等各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
头条资讯

扎克伯格:Llama 3.1有望成为开源AI的Linux

2024-7-24 8:51:02

资讯

Sakana AI 推出新模型,重现日本传统浮世绘艺术

2024-7-24 8:52:48

搜索