亚马逊开发出有史以来最大的文本转语音模型，展现“涌现能力”

亚马逊人工智能研究团队宣布开发了一个据称是史上最大的文本转语音模型，该模型拥有最多的参数，并使用了最大的训练数据集。研究人员已经在 arXiv 预印本服务器上发表了一篇论文，详细描述了模型的开发和训练过程。

近年来，像 ChatGPT 这样的“大型语言模型”凭借其智能回答问题和生成高级文本的能力而备受关注。然而，人工智能也在逐步融入其他主流应用领域。在这个新项目中，研究人员尝试通过增加参数数量和扩充训练数据集来提升文本转语音应用的能力。

据了解，这个名为“可扩展流式文本转语音模型”（BASE TTS）的新模型拥有 9.8 亿个参数，并使用 10 万小时的录音（来自公共网站）进行训练，其中大部分为英语语音。研究人员还向模型提供了其他语言的单词和短语示例，使其能够正确发音一些常见的表达，例如“au contraire” 和 “adios, amigo”。

亚马逊团队还测试了使用较小数据集的模型，希望能从中发现人工智能领域所说的“涌现能力”。这种能力是指人工智能应用，无论是大型语言模型还是文本转语音模型，突然突破到更高智能水平的现象。他们发现，对于文本转语音应用而言，这种飞跃发生在参数量达到 1.5 亿的中型数据集上。

研究人员还指出，这种飞跃涉及一系列语言属性，例如使用复合名词、表达情感、使用外语词、应用语音学和标点符号以及正确强调句子中的关键词等能力。

研究团队表示，出于对潜在滥用风险的担忧，BASE TTS 将不会向公众开放，他们计划将其作为学习应用，并期望将学到的知识应用于改善文本转语音应用的整体音质。

声明：内容来源公开的各类媒体平台，若收录的内容侵犯了您的权益，请联系邮箱，本站将第一时间处理。

亚马逊开发出有史以来最大的文本转语音模型，展现“涌现能力”

阿尔特曼要融 8 万亿美元重塑 AI 芯片行业，“硅仙人”：我来做，不到 1 万亿就能搞定

耳机也支持实时翻译了，三星在印度向 Galaxy Buds 2 / Pro 等推送 Galaxy AI

AI微博

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai抖音

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

1ai微信

每天五分钟

一年变大神

扫码关注

相关内容：

阿尔特曼要融 8 万亿美元重塑 AI 芯片行业，“硅仙人”：我来做，不到 1 万亿就能搞定

耳机也支持实时翻译了，三星在印度向 Galaxy Buds 2 / Pro 等推送 Galaxy AI

消息称亚马逊投资数百万美元培训巨大AI模型“Olympus”

亚马逊发布生成式 AI 助手 Amazon Q，功能强大易用

亚马逊推出“侦探”项目：AI 火眼金睛确保商品发货前无瑕疵

亚马逊收购AI初创公司Adept技术，创始人加入团队

请输入验证码

....支付确认中....

AI应用

5000+AI应用！每日更新

1AICLUB

强烈推荐！官方品牌微博

AI教程

海量教程看不完

AI基础训练营

零基础入门，带你成为AI高手

1ai大神

抖音号：1ai.net

1ai大神

抖音号：1ai.net

每天五分钟

一年变大神

扫码关注