news 2026/6/10 15:13:03

文本转语音技术演进:让计算机拥有自然声音

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
文本转语音技术演进:让计算机拥有自然声音

生成听起来自然、类人的语音,是科学家们数十年的目标。

计算机生成的合成语音正变得越来越普遍。流行语音服务Alexa已响应客户问题和请求超过五年,现在可以在某中心和第三方设备制造商的数亿台设备上使用。其他企业也在利用计算机生成语音来处理客户服务电话、营销产品等。

语言和语音极其复杂。单词有意义,单词的上下文、背后的情感以及听者的反应也有意义。口语的微妙之处似乎超出了最复杂计算机的能力范围。但近年来,文本转语音技术的进步——计算机将单词序列转换为听起来自然、清晰的音频响应的能力——使得计算机听起来更像人。

某中心的科学家和工程师正在帮助开辟一个新时代,在这个时代,计算机听起来不仅友好、知识渊博,而且能够预测话语的情感可能对普通听者产生的影响,并以类人的语调做出回应。

该领域的一场革命发生在2016年,当时推出了生成原始音频的技术WaveNet。由位于伦敦的人工智能公司DeepMind的研究人员创建,该技术可以使用经过真实语音录音训练的神经网络生成逼真的语音。

“这项早期研究表明,一种新的机器学习方法提供了同等或更高的质量以及更大的灵活性潜力,”剑桥TTS研究团队的高级经理Andrew Breen说。

模仿人类神经系统的神经网络,是简单但紧密互连的处理节点网络。通常,这些节点被排列成层,每层的输出传递到上一层。层之间的连接具有相关的“权重”,这些权重决定了一个节点的输出对下一个节点执行的计算贡献多少。

结合机器学习,神经网络加速了改进计算机语音的进程。“这真的是一场发明的淘金热,”Breen说。

生成听起来自然、类人的语音是科学家们几十年来的目标。在20世纪30年代,贝尔实验室科学家Homer Dudley开发了Voder,一种原始的合成语音机器,操作员像弹钢琴键盘一样操作它——只不过出来的不是音乐,而是刺耳的机械声音。在20世纪80年代,由数字设备公司开发的名为DECTalk的计算机TTS应用程序已经发展到已故的斯蒂芬·霍金可以使用它的版本,配上键盘来“说话”。结果是听起来人造但可理解的词语,许多人仍然将其与一台会说话的机器联系在一起。

到21世纪初,更准确的语音合成变得普遍。当时最主要的方法是:混合单元拼接。例如,某中心在2015年之前一直使用这种方法来构建Alexa语音的早期版本,或将语音功能构建到Fire平板电脑等产品中。某中心TTS小组的首席产品经理Nikhil Sharma说:“为了创建一些早期的Alexa语音,我们与配音演员在录音室工作了数小时,让他们说出各种各样的短语。我们将这些语音数据分解成单个双音素(单个双音素是两个音素各一半的组合,音素是声音的独特单位),并将其放入大型音频数据库中。然后,当有生成语音的请求时,我们可以从该数据库中选取最佳的双音素进行拼接,形成Alexa说出的句子。”

这个过程效果相当不错。但混合单元拼接有其局限性。它需要大量专业配音演员预先录制的声音作为参考——有点像游客不停地翻阅一本厚厚的法语书来查找特定的短语。“正因为如此,我们真的不能说混合单元拼接系统‘学会了’一种语言,”Breen说。

创建一个真正学习语言——不仅仅是记忆短语——的计算机成为研究人员的目 标。“那一直是圣杯,但没人知道怎么做,”Breen说。“我们很接近,但存在一个质量上限,限制了其可行性。”

神经网络提供了一种实现这一目标的方法。2018年,某中心的科学家证明,通过使用生成神经网络方法来创建合成语音,他们可以产生听起来自然的语音。使用生成神经网络方法,Alexa还可以根据特定内容灵活调整说话方式。例如,某中心的科学家仅用几个小时的训练数据就创建了Alexa的新闻播报风格语音,让顾客能够听到他们习惯的风格播报的新闻。这一进展为Alexa和其他某中心服务在不同语境中采用不同说话风格铺平了道路,改善了客户体验。

某中心最近宣布了一项名为Brand Voice的新Amazon Polly功能,该功能为组织提供了与Amazon Polly人工智能研究科学家和语言学家团队合作的机会,以构建一个独特、高质量、代表其品牌形象的神经TTS语音。早期采用者肯德基加拿大公司和澳大利亚国民银行已利用该服务各自创建了两个独特的品牌语音,这些语音利用了支持Alexa语音的相同深度学习技术。

Amazon Polly是一项将文本转换为逼真语音的AWS服务,允许客户构建全新的语音产品类别。Polly提供了数十种跨多种语言的逼真语音,允许客户构建可在许多不同国家工作的语音应用程序。

展望未来,某中心的研究人员正致力于教导计算机理解一组词语的含义,并使用适当的情感说出这些词语。“如果我给计算机一篇新闻文章,它会合理地渲染文章中的词语,”Breen说。“但它缺少了一些东西。缺少的是对文章内容的理解,无论是好消息还是坏消息,以及焦点是什么。它缺乏那种直觉。”

这种情况正在改变。现在,可以教计算机用不同种类的语调说同一个句子。未来,它们有可能仅仅基于词语的上下文或词语本身,就能识别出应该如何说这些词。“我们希望计算机对环境和对听者敏感,并相应地进行调整,”Breen说。

TTS有众多潜在应用,从客户服务和远程学习到新闻文章叙述。推动这项技术的改进是某中心科学家和工程师正在采取的一种方法,旨在为Alexa客户以及全球的组织创造更好的体验。

“Alexa能够根据客户请求的上下文调整其说话风格,这为提供以前无法想象的新奇而愉快的体验开辟了可能性,”Breen说。“这真的是令人兴奋的时代。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 14:50:50

企业级AI定制服务新思路:基于lora-scripts构建私有化模型

企业级AI定制服务新思路:基于lora-scripts构建私有化模型 在品牌竞争日益激烈的今天,一家设计公司接到了一个紧急需求:为某科技客户打造一套“赛博朋克东方美学”融合风格的宣传视觉体系。传统做法是设计师手动调整上百张图,耗时两…

作者头像 李华
网站建设 2026/6/10 14:50:50

git commit签名验证确保lora-scripts代码来源可信

用 Git Commit 签名构建可信的 lora-scripts 开发链 在 AI 模型微调工具日益普及的今天,一个看似不起眼的训练脚本变更,可能悄然改变整个模型的行为逻辑。比如,在 lora-scripts 中仅修改一行学习率调度配置,就可能导致模型收敛失败…

作者头像 李华
网站建设 2026/6/10 14:52:59

强烈安利10个AI论文平台,专科生毕业论文写作必备!

强烈安利10个AI论文平台,专科生毕业论文写作必备! AI 工具如何助力专科生轻松应对论文写作 在当今学术写作日益数字化的背景下,AI 工具已经成为许多学生不可或缺的助手。对于专科生而言,毕业论文写作不仅是一项挑战,更…

作者头像 李华
网站建设 2026/6/10 13:11:04

chromedriver下载地址环境变量配置简化lora-scripts测试流程

chromedriver下载地址环境变量配置简化lora-scripts测试流程 在生成式人工智能快速演进的当下,越来越多开发者和创作者希望借助 LoRA(Low-Rank Adaptation)技术对 Stable Diffusion 或大语言模型进行轻量化微调。然而,从数据准备…

作者头像 李华
网站建设 2026/6/10 14:57:38

C++26 std::future重大升级(结果传递革命性优化)

第一章:C26 std::future 结果传递概述 C26 对 std::future 的结果传递机制进行了重要增强,旨在提升异步编程的效率与可组合性。新标准引入了更灵活的链式回调支持和零拷贝结果传递能力,使开发者能够以声明式方式构建复杂的异步任务流水线。 …

作者头像 李华
网站建设 2026/6/5 13:06:08

社交媒体文案风格统一:品牌传播中的AI助手角色定位

社交媒体文案风格统一:品牌传播中的AI助手角色定位 在今天这个信息爆炸的社交媒体时代,用户每天被成千上万条内容包围。但真正能留下印象的,往往是那些语气熟悉、调性一致的品牌声音——就像老朋友发来的一条消息,亲切又可信。 然…

作者头像 李华