文本转语音技术演进：让计算机拥有自然声音-编程阁

生成听起来自然、类人的语音，是科学家们数十年的目标。

计算机生成的合成语音正变得越来越普遍。流行语音服务Alexa已响应客户问题和请求超过五年，现在可以在某中心和第三方设备制造商的数亿台设备上使用。其他企业也在利用计算机生成语音来处理客户服务电话、营销产品等。

语言和语音极其复杂。单词有意义，单词的上下文、背后的情感以及听者的反应也有意义。口语的微妙之处似乎超出了最复杂计算机的能力范围。但近年来，文本转语音技术的进步——计算机将单词序列转换为听起来自然、清晰的音频响应的能力——使得计算机听起来更像人。

某中心的科学家和工程师正在帮助开辟一个新时代，在这个时代，计算机听起来不仅友好、知识渊博，而且能够预测话语的情感可能对普通听者产生的影响，并以类人的语调做出回应。

该领域的一场革命发生在2016年，当时推出了生成原始音频的技术WaveNet。由位于伦敦的人工智能公司DeepMind的研究人员创建，该技术可以使用经过真实语音录音训练的神经网络生成逼真的语音。

“这项早期研究表明，一种新的机器学习方法提供了同等或更高的质量以及更大的灵活性潜力，”剑桥TTS研究团队的高级经理Andrew Breen说。

模仿人类神经系统的神经网络，是简单但紧密互连的处理节点网络。通常，这些节点被排列成层，每层的输出传递到上一层。层之间的连接具有相关的“权重”，这些权重决定了一个节点的输出对下一个节点执行的计算贡献多少。

结合机器学习，神经网络加速了改进计算机语音的进程。“这真的是一场发明的淘金热，”Breen说。

生成听起来自然、类人的语音是科学家们几十年来的目标。在20世纪30年代，贝尔实验室科学家Homer Dudley开发了Voder，一种原始的合成语音机器，操作员像弹钢琴键盘一样操作它——只不过出来的不是音乐，而是刺耳的机械声音。在20世纪80年代，由数字设备公司开发的名为DECTalk的计算机TTS应用程序已经发展到已故的斯蒂芬·霍金可以使用它的版本，配上键盘来“说话”。结果是听起来人造但可理解的词语，许多人仍然将其与一台会说话的机器联系在一起。

到21世纪初，更准确的语音合成变得普遍。当时最主要的方法是：混合单元拼接。例如，某中心在2015年之前一直使用这种方法来构建Alexa语音的早期版本，或将语音功能构建到Fire平板电脑等产品中。某中心TTS小组的首席产品经理Nikhil Sharma说：“为了创建一些早期的Alexa语音，我们与配音演员在录音室工作了数小时，让他们说出各种各样的短语。我们将这些语音数据分解成单个双音素（单个双音素是两个音素各一半的组合，音素是声音的独特单位），并将其放入大型音频数据库中。然后，当有生成语音的请求时，我们可以从该数据库中选取最佳的双音素进行拼接，形成Alexa说出的句子。”

这个过程效果相当不错。但混合单元拼接有其局限性。它需要大量专业配音演员预先录制的声音作为参考——有点像游客不停地翻阅一本厚厚的法语书来查找特定的短语。“正因为如此，我们真的不能说混合单元拼接系统‘学会了’一种语言，”Breen说。

创建一个真正学习语言——不仅仅是记忆短语——的计算机成为研究人员的目标。“那一直是圣杯，但没人知道怎么做，”Breen说。“我们很接近，但存在一个质量上限，限制了其可行性。”

神经网络提供了一种实现这一目标的方法。2018年，某中心的科学家证明，通过使用生成神经网络方法来创建合成语音，他们可以产生听起来自然的语音。使用生成神经网络方法，Alexa还可以根据特定内容灵活调整说话方式。例如，某中心的科学家仅用几个小时的训练数据就创建了Alexa的新闻播报风格语音，让顾客能够听到他们习惯的风格播报的新闻。这一进展为Alexa和其他某中心服务在不同语境中采用不同说话风格铺平了道路，改善了客户体验。

某中心最近宣布了一项名为Brand Voice的新Amazon Polly功能，该功能为组织提供了与Amazon Polly人工智能研究科学家和语言学家团队合作的机会，以构建一个独特、高质量、代表其品牌形象的神经TTS语音。早期采用者肯德基加拿大公司和澳大利亚国民银行已利用该服务各自创建了两个独特的品牌语音，这些语音利用了支持Alexa语音的相同深度学习技术。

Amazon Polly是一项将文本转换为逼真语音的AWS服务，允许客户构建全新的语音产品类别。Polly提供了数十种跨多种语言的逼真语音，允许客户构建可在许多不同国家工作的语音应用程序。

展望未来，某中心的研究人员正致力于教导计算机理解一组词语的含义，并使用适当的情感说出这些词语。“如果我给计算机一篇新闻文章，它会合理地渲染文章中的词语，”Breen说。“但它缺少了一些东西。缺少的是对文章内容的理解，无论是好消息还是坏消息，以及焦点是什么。它缺乏那种直觉。”

这种情况正在改变。现在，可以教计算机用不同种类的语调说同一个句子。未来，它们有可能仅仅基于词语的上下文或词语本身，就能识别出应该如何说这些词。“我们希望计算机对环境和对听者敏感，并相应地进行调整，”Breen说。

TTS有众多潜在应用，从客户服务和远程学习到新闻文章叙述。推动这项技术的改进是某中心科学家和工程师正在采取的一种方法，旨在为Alexa客户以及全球的组织创造更好的体验。

“Alexa能够根据客户请求的上下文调整其说话风格，这为提供以前无法想象的新奇而愉快的体验开辟了可能性，”Breen说。“这真的是令人兴奋的时代。”
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

文本转语音技术演进：让计算机拥有自然声音

企业级AI定制服务新思路：基于lora-scripts构建私有化模型

git commit签名验证确保lora-scripts代码来源可信

强烈安利10个AI论文平台，专科生毕业论文写作必备！

chromedriver下载地址环境变量配置简化lora-scripts测试流程

C++26 std::future重大升级（结果传递革命性优化）

社交媒体文案风格统一：品牌传播中的AI助手角色定位