news 2026/4/16 17:03:10

深度解析:语音转换与数据增强的TTS前沿技术

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
深度解析:语音转换与数据增强的TTS前沿技术

在今年的声学、语音与信号处理国际会议(ICASSP)上,某中心的文本转语音(TTS)团队发表了四篇论文。这些论文均涉及语音转换(在保持韵律特征的同时将一种合成语音转换为另一种)、数据增强,或两者兼而有之。

该团队的研究对于某机构的语音助手至关重要,因为这是其与用户沟通的方式。其开发的模型也通过其云服务中的文本转语音服务向客户开放。

以下是对这四篇论文核心内容的概述:

1. 《语音过滤器:使用语音转换作为后处理模块进行少样本文本转语音说话人自适应》
本文针对少样本说话人自适应问题——即仅从少量训练样本中学习新的合成语音。论文将该问题重新定义为学习一个语音转换模型,该模型应用于高质量TTS模型的输出。这是对现有少样本TTS范式的概念性转变。

其核心思想是:对于少样本学习,将现有高质量TTS模型输出的语音谱图,适配到新的目标语音,比直接调整模型本身更容易。关键在于,“语音过滤器”是在TTS模型自身生成的合成数据上进行训练的。该TTS模型是时长可控的,这意味着输入文本会被编码以指示每个音素在输出语音中的持续时间。这使研究人员能够创建两个平行的训练数据语料库:一个由120位不同说话人的真实样本组成,另一个则是TTS模型生成的但时长与多说话人样本相匹配的合成语音。

语音过滤器在平行语料库上训练后,对于少样本学习,只需在新说话人数据上进行微调。实验表明,这种方法产生的语音质量与使用30倍数据训练的传统模型相当。

2. 《使用数据增强进行跨说话人风格迁移的文本转语音》
这篇论文展示了如何构建一个能够进行富有表现力语音合成的TTS模型,即使目标语音的唯一可用训练数据是中性语音。其思路是:首先训练一个语音转换模型,将其他语音中的富有表现力的语音样本转换为目标语音,然后将转换后的语音作为TTS模型的额外训练数据。

该TTS模型接收两个输入:文本序列和风格向量。在训练期间,文本序列传递给TTS模型,目标语音样本的谱图传递给一个参考编码器以产生风格嵌入。在推理时,虽然没有输入谱图,但研究人员证明可以通过向模型输入预先计算的风格嵌入来控制输出风格。

根据使用MUSHRA感知量表的人类评估,相对于基准模型,新模型在14位不同说话人上将合成语音与真实语音之间感知到的风格相似度差距平均缩小了58%。

3. 《针对低资源表达性文本转语音的分布增强》
本文考虑了缺乏新语音训练数据的情况。目标是通过置换现有样本的文本产生新的文本,并重新组合相应语音样本的片段来产生新的语音样本。这并未增加训练目标的声学多样性,但增加了训练输入的语言学多样性。

为确保合成的训练示例在句法上不会过于不连贯,研究人员为输入文本构建了句法分析树,然后在树之间交换句法上等效的分支。交换声学信号中相应部分需要文本和信号之间良好的对齐,这由现有的强制对齐模型完成。

为防止TTS模型对合成示例过度偏向,训练时还在输入中加入了一个特殊标记,用于指示两个现有样本被融合在一起的位置。模型将学习优先处理来自真实样本内部的音素序列,而非跨越融合样本边界的序列。在推理时,该标记的值在所有输入中均设为0。

人类评估表明,新模型在五个不同数据集上的语音输出质量均优于基准模型。

4. 《使用标准化流进行文本无关的非平行多对多语音转换》
在这篇论文中,某中心TTS团队将标准化流的概念(已广泛应用于TTS)应用于语音转换问题。与大多数深度学习模型一样,标准化流学习生成输入数据的向量表示的函数。不同之处在于,这些函数是可逆的,因此可以从表示中恢复输入。团队假设,保留更多输入信息将产生更好的语音转换,早期实验证实了这一假设。

该流程的输入包括源谱图、音素嵌入、说话人身份嵌入、声学信号的基本频率以及指示音频帧是否发声的标志。流程将输入映射到特定应用域中的音素频率分布。

通常,标准化流会从训练数据中同时学习分布和映射。但在这里,研究人员先在标准TTS任务上对流程进行预训练(该任务数据充足),以预先学习分布。由于流程是可逆的,只要其他模型输入(音素嵌入、说话人ID等)可用,表示空间中的向量就可以映射回一组源输入。为了使用标准化流进行语音转换,研究人员只需在此反向映射过程中替换说话人。

研究人员在两种实验设置下进行了检验:一种是语音转换模型同时接收文本序列和谱图作为输入,另一种是仅接收谱图。在后一种情况下,预训练的标准化流模型显著优于基准模型。直接从训练数据中学习音素分布的标准化流模型表现较差,这说明了预训练步骤的重要性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 14:49:19

生成式AI革新多模态信息检索技术

在过去的十年中,机器学习在很大程度上依赖于嵌入的概念:模型学习将输入数据转换为向量,使得向量空间中的几何关系蕴含语义信息。例如,在表示空间中嵌入位置相近的单词可能具有相似的含义。这种嵌入概念意味着一种直观的信息检索范…

作者头像 李华
网站建设 2026/4/16 12:15:20

5个实用的Python自动化脚本,提升效率必备

在日常工作与学习中,我们经常会遇到重复繁琐的任务,比如批量处理文件、自动整理数据、定时发送消息等。Python凭借其简洁的语法和丰富的第三方库,成为实现自动化的绝佳工具。本文将分享5个高频实用的Python自动化脚本,涵盖文件处理…

作者头像 李华
网站建设 2026/4/16 3:32:05

N端和C端序列测定

N端和C端序列测定N端和C端序列测定是指对蛋白质分子中氨基酸链的起始端(N端)和末端(C端)进行氨基酸序列分析的技术。蛋白质是由氨基酸通过肽键连接而成的长链分子,通常具有特定的生物功能。N端和C端序列决定了蛋白质的…

作者头像 李华
网站建设 2026/4/1 5:18:58

Docker镜像拉取难题破解:实用代理及配置指南

7牛AIPPT在版本发布过程中,常受困于Docker镜像拉取失败的问题,这一难题严重影响了发布效率。经过团队不懈探索与验证,我们整理出一批公共可用的Docker代理资源,结合不同环境的配置方法与使用技巧,形成这份实用指南&…

作者头像 李华