news 2026/6/10 15:41:39

Interspeech 2022:跨学科研究的融合与演进

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Interspeech 2022:跨学科研究的融合与演进

Interspeech 2022:跨学科研究的增长

循环训练语音合成与语音识别模型、利用语言理解来改善语音韵律,这些只是语音相关领域交叉融合的几个例子。


当 Penny Karanasou 在 2010 年首次于 Interspeech 上发表论文时,她还是一名计算机科学的博士生,论文主题是自动语音识别。六年后,她加入了某中心,成为自然语言理解小组的一员。在过去的两年半里,她一直从事文本到语音的研究工作,最近担任高级应用科学家。因此,她对 Alexa 的三大核心技术都有亲身体验。

她也与 Interspeech 有着深厚的渊源。今年的会议是她第二次担任程序委员会的分区主席,也是她第七次主持会议环节。考虑到她在对话式 AI 领域广泛的经验,最令她着迷的领域趋势之一是自动语音识别、自然语言理解和文本到语音之间日益增长的重叠,这或许是很自然的。

“近年来,随着新开发的神经技术,我们开始看到不同语音领域之间有越来越多的重叠和协同作用,”Karanasou 说,“一个方向是实际上可以将 TTS 用于 ASR,即使用 TTS 系统生成合成数据进行数据增强。在英语中,我们可能需要特定领域的数据,或用于词汇表外单词的数据,或用于数据分布长尾中不常见示例的数据。但这也是低资源语言的一种有用方法。”

“另一种结合 ASR 和 TTS 的方法是使用半监督学习来改进两个系统的联合训练。你从数据开始,然后以循环方式训练。你训练一个系统,并用其输出来训练另一个。然后使用某种置信度指标或其他选择方法来选择保留的数据进行新一轮训练。进行这种循环训练实际上可以改善两个任务。”

“近年来我们观察到的另一件事是,两个领域有共同的方法。在 TTS 和 ASR 中,整个社区都在朝着全神经端到端系统发展。我们还看到上下文的加入,以实现长格式的 ASR 和 TTS。因此,不仅仅关注一个句子,而是考虑对话中先前所说的更多上下文——或任何类型的上下文。”

语言理解与语音

“我认为这也是 NLU 产生影响的地方,”Karanasou 说,“随着所有这些语言模型的出现——比如最著名的 BERT——我们看到 NLU 被整合到语音领域中。我们看到 BERT 被用于 TTS 和 ASR 论文中,为系统添加更多上下文及句法和语义信息。例如,通过正确的句法和语义信息,我们也可以在 TTS 中获得更好的韵律。”

正如 Karanasou 所解释的,像 BERT 这样的语言模型在 NLU 中的成功本身也是学科间交叉融合的一个例子。语言模型对单词序列的概率进行编码,而一个单词与其他单词的共现被证明是其含义的良好指标。但在它们被引入 NLU 之前,语言模型早已被用于 ASR 中,以区分相同声音序列的不同解释(一个经典的例子是 “Pulitzer Prize” 和 “pullet surprise”)。

“我们有为 ASR 开发的语言模型,”Karanasou 说,“突然间,基于 Transformer 架构的 BERT 出现了,现在被用于编码器、解码器和其他模块,而且效果要好得多。”

Interspeech 一直都有关于 ASR 和 TTS 的论文。毕竟,这两个任务是彼此的镜像:文本到语音和语音到文本。但 Karanasou 指出,对话式 AI 子领域之间日益增长的重叠的另一个迹象是,越来越多的 Interspeech 论文关注以语音作为输入并以端到端方式执行下游计算的模型。这包括关于口语理解、口语翻译和口语对话的研究。

“传统上,我们会在 NLP 会议上看到这些关于口语理解的环节,”Karanasou 说,“但现在我们在像 Interspeech 这样的会议上看到了更多的 SLU 环节。”

“说了这么多,我们仍然必须记住,每个领域都有自己的挑战和目标。ASR 是 TTS 的相反任务,但你需要处理不同的数据和不同的评估技术。例如,TTS 主要基于主观评估,而 ASR 则最小化词错误率,所以是客观评估。”

然而,对 Karanasou 来说,对话式 AI 子领域之间的交叉融合只是跨学科研究优势的一个例子。

“我认为人们应该阅读其他领域的论文,”她说,“机器翻译当然是 NLU 的一部分。但越来越多的是,我们甚至从图像处理、计算机视觉中获得想法。理解另一个领域发生的事情并将其转移到你自己的领域,这实际上是非常丰富的。”
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/5 1:35:12

工程建筑网页如何通过js实现文件夹上传及断点续传?

咱们的客户,那可是汽车制造行业里的领军企业,妥妥的头部大佬。他们自有一套极为成熟的业务系统,这套系统就像他们的左膀右臂,每日不辞辛劳地处理着各类繁杂事务。然而,随着行业竞争愈发白热化,技术迭代也是…

作者头像 李华
网站建设 2026/6/9 7:29:34

银行网页如何通过vue.js实现大文件文件夹上传及分块?

北京XX软件公司涉密项目大文件传输解决方案(基于SM4国密算法) 一、项目背景与需求分析 作为服务政府及军工领域的软件企业,我司当前涉密项目需实现以下核心需求: 安全传输:10GB级文件/文件夹的SM4加密传输&#xff…

作者头像 李华
网站建设 2026/6/10 15:36:28

【SSM毕设全套源码+文档】基于SSM的专业课程教学过程管理系统的教师模块[设计与实现(丰富项目+远程调试+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/10 1:24:57

【SSM毕设源码分享】基于SSM+vue的疫情健康上报管理系统的设计与实现(程序+文档+代码讲解+一条龙定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

作者头像 李华
网站建设 2026/6/10 12:30:24

服务器共享文件防止删除、防止复制、禁止另存为和打印共享文件?

为服务器共享文件提供防删除、防复制、防另存和防打印的保护,可以通过权限控制、文件加密、技术策略和管理措施相结合的方式来实现。以下是一些具体方法和建议:1. 严格的权限控制(NTFS/共享权限)最小权限原则:只给用户…

作者头像 李华