融合语音识别与语言理解的技术探索-编程阁

ASRU: 集成语音识别与语言理解

某中心的高级应用科学经理Jimmy Kunzmann是今年IEEE自动语音识别与理解研讨会（ASRU）的赞助主席之一。他的研究团队在会议上提交了两篇论文，主题均为“信号到解释”，即将自动语音识别（ASR）和自然语言理解（NLU）集成到单一的机器学习模型中。

“信号到解释直接从音频信号中推导出领域、意图和槽位值，它在研究领域正变得越来越热门，”Kunzmann说，“研究很大程度上由哪种算法能提供最佳准确性驱动，而信号到解释可以提高准确性，降低延迟和内存占用。”虽然团队一直致力于提高准确性，但对信号到解释的兴趣源于确保其在资源受限且网络连接不稳定的设备上的可用性需求。

“如果网络连接突然中断，在家庭或汽车环境中，一切都不再工作，这会令人沮丧——当你的灯无法再打开，或者你无法在车里拨打你最喜欢的联系人时，”Kunzmann说。

Kunzmann表示，团队的早期工作集中在寻找技术来大幅减少在设备上运行的模型的内存占用，例如完美哈希技术。但那时的工作仍然将ASR和NLU视为独立、顺序的任务。

最近，团队转向了基于端到端神经网络的模型，这些模型将ASR和NLU紧密耦合，实现了更紧凑的设备端模型。“通过用神经网络技术替代传统技术，我们得到了更小的占用空间——实际上模型更快、更准确，”Kunzmann说，“而且，我们耦合的所有系统组件越紧密，可靠性就越高。”

在设备上运行端到端模型还可以提高响应能力，Kunzmann说。“Fire TV的客户反馈说，当我们在设备上处理诸如切换频道或翻到下一页等请求时，速度要快得多，可用性也随之提升，”他说。

在ASRU上，Kunzmann的团队报告了两个新项目，旨在使设备端、基于神经网络的信号到解释模型更加实用。

动态内容处理

一篇题为“上下文感知的Transformer Transducer语音识别”的论文，探讨了如何在运行时将个性化内容（例如通讯录中的姓名，或智能家电的自定义名称）整合到神经网络模型中的问题。

“在过去，人们使用所谓的基于类的语言模型，在推理时，你可以动态加载这些列表，并对用户的个性化内容进行解码，”Kunzmann说，“而采用神经网络方法，你拥有一个巨大的参数集，但它们都是预训练的。因此，你必须发明在运行时吸收用户数据的方法。”

“神经网络有许多层，通常表示为概率向量。当你从一层到另一层时，你向前馈送更新后的概率。你可以通过基于动态内容改变这些概率来吸收信息，这允许你改变输出概率，以识别用户上下文——比如你的个人通讯录或你感兴趣的地点。”

架构图描述：上下文感知模型的架构（在论文中展示）：(a) Transformer Transducer模型；(b) 上下文偏置层；© 带有音频嵌入的上下文感知Transformer Transducer（CATT）；(d) 带有音频和标签嵌入的CATT。

多语言处理

Kunzmann团队在ASRU上的另一篇论文“追寻巴别塔：多语言端到端口语理解”，解决了将多语言模型（能够以多种语言之一响应用户请求）迁移到设备端的问题。

在某中心云端版本的多语言服务中，同一客户的话语会同时发送到多个ASR模型。一旦一个独立的语言识别模型确定了正在使用的语言，相应的ASR模型的输出就会被用于进一步处理。这避免了延迟，因为它使ASR模型在语言被识别之前就开始工作。

“在设备端，我们负担不起这种方式，因为我们没有并行运行的计算集群，”Kunzmann说，“记住，信号到解释是一个将ASR和NLU紧密耦合的系统。简而言之，我们证明，我们可以用来自三个不同区域（在本案例中是英语、西班牙语和法语）的数据来训练信号到解释模型，这提高了准确性并缩小了模型占用空间。我们可以将这些系统的性能提高一个数量级，并在设备上运行这些模型。”

架构图描述：多语言模型的架构（在论文中展示）。

“我认为这是我们在某中心进行科学研究的核心方面之一——推动研究界进入新的领域。像动态内容处理这样的性能改进，既有助于一般研究，也有助于解决我们的客户问题。”
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

融合语音识别与语言理解的技术探索

ASRU: 集成语音识别与语言理解

动态内容处理

多语言处理

FunASR热词优化技术实战：专业术语识别准确率突破98%的终极方案

Java面试：音视频流媒体平台中的微服务与大数据实践 (Spring Cloud, Flink, Elasticsearch)

5个实用的Python自动化脚本，提升效率必备

N端和C端序列测定

Docker镜像拉取难题破解：实用代理及配置指南

如何用EmotiVoice克隆自己的声音并生成播客？