无需重新训练即可为语音识别器添加新词-编程阁

在不重新训练的情况下教语音识别器学习新词

近年来，自动语音识别（ASR）已转向全神经网络模型。连接时序分类（CTC）损失函数因其预测不依赖于先前上下文，从而产生推理延迟低的简单模型，成为端到端ASR的一个有吸引力的选择。与早期使用词典匹配音素和候选词的混合ASR模型不同，全神经模型难以适应生僻词或不熟悉的词。对CTC模型进行新词偏置尤其困难，因为它缺乏上下文：即模型在任何给定时间步的预测都独立于先前时间步的输出，这种相同的预测方案虽然能实现低延迟解码，但也带来了挑战。

对于操作词汇不断变化的ASR应用而言，这是一个问题。例如，当像“Zelenskyy”这样的新名字进入对话时，或者当用户向通讯录添加新名字时。通过包含新词的新数据集重新训练ASR模型来更新大型模型，是耗时且计算密集度极高的方法。

在今年的SLT研讨会上发表的一篇论文中，描述了一种使CTC模型能够正确转录新实体名称而无需重新训练的方法。该方法包含多种技术，用于使模型偏向列表中的名称。这些技术既适用于模型的编码器（将输入转换为向量表示），也适用于其集束搜索解码器（评估候选输出序列）。这些技术可以组合应用，以最大化准确转录的可能性。

在一个包含疾病和药物名称等困难医学术语的数据集上，使用该方法将ASR模型在这些实体上的F1分数从无偏置模型的39%提升至62%。同样，在一个包含欧洲议会录音的公开数据集上，该方法将罕见实体（城市名称、人名等）的识别F1分数从49%提升至80%，且无需重新训练基础ASR模型。

偏置方法

编码器偏置：为了偏置CTC模型的编码器，使用了上下文适配器。该适配器在冻结基础CTC模型权重后进行训练。它以训练样本中的生僻词集作为输入，并学习词的子词单元序列与其音频表示之间的映射关系。该适配器使用编码器中间层表示的加权和作为音频表示，从而对抗CTC模型的条件独立性假设。在推理时，使用上下文适配器嵌入罕见词或词表外（OOV）实体名称列表，在每个音频时间帧，一个注意力模块尝试将名称嵌入与音频表示进行匹配。
解码器偏置：在解码器偏置方面获得了积极结果。所有技术均在推理时直接应用：
1. 自适应子词增强：在集束搜索解码中，如果一个top-k子词序列以自定义实体列表上的子词开头，则动态提升其概率。
2. 一元语法增强：通过一个OOV/BOOST类将列表中的词添加到外部语言模型来提升其概率，从而在推理期间保持语言模型不变。
3. 基于音素距离的重新评分：利用中间层网络的输出（音素），在它们与CTC模型输出之间进行强制对齐。计算此对齐的成本，并用于重新对n-best列表进行评分。
4. 基于发音的词典查找：对于罕见词和OOV词，音素预测假设比子词预测更准确。因此，使用强制对齐来识别音素序列中的词边界。如果与一个词对应的音素序列与词典中某个词的发音完全匹配，则将该词替换为词典实体。
5. 字素到字素（G2G）技术：字素是书面文本的最小有意义单位。使用一个将单个字素映射到其多种可能发音（即音素）的表格，以解析实体名称列表上词的替代发音。

联合模型

最后，提出了一个联合模型，结合了上述编码器和解码器偏置技术。正如预期的那样，这些技术是互补的，并产生了叠加的增益。从概念上讲，编码器偏置方法有助于为其复制的罕见子词生成更高的概率分数，这有助于防止罕见子词在子词图的集束搜索解码过程中被剪枝。而解码器偏置技术则进一步提升了罕见词和OOV词的候选路径在图中排名靠前的可能性。
更多精彩内容请关注我的个人公众号公众号（办公AI智能小助手）或者我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号（网络安全技术点滴分享）

百度富文本编辑器UEDITOR在ELECTRON下如何处理WORD图片粘贴？

各位道友，且听我这个江西老表用带着辣椒味的普通话，讲讲如何在99元预算下，给CMS系统加上Word一键粘贴功能，顺便还能防黑客、防白嫖、防导师催稿！ 一、技术方案（白嫖防身版） 前端篇（…

李华

国产化信创环境下，UEDITOR的ELECTRON版本如何支持WORD图片导入？

企业网站后台管理系统富文本编辑器功能扩展开发记录一、需求分析与技术选型作为四川某软件公司的前端工程师，近期接到客户需求：在企业网站后台管理系统的文章发布模块中增加Word粘贴、Word文档导入及微信公众号内容粘贴功能。经过详细分析&#xff0…

李华

SpringMVC大附件上传有什么方案？

以下是根据贵司需求的专业技术方案和部分实现代码，我将从架构设计、技术实现、安全合规、国产化适配等维度进行详细阐述： 上海金融保险集团大文件传输系统技术方案一、系统架构设计 1. 分层架构 #mermaid-svg-TVvAPtxdhatX24S9{font-family:"tre…

李华

SpringCloud网页端如何上传超大附件？

大文件传输解决方案（源码级实现） 作为集团项目负责人，我深度理解当前大文件传输需求的复杂性与紧迫性。针对政府、央企等客户对100G级文件传输、断点续传、信创兼容、数据安全的核心诉求，结合集团多项目统一组件、低成本维护的需…

李华

springboot大学生学科竞赛报名管理系统_6hcc7-vue

目录系统概述核心功能技术栈特点开发技术源码文档获取/同行可拿货,招校园代理 ：文章底部获取博主联系方式！系统概述 SpringBoot大学生学科竞赛报名管理系统是一个基于前后端分离架构的Web应用，后端采用SpringBoot框架，前端采用Vu…

李华

springboot的新闻发布信息收集系统的设计与实现vue

目录系统架构设计后端技术实现前端技术实现关键技术点性能优化策略开发技术源码文档获取/同行可拿货,招校园代理 ：文章底部获取博主联系方式！ 系统架构设计采用前后端分离架构，后端基于Spring Boot框架提供RESTful API，前端使…

李华