news 2026/4/15 9:19:44

无需重新训练即可为语音识别器添加新词

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
无需重新训练即可为语音识别器添加新词

在不重新训练的情况下教语音识别器学习新词

近年来,自动语音识别(ASR)已转向全神经网络模型。连接时序分类(CTC)损失函数因其预测不依赖于先前上下文,从而产生推理延迟低的简单模型,成为端到端ASR的一个有吸引力的选择。与早期使用词典匹配音素和候选词的混合ASR模型不同,全神经模型难以适应生僻词或不熟悉的词。对CTC模型进行新词偏置尤其困难,因为它缺乏上下文:即模型在任何给定时间步的预测都独立于先前时间步的输出,这种相同的预测方案虽然能实现低延迟解码,但也带来了挑战。

对于操作词汇不断变化的ASR应用而言,这是一个问题。例如,当像“Zelenskyy”这样的新名字进入对话时,或者当用户向通讯录添加新名字时。通过包含新词的新数据集重新训练ASR模型来更新大型模型,是耗时且计算密集度极高的方法。

在今年的SLT研讨会上发表的一篇论文中,描述了一种使CTC模型能够正确转录新实体名称而无需重新训练的方法。该方法包含多种技术,用于使模型偏向列表中的名称。这些技术既适用于模型的编码器(将输入转换为向量表示),也适用于其集束搜索解码器(评估候选输出序列)。这些技术可以组合应用,以最大化准确转录的可能性。

在一个包含疾病和药物名称等困难医学术语的数据集上,使用该方法将ASR模型在这些实体上的F1分数从无偏置模型的39%提升至62%。同样,在一个包含欧洲议会录音的公开数据集上,该方法将罕见实体(城市名称、人名等)的识别F1分数从49%提升至80%,且无需重新训练基础ASR模型。

偏置方法

  • 编码器偏置:为了偏置CTC模型的编码器,使用了上下文适配器。该适配器在冻结基础CTC模型权重后进行训练。它以训练样本中的生僻词集作为输入,并学习词的子词单元序列与其音频表示之间的映射关系。该适配器使用编码器中间层表示的加权和作为音频表示,从而对抗CTC模型的条件独立性假设。在推理时,使用上下文适配器嵌入罕见词或词表外(OOV)实体名称列表,在每个音频时间帧,一个注意力模块尝试将名称嵌入与音频表示进行匹配。

  • 解码器偏置:在解码器偏置方面获得了积极结果。所有技术均在推理时直接应用:

    1. 自适应子词增强:在集束搜索解码中,如果一个top-k子词序列以自定义实体列表上的子词开头,则动态提升其概率。
    2. 一元语法增强:通过一个OOV/BOOST类将列表中的词添加到外部语言模型来提升其概率,从而在推理期间保持语言模型不变。
    3. 基于音素距离的重新评分:利用中间层网络的输出(音素),在它们与CTC模型输出之间进行强制对齐。计算此对齐的成本,并用于重新对n-best列表进行评分。
    4. 基于发音的词典查找:对于罕见词和OOV词,音素预测假设比子词预测更准确。因此,使用强制对齐来识别音素序列中的词边界。如果与一个词对应的音素序列与词典中某个词的发音完全匹配,则将该词替换为词典实体。
    5. 字素到字素(G2G)技术:字素是书面文本的最小有意义单位。使用一个将单个字素映射到其多种可能发音(即音素)的表格,以解析实体名称列表上词的替代发音。

联合模型

最后,提出了一个联合模型,结合了上述编码器和解码器偏置技术。正如预期的那样,这些技术是互补的,并产生了叠加的增益。从概念上讲,编码器偏置方法有助于为其复制的罕见子词生成更高的概率分数,这有助于防止罕见子词在子词图的集束搜索解码过程中被剪枝。而解码器偏置技术则进一步提升了罕见词和OOV词的候选路径在图中排名靠前的可能性。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/5 19:02:39

百度富文本编辑器UEDITOR在ELECTRON下如何处理WORD图片粘贴?

各位道友,且听我这个江西老表用带着辣椒味的普通话,讲讲如何在99元预算下,给CMS系统加上Word一键粘贴功能,顺便还能防黑客、防白嫖、防导师催稿! 一、技术方案(白嫖防身版) 前端篇(…

作者头像 李华
网站建设 2026/4/14 8:38:16

国产化信创环境下,UEDITOR的ELECTRON版本如何支持WORD图片导入?

企业网站后台管理系统富文本编辑器功能扩展开发记录 一、需求分析与技术选型 作为四川某软件公司的前端工程师,近期接到客户需求:在企业网站后台管理系统的文章发布模块中增加Word粘贴、Word文档导入及微信公众号内容粘贴功能。经过详细分析&#xff0…

作者头像 李华
网站建设 2026/4/16 6:14:12

SpringMVC大附件上传有什么方案?

以下是根据贵司需求的专业技术方案和部分实现代码,我将从架构设计、技术实现、安全合规、国产化适配等维度进行详细阐述: 上海金融保险集团大文件传输系统技术方案 一、系统架构设计 1. 分层架构 #mermaid-svg-TVvAPtxdhatX24S9{font-family:"tre…

作者头像 李华
网站建设 2026/4/10 13:43:27

SpringCloud网页端如何上传超大附件?

大文件传输解决方案(源码级实现) 作为集团项目负责人,我深度理解当前大文件传输需求的复杂性与紧迫性。针对政府、央企等客户对100G级文件传输、断点续传、信创兼容、数据安全的核心诉求,结合集团多项目统一组件、低成本维护的需…

作者头像 李华
网站建设 2026/4/15 15:52:16

springboot大学生学科竞赛报名管理系统_6hcc7-vue

目录系统概述核心功能技术栈特点开发技术源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!系统概述 SpringBoot大学生学科竞赛报名管理系统是一个基于前后端分离架构的Web应用,后端采用SpringBoot框架,前端采用Vu…

作者头像 李华
网站建设 2026/4/13 18:14:55

springboot的新闻发布信息收集系统的设计与实现vue

目录 系统架构设计后端技术实现前端技术实现关键技术点性能优化策略 开发技术源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 系统架构设计 采用前后端分离架构,后端基于Spring Boot框架提供RESTful API,前端使…

作者头像 李华