news 2026/6/10 15:04:05

智能体听力助手在嘈杂环境中精准识别对话伙伴

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
智能体听力助手在嘈杂环境中精准识别对话伙伴

在嘈杂的酒吧里,即便是最好的降噪耳机也会束手无策。它们要么完全隔绝外界声音,要么让所有声音涌入,但无法像人类那样自然地专注于重要的声音同时忽略其他噪音。华盛顿大学研究人员的一项新研究提出了第三种解决方案——一种"主动式听力助手",它能利用人工智能技术自动识别你的对话对象,并实时增强他们的声音,无需任何手势或触控操作。

华盛顿大学移动智能实验室负责人、该研究的共同作者Shyam Gollakota说:"我们提出了一个非常简单的问题,如果你在有一百个人的酒吧里,人工智能如何知道你在和谁交谈?"

研究团队的解决方案融合了音频工程和对话科学。基于Gollakota实验室之前的研究,该系统使用经过训练的人工智能来检测人类本能遵循的细微轮流发言模式,这种模式能让对话者以最小重叠交替发言。这种对话节奏成为识别对话参与者的关键线索。不遵循这种模式的声音将被过滤掉。

该原型设备在双耳使用麦克风,并配备一个指向佩戴者嘴部的定向音频滤波器来提取用户自己的语音,这作为检测轮流发言的锚点。有了这个锚点,系统能够隔离和增强对话伙伴的声音,同时抑制其他人的声音,运行延迟低于10毫秒——足够快以保持放大音频与唇部动作同步。

Gollakota表示:"核心洞察很直观。如果我在和你对话,我们不会像不参与对话的人那样频繁地互相打断。"该智能体识别与佩戴者自然轮流发言的声音,而忽略那些过于频繁重叠、不符合对话模式的声音。该方法不依赖于距离、音量、方向或音调。"除了音频,我们不使用任何其他传感器,"他说。"你可以看向别处,或者距离更远的人说话更大声——它仍然有效。"

这项技术对有听力障碍的人特别有用,因为传统助听器会同时放大所有声音和噪音。Gollakota说:"这对生活质量的提升可能极其重要。"配备这项技术的主动式听力助手还能帮助那些难以手动选择要放大的说话者的老年用户。

为了解决延迟问题,系统采用了模仿大脑处理对话方式的双重模型。对话音频要感觉自然,必须在10毫秒内处理完成,但检测轮流发言模式需要一到两秒的上下文。协调这些时间尺度需要分离式架构:一个每秒更新一次的慢速模型和一个每10到12毫秒运行一次的快速模型。

慢速模型推断对话动态并生成"对话嵌入"。快速模型使用该嵌入仅提取已识别的伙伴声音,以足够快的速度抑制所有其他声音,确保对话无缝进行。Gollakota将这个过程比作大脑如何将较慢的思考与快速的语音产生分离。"有一个较慢的过程理解对话,还有一个更快的过程几乎瞬时响应,"他说。

对话节奏因文化而异,所以团队在英语和普通话上训练了系统。它能够泛化到日语对话,尽管从未在日语上训练过——研究人员说,这证明模型正在捕获通用的时序线索。

在受控测试中,该系统识别对话伙伴的准确率达到80%到92%,混淆率为1.5%到2.2%(意味着系统错误地将外部说话者识别为对话参与者)。它将语音清晰度提高了多达14.6分贝。

智能体眼镜公司SoftEye首席执行官Te-Won Lee最近为商用开发了类似技术,他表示:"他们描述的是一个有趣且新颖的方向。但在实际应用方面,仍然面临许多挑战。"Lee的技术基于盲源分离,这是一种信号处理技术,试图在不事先知道源是什么的情况下从混合声音中筛选出单个声源。

Lee说:"在大多数环境中,你不会得到四个人整齐地轮流发言。你会遇到音乐、不可预测的噪音、人们互相打断。研究中描述的场景不是你在大多数真实环境中遇到的场景。"随着声音环境变得更加混乱,性能可能会下降。

不过,他认为该原型的超低延迟是一个重大优势。"当涉及在数百万设备中部署时,延迟必须极低,"他说。"即使100毫秒都是不可接受的。你需要接近10毫秒的东西。"

Lee还指出,几十年来的盲源分离和语音增强工作已经产生了能在各种噪音条件下工作的算法,通常将设备用户这一个期望的说话者从所有其他源中隔离出来。Lee说:"真实世界的语音增强就是将期望的语音从所有其他噪音中分离出来。这些技术更适用于不可预测的环境。"但在耳机或AR眼镜中,系统知道佩戴者打算与谁交谈,他说华盛顿大学的方法"如果场景符合他们的假设,可以非常有效"。

该系统严重依赖自我语音,所以长时间沉默可能会使其混乱。重叠语音和同时的轮流变化仍然具有挑战性。该方法不适合被动聆听,因为它假设主动参与。由于对话规范因文化而异,可能需要额外的微调。

错误检测也可能放大错误的人——这在快速变化的交流中是一个真正的风险。Lee补充说,从音乐到混乱声景的不可预测噪音仍然是一个主要障碍。"真实世界是混乱的,"他说。

接下来,团队计划使用大语言模型融入语义理解,使未来版本不仅能推断谁在说话,还能推断谁在有意义地贡献,让听力助手在跟随对话方面更加灵活、更像人类。

Q&A

Q1:这个主动式听力助手是如何工作的?

A:该系统使用人工智能检测人类对话中的自然轮流发言模式。它通过双耳麦克风和指向嘴部的音频滤波器提取用户语音作为锚点,然后识别与用户自然轮流发言的声音并增强它们,同时抑制其他不符合对话模式的声音,整个过程延迟低于10毫秒。

Q2:这项技术相比传统降噪耳机有什么优势?

A:传统降噪耳机只能选择完全隔绝声音或让所有声音进入,而这个听力助手能智能识别对话伙伴并只增强他们的声音。它不依赖距离、音量或方向,即使用户看向别处或有人距离更远但声音更大,系统仍能准确识别真正的对话参与者。

Q3:主动式听力助手在实际使用中有哪些局限性?

A:该系统严重依赖用户自己的语音,长时间沉默会造成混乱。在有重叠语音、同时轮流变化或不可预测噪音(如音乐、混乱声景)的环境中性能可能下降。它不适合被动聆听,需要用户主动参与对话,且可能因文化差异需要额外调整。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/10 15:43:47

月之暗面AI将完成新一轮大规模融资,估值飙升至48亿美元

据CNBC报道,中国顶级大语言模型开发商月之暗面AI即将完成新一轮融资,公司估值将达到48亿美元,这距离其刚刚完成5亿美元融资仅数周时间。两位匿名消息人士透露,这轮融资仍在讨论中但预计很快敲定,将使月之暗面AI的估值比…

作者头像 李华
网站建设 2026/6/10 14:05:51

犯罪分子正利用AI进行情感编程开发恶意软件

随着从准开发者到六岁儿童都在使用情感编程技术,犯罪分子同样喜欢自动化编码工具也就不足为奇了。Palo Alto Networks Unit 42高级咨询总监Kate Middagh在接受采访时表示:"每个人都在问:情感编程是否被用于恶意软件?现在的答…

作者头像 李华
网站建设 2026/6/9 16:11:18

verl轻量级部署方案:边缘计算场景下的可行性验证

verl轻量级部署方案:边缘计算场景下的可行性验证 1. verl 介绍 verl 是一个灵活、高效且可用于生产环境的强化学习(RL)训练框架,专为大型语言模型(LLMs)的后训练设计。它由字节跳动火山引擎团队开源&…

作者头像 李华
网站建设 2026/6/9 16:06:12

高效环境管控:楼宇机房以太网温湿度精准监测系统方案

原标题:以太网温湿度变送器在楼宇机房中的应用方案机房一、项目背景与需求楼宇机房作为建筑物智能化系统的核心枢纽,集中部署了服务器、网络交换机、UPS 电源、空调机组、消防控制设备等关键设施,承担着楼宇通信、电力供应、设备管控等重要功…

作者头像 李华
网站建设 2026/6/10 14:04:31

GIF压缩怎么不模糊?高效动图无损优化方案

做自媒体配图、电商主图或课件动图时,总遇到GIF压缩后画质模糊、体积还是过大无法上传,或是压缩后格式不兼容的问题,白费功夫还达不到预期效果。不同场景对 GIF 有明确规格要求:微信动图建议尺寸 400400px、大小不超过 1000kb&…

作者头像 李华
网站建设 2026/6/10 14:47:36

第一篇:数据库不是存数据那么简单 —— 从后端视角看 MySQL

一、为什么很多后端都会写出慢 SQL?很多人学数据库,路径是:建表增删改查where / order by / group by联合查询到这里,其实已经可以“干活”了。但真正进入项目后,会不断遇到:数据量一大就慢同一条 SQL&…

作者头像 李华