news 2026/4/15 16:40:12

Liquid AI发布15亿参数实时语音对话模型LFM2-Audio

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Liquid AI发布15亿参数实时语音对话模型LFM2-Audio

Liquid AI发布15亿参数实时语音对话模型LFM2-Audio

【免费下载链接】LFM2-Audio-1.5B项目地址: https://ai.gitcode.com/hf_mirrors/LiquidAI/LFM2-Audio-1.5B

Liquid AI正式推出其首款端到端音频基础模型LFM2-Audio-1.5B,以15亿参数实现与更大规模模型相当的实时语音对话能力,标志着轻量化音频交互技术取得重要突破。

近年来,语音交互技术正从传统的"语音识别-文本处理-语音合成"三段式架构向端到端一体化模型演进。随着大语言模型技术的成熟,行业对低延迟、高自然度的实时语音对话需求日益迫切,尤其是在智能助手、车载交互、远程协作等场景。据Gartner预测,到2027年,70%的智能设备交互将通过语音完成,而实时响应能力是用户体验的关键指标。

LFM2-Audio-1.5B最显著的优势在于其端到端架构设计,无需单独的语音识别(ASR)和语音合成(TTS)组件,直接实现音频到音频的闭环处理。该模型以12亿参数的LFM2模型作为多模态主干,搭配FastConformer音频编码器和RQ-transformer音频生成器,整体参数规模控制在15亿,却实现了突破性的低延迟表现。

模型支持两种独特的生成模式:交错生成(Interleaved generation)专为实时语音对话优化,将音频生成延迟降至最低,确保流畅的交谈体验;序列生成(Sequential generation)则适用于非对话场景,可灵活切换文本和语音模态,支持语音转文字、文字转语音等任务。这种双模设计使模型能适应从智能客服到内容创作的多样化需求。

技术规格方面,LFM2-Audio-1.5B采用混合卷积+注意力机制的主干网络,配备Mimi音频令牌器(8个码本),支持32,768 tokens的上下文长度,文本词汇量65,536,音频词汇量达16,392。模型以bfloat16精度运行,在保证性能的同时优化计算效率。

性能测试显示,该模型在VoiceBench基准测试中整体得分为56.78,超越70亿参数的Moshi模型(29.51)和0.6亿参数的Mini-Omni2模型(33.49)。语音识别(WER)测试中,在LibriSpeech-clean数据集上实现2.01%的词错误率,TED-LIUM数据集上达3.56%,平均WER为7.24%,展现出优异的语音理解能力。值得注意的是,相比50亿参数的Qwen2.5-Omni-3B模型,LFM2-Audio以三分之一的参数规模实现了接近的语音交互性能,参数效率显著提升。

Liquid AI提供了便捷的开发工具链,用户可通过pip安装liquid-audio包,快速部署模型或体验Gradio演示界面。示例代码显示,开发者仅需少量代码即可构建多轮语音对话系统,支持音频与文本输入的灵活切换,大大降低了语音交互应用的开发门槛。

LFM2-Audio-1.5B的推出,代表了轻量化音频大模型的重要进展。其在保持高性能的同时实现低延迟和小体积,为边缘设备部署开辟了可能。随着实时语音交互技术的成熟,我们有望看到更自然的人机对话体验在智能音箱、可穿戴设备、车载系统等场景普及。未来,随着模型在多语言支持、情感识别等方面的进一步优化,语音交互可能真正成为人机协作的主要方式,重塑我们与智能系统的沟通模式。

Liquid AI表示,LFM2-Audio-1.5B已开放试用,并提供详细文档支持。该模型采用LFM Open License v1.0许可,平衡了技术开放与知识产权保护,可能会吸引大量开发者基于此构建创新应用,推动音频AI生态的发展。

【免费下载链接】LFM2-Audio-1.5B项目地址: https://ai.gitcode.com/hf_mirrors/LiquidAI/LFM2-Audio-1.5B

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/10 8:00:58

Qwen3-VL代理访问谷歌镜像获取学术资源

Qwen3-VL代理访问谷歌镜像获取学术资源 在科研节奏日益加快的今天,一个博士生可能每天要筛选数十篇论文才能锁定几篇真正相关的工作。手动翻查谷歌学术、反复输入关键词、逐条比对摘要——这种低效流程不仅消耗精力,还容易遗漏关键文献。更棘手的是&…

作者头像 李华
网站建设 2026/4/16 3:02:04

PS手柄PC配置终极指南:从零到精通的完美解决方案

PS手柄PC配置终极指南:从零到精通的完美解决方案 【免费下载链接】DS4Windows Like those other ds4tools, but sexier 项目地址: https://gitcode.com/gh_mirrors/ds/DS4Windows 还在为PS手柄在PC上的兼容性问题而烦恼吗?游戏控制器映射配置看似…

作者头像 李华
网站建设 2026/4/15 16:33:49

游戏Mod管理器完全配置指南:从新手入门到专业级定制

游戏Mod管理器完全配置指南:从新手入门到专业级定制 【免费下载链接】Degrees-of-Lewdity-Chinese-Localization Degrees of Lewdity 游戏的授权中文社区本地化版本 项目地址: https://gitcode.com/gh_mirrors/de/Degrees-of-Lewdity-Chinese-Localization 你…

作者头像 李华
网站建设 2026/4/2 8:55:36

XXMI游戏模组管理器:告别MOD管理烦恼的终极解决方案

还在为不同游戏的模组管理而头疼吗?XXMI游戏模组管理器就是为你量身打造的专业MOD管理平台。无论你是原神、星穹铁道、鸣潮还是绝区零的玩家,这款强大的MOD管理工具都能让你的游戏体验更上一层楼。 【免费下载链接】XXMI-Launcher Modding platform for …

作者头像 李华
网站建设 2026/4/15 17:57:41

UI-TARS-1.5:轻松玩转游戏与GUI的AI助手

UI-TARS-1.5:轻松玩转游戏与GUI的AI助手 【免费下载链接】UI-TARS-1.5-7B 项目地址: https://ai.gitcode.com/hf_mirrors/ByteDance-Seed/UI-TARS-1.5-7B 导语:字节跳动开源的多模态智能体UI-TARS-1.5正式发布,凭借强化学习赋能的高级…

作者头像 李华
网站建设 2026/4/16 12:24:23

Qwen3-VL解析MyBatisPlus代码结构:数据库映射关系可视化

Qwen3-VL解析MyBatisPlus代码结构:数据库映射关系可视化 在现代Java开发中,一个常见的痛点悄然浮现:当你接手一个遗留系统,打开IDE,面对几十个分散的实体类和模糊的注释,如何快速理清这些UserEntity、UserI…

作者头像 李华