news 2026/4/16 11:23:00

微软开源VibeVoice-ASR

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
微软开源VibeVoice-ASR

VibeVoice-ASR是一个统一的语音转文本模型,专为处理长达60分钟的长篇音频而设计,可一次性生成包含说话人(Who)、时间戳(When)和内容(What)的结构化转录,并支持自定义热词

➡️代码库:microsoft/VibeVoice

➡️演示:VibeVoice-ASR演示

🔥 核心功能

  • 🕒 60分钟单次处理:
    与传统ASR模型将音频切割为短片段(常丢失全局语境)不同,VibeVoice ASR支持长达60分钟的连续音频输入(64K令牌长度内)。这确保了对整段音频中说话者的持续追踪和语义连贯性。

  • 👤 自定义热词:
    用户可提供定制热词(如特定人名、专业术语或背景信息)来引导识别过程,显著提升领域专用内容的识别准确率。

  • 📝 结构化转录(何人、何时、何言):
    该模型同步完成语音识别、说话人分离和时间戳标记,生成结构化输出,清晰标注何人何时说了什么内容

性能评估


安装与使用

请参考 GitHub README 文档。

许可协议

本项目采用 MIT 许可协议授权。

联系方式

本项目由微软研究院成员开发。我们欢迎用户的反馈与合作。如果您有任何建议、疑问,或发现技术存在异常/冒犯性行为,请联系 VibeVoice@microsoft.com。
若团队收到不良行为报告或自主发现问题,我们将在此代码库中发布相应的修复方案。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 11:04:08

直播回顾 | 如何利用AI,快速生成标准草案?

直播回顾 2026年1月22日下午14:30,标准通推出了新一期标准通大讲堂——“如何利用AI,快速生成标准草案?”,提高您的标准编写效率!本次直播以线上直播的形式与广大用户见面。 通过系统演示,带您体验数字化…

作者头像 李华
网站建设 2026/4/16 14:28:45

2026大模型备案政策全解析✨ 合规必看!避开90%人踩的坑

🔥 随着AI赛道爆发,大模型合规已不是“选择题”而是“必修课”! 很多做AI产品的宝子都卡在备案环节——到底要备案还是登记?材料少一件就卡数月?境外模型能不能用? 整理了2026最新政策要点实操指南&#…

作者头像 李华
网站建设 2026/4/16 11:00:09

国防项目中,JAVA如何实现超大文件的分块与断点续传?

《码农的20G文件上传历险记:从IE8到破产边缘》 各位老铁们好啊!我是辽宁那个靠PHP续命的码农老王,最近接了个让我怀疑人生的外包需求——用100块钱预算实现20G文件上传系统还得兼容IE8!这需求比沈阳冬天的大风还让人凌乱啊&#…

作者头像 李华
网站建设 2026/4/16 11:08:14

Qwen3-0.6B混合专家架构初探:虽小但具扩展性的设计解析

Qwen3-0.6B混合专家架构初探:虽小但具扩展性的设计解析 1. 小模型也有大智慧:Qwen3-0.6B的定位与价值 你可能一看到“0.6B”就下意识觉得这是个玩具级的小模型——参数量不到10亿,能干啥?但别急着下结论。Qwen3-0.6B虽然体积小巧…

作者头像 李华
网站建设 2026/4/16 12:22:33

Comsol 等离子体模拟之空气流注模型探索

Comsol 等离子体模拟 空气流注模型。 针板电极下空气流注发展模拟,共考虑反应二十余种含光致电离。在等离子体研究领域,Comsol 是一款极为强大的模拟工具,今天咱就来唠唠用 Comsol 实现针板电极下空气流注发展模拟这个有趣的事儿,…

作者头像 李华
网站建设 2026/4/16 12:28:00

msxml6.dll文件丢失找不到怎么办?免费下载方法分享

在使用电脑系统时经常会出现丢失找不到某些文件的情况,由于很多常用软件都是采用 Microsoft Visual Studio 编写的,所以这类软件的运行需要依赖微软Visual C运行库,比如像 QQ、迅雷、Adobe 软件等等,如果没有安装VC运行库或者安装…

作者头像 李华