news 2026/4/16 12:29:46

教程上新丨微软开源VibeVoice,可实现90分钟4角色自然对话

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
教程上新丨微软开源VibeVoice,可实现90分钟4角色自然对话

近年来,文本转语音(TTS)合成技术进展显著,已能够为单一说话者合成高保真、听觉自然的短话语。然而,在面对长格式、多说话人对话音频的可扩展合成时,仍存在重要挑战,限制了诸如播客与多角色有声书场景下的应用边界。

传统方法即使通过串联独立合成的话语来生成此类音频,但在实现自然的对话轮流和内容感知生成方面依然不尽人意。随着行业应用需求的不断提升,行业领域已陆续出现针对多说话人长会话语音生成的研究,但多数成果尚未开源,或在生成长度与稳定性方面仍存在待解决的难题。

在此背景下,微软开源了 VibeVoice,旨在实现可扩展的长格式、多说话人语音合成。VibeVoice 采用基于下一 token 扩散(next-token diffusion)的方法来合成多说话人长语音,这是一种通过扩散自回归生成潜在向量以建模连续数据的统一方法。

为此,研究团队首创了一种新颖的连续语音分词器,与当前流行的 Encodec 模型相比,在保持相当性能的前提下,实现了 80 倍的数据压缩提升,即可实现高达 3200× 的压缩率(对应 7.5 Hz 帧率),在保障音频保真度的同时,显著提高了长序列处理的计算效率。

VibeVoice 架构图

尽管架构简洁,VibeVoice 却展现出极强的能力,能够在 64K 上下文窗口中合成长达 90 分钟、包含最多 4 名说话人的语音,音色更为丰富、语调更趋自然,并捕捉真实对话氛围,在跨语言应用中表现出更强的迁移能力,综合表现已超越现有的开源与专有对话模型。

「VibeVoice-Realtime TTS:实时语音合成服务」已上线 OpenBayes 公共教程板块,快来开启你的创作之旅吧!

教程链接:

https://go.openbayes.com/Ra1vR

Demo 运行

01 Demo 运行阶段

1.登录 http://OpenBayes.com,在「公共教程」页面,选择「VibeVoice-Realtime TTS:实时语音合成服务」教程。

2.页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。

3.选择「NVIDIA GeForce RTX 5090」以及「PyTorch」镜像,按照需求选择「按量付费」或「包日/周/月」,点击「继续执行」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 5090 + 5 小时 CPU 的免费时长!

小贝总专属邀请链接(直接复制到浏览器打开):

https://go.openbayes.com/9S6Dr


4.等待分配资源,首次克隆需等待 3 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」旁边的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

02 效果演示
进入 Demo 运行页面后,将测试视频上传后,在「Text to Convert」处输入文本,「Speaker Voice」选项中提供了 7 种可选择的音色,调整「CFG Scale」可以控制语音风格强度,数值越大情感越强。最后点击「Generate Speech」,稍等片刻即可生成音频。

这一年接近尾声,点击播放 VibeVoice 为你送上的新年祝福吧~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 8:46:03

Paperxie:当课程论文不再是 “每周深夜的突击”

paperxie-免费查重复率aigc检测/开题报告/毕业论文/智能排版/文献综述/aippt https://www.paperxie.cn/ai/coursePaperhttps://www.paperxie.cn/ai/coursePaper 周三晚上九点,我刚把选修课 “教育社会学” 的课件划到最后一页,手机日历的弹窗突然跳出来…

作者头像 李华
网站建设 2026/4/16 10:21:31

震惊!这家云服务器代理商性价比竟超厂家,背后真相曝光!

震惊!这家云服务器代理商性价比竟超厂家,背后真相曝光!在云计算服务市场竞争日趋白热化的今天,企业用户在选择云服务时,往往面临一个核心抉择:是直接向原厂采购,还是通过专业的代理商获取服务&a…

作者头像 李华
网站建设 2026/4/16 10:17:57

震惊!云服务器代理商选错,你的业务损失千万!

震惊!云服务器代理商选错,你的业务损失千万!在数字化转型的浪潮中,云服务器已成为企业运营的“数字心脏”。然而,许多企业在选择云服务时,往往将目光聚焦于头部云厂商的品牌光环,却忽略了连接企…

作者头像 李华
网站建设 2026/4/16 10:19:13

IO重定向

第一部分:重定向的本质 1. 核心规则:最小分配原则Linux 在 open 一个文件时,有一个铁律:给新文件分配的 fd,永远是当前 files_struct 数组中 最小的、未被占用的 下标。2. 手动实现重定向 ( The "Hack" Way …

作者头像 李华
网站建设 2026/4/16 10:16:07

别再怕数学了:从《现代数学之旅》第10版,看数学如何成为理解世界的“底层操作系统”

别再怕数学了:从《现代数学之旅》第10版,看数学如何成为理解世界的“底层操作系统” 数学不是为了考试存在的,它是世界运行的底层逻辑。 在程序员、工程师、数据分析师乃至产品经理的职业生涯中,我们或多或少都会遇到一个尴尬的问…

作者头像 李华
网站建设 2026/4/16 10:22:04

如何做到数据防泄密?国内防泄密软件排行榜推荐

在数字化时代,数据泄密已成为企业面临的重大风险。无论是敏感文档、商业机密还是核心系统数据,一旦泄露都可能对企业造成巨大损失。下面为您盘点2025年最新国内防泄密软件排行榜。一、互成软件作为终端安全一体化解决方案的代表,互成软件以 &…

作者头像 李华