news 2026/4/16 13:49:18

【音频】记录潜在有用信息:Qwen3-TTS、Qwen3-ASR 与 Qwen3-ForcedAligner

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
【音频】记录潜在有用信息:Qwen3-TTS、Qwen3-ASR 与 Qwen3-ForcedAligner

Qwen3-TTS 正式发布!
我们已将完整模型家族——VoiceDesign(语音设计)、CustomVoice(定制语音) 和 Base(基础克隆)——全部开源,为开源社区带来SOTA的顶尖语音合成质量。

✨ 核心亮点:

  • 提供 5 个模型(0.6B 与 1.7B 参数规模)
  • 支持 自由风格的语音设计与声音克隆
  • 覆盖 10 种主流语言(中、英、日、韩、德、法、俄、葡、西、意)
  • 配备 SOTA 级别的 12Hz 语音分词器,实现高压缩率与高保真重建
  • 完整支持 微调(Fine-tuning)
  • 在多项权威评测中达到 当前最优(SOTA)性能

欢迎大家使用和反馈🚀

🔗 相关资源:

  • GitHub: https://github.com/QwenLM/Qwen3-TTS
  • Hugging Face 模型库: https://huggingface.co/collections/Qwen/qwen3-tts
  • ModelScope 模型库: https://modelscope.cn/collections/Qwen/Qwen3-TTS
  • 技术博客: https://qwen.ai/blog?id=qwen3tts-0115
  • 论文: https://github.com/QwenLM/Qwen3-TTS/blob/main/assets/Qwen3_TTS.pdf
  • Hugging Face 在线 Demo: https://huggingface.co/spaces/Qwen/Qwen3-TTS
  • ModelScope 在线 Demo: https://modelscope.cn/studios/Qwen/Qwen3-TTS
  • API 文档: https://www.alibabacloud.com/help/en/model-studio/qwen-tts-voice-design

🎉 Qwen3-ASR 与 Qwen3-ForcedAligner 正式发布,专为真实复杂场景打造的工业级语音模型来了!

🔊 核心亮点:
✅ 支持 52 种语言与方言(30 种语言 + 22 种方言/口音),自动识别语种
✅ 抗噪能力强:嘈杂环境、多人对话、甚至唱歌🎤都能稳稳识别
✅ 超长音频支持:单次推理最长 20 分钟,告别分段烦恼
✅ 高精度对齐:Qwen3-ForcedAligner 提供词/短语级时间戳(11 种语言),精度超越 MFA/CTC/CIF 等传统方案

🛠️ 全链路开源:
配套完整的推理与微调工具链,支持 vLLM 批处理、流式识别、异步服务,开箱即用,轻松部署!

🔗 一键直达:
• GitHub:https://github.com/QwenLM/Qwen3-ASR
• Hugging Face:https://huggingface.co/collections/Qwen/qwen3-asr
• 魔搭 ModelScope:https://modelscope.cn/collections/Qwen/Qwen3-ASR
• 体验 Demo:HF / 魔搭 搜索 “Qwen3-ASR” 即可试玩
• 技术博客 & 论文详见项目主页

真实场景实测能打,开发者友好,欢迎 Star ⭐ 体验 & 反馈~

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/16 13:01:57

如何用DLSS Swapper解决游戏卡顿?四步打造专属画质方案

如何用DLSS Swapper解决游戏卡顿?四步打造专属画质方案 【免费下载链接】dlss-swapper 项目地址: https://gitcode.com/GitHub_Trending/dl/dlss-swapper 🔍 问题诊断:你的游戏是否正经历"DLSS水土不服"? 当你…

作者头像 李华
网站建设 2026/4/16 13:04:10

探索Switch自定义系统:从入门到精通的创新玩法

探索Switch自定义系统:从入门到精通的创新玩法 【免费下载链接】Atmosphere-stable 大气层整合包系统稳定版 项目地址: https://gitcode.com/gh_mirrors/at/Atmosphere-stable Switch自定义系统为玩家提供了前所未有的设备控制权,通过大气层整合包…

作者头像 李华
网站建设 2026/4/15 21:29:52

Qwen2.5-VL-Chord行业落地:辅助驾驶场景理解与关键元素定位

Qwen2.5-VL-Chord行业落地:辅助驾驶场景理解与关键元素定位 1. 项目概述 1.1 技术背景 在智能驾驶领域,准确理解道路场景并定位关键元素是实现高级驾驶辅助功能的基础。传统计算机视觉方法通常需要针对特定场景训练专用模型,而Qwen2.5-VL-…

作者头像 李华
网站建设 2026/4/16 13:04:29

45k星项目Flowise实测:用可视化界面玩转多模型AI应用

45k星项目Flowise实测:用可视化界面玩转多模型AI应用 1. 为什么Flowise值得你花5分钟试试? 你有没有过这样的经历:想快速把公司内部的PDF文档变成可问答的知识库,却卡在LangChain代码调试上;想给销售团队做个产品智能…

作者头像 李华
网站建设 2026/4/16 13:04:10

音频解密全攻略:告别格式限制,畅享无损音乐自由

音频解密全攻略:告别格式限制,畅享无损音乐自由 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 当你精心收藏的加密音频文件在车载播放器上无法识别…

作者头像 李华
网站建设 2026/4/16 13:04:00

音乐爱好者的福音:CCMusic风格分类工具详解

音乐爱好者的福音:CCMusic风格分类工具详解 1. 这不是传统音乐分析,而是一次听觉到视觉的奇妙转换 你有没有想过,一首歌的风格,其实可以“看”出来? 这不是科幻电影里的桥段,而是CCMusic Audio Genre Cl…

作者头像 李华