news 2026/4/16 15:44:26

人工智能应用-机器听觉:2.人是如何发音的

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
人工智能应用-机器听觉:2.人是如何发音的

要让机器发声,首先需要理解人类是如何发声的。在上一节中我们了解到,人类发音的机理是:声带的振动在口腔和鼻腔中产生谐振。其中,声带及相关振动生成器官统称为“声门”,口腔、鼻腔、唇齿等声音传导器官统称为“声道”。

为了更好地描述这一过程,科学家提出了一种称为“源-滤波模型”的人类发音模型。根据该模型,声门首先产生激励信号e(n)。对于元音和浊辅音,e(n) 表现为周期性的脉冲信号;对于清辅音,e(n) 则是一段白噪声信号。激励信号e(n) 经过声道h(n) 传导后发生了变化(这一过程称为调制),最终得到的输出信号x(n) 就是我们实际听到的声音。对于一个线性时不变系统来说,激励信号e(n) 经过声道h(n) 的调制过程本质上是一个卷积过程,即x(n) =e(n) ∗h(n)。

源-滤波模型示意图。图中“*”表示卷积操作

源-滤波模型为语音合成提供了理论基础:只要能够构造出合理的激励信号e(n) 和声道特性h(n),就可以基于这一模型合成人声。源-滤波模型为传统语音合成技术奠定了基础。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/4/12 9:26:39

VibeVoice多语言语音合成:从安装到实战全攻略

VibeVoice多语言语音合成:从安装到实战全攻略 你是否试过在项目里快速集成一个高质量、低延迟的语音合成能力?不是那种机械生硬的“机器人音”,而是接近真人语调、带呼吸感、能自然停顿、支持多语言切换的语音输出?VibeVoice-Rea…

作者头像 李华
网站建设 2026/4/16 14:41:27

DeepSeek-OCR-2惊艳效果:复杂数学公式+多语言混合+跨页表格精准识别

DeepSeek-OCR-2惊艳效果:复杂数学公式多语言混合跨页表格精准识别 你有没有试过把一份带微分方程的英文论文PDF拖进OCR工具,结果公式全变成乱码?或者扫描了一张中英日三语混排的财务报表,识别出来全是“□□□”?又或…

作者头像 李华
网站建设 2026/4/15 11:43:02

GLM-4v-9b实战指南:使用Open-WebUI上传图片并导出结构化JSON结果

GLM-4v-9b实战指南:使用Open-WebUI上传图片并导出结构化JSON结果 1. 为什么你需要关注GLM-4v-9b 你有没有遇到过这样的场景:手头有一张清晰的财务报表截图,想快速提取其中的表格数据;或者收到一份带手写批注的产品设计图&#x…

作者头像 李华
网站建设 2026/4/9 15:33:56

PowerPaint-V1效果惊艳案例:古画破损处语义补全,风格一致性强

PowerPaint-V1效果惊艳案例:古画破损处语义补全,风格一致性强 1. 开场:一张古画“活”过来的瞬间 你有没有见过这样的画面——泛黄的绢本上,仕女衣袖缺了一角,山石轮廓被虫蛀出几个黑洞,题跋边角模糊难辨…

作者头像 李华
网站建设 2026/4/15 23:12:57

Chord视频理解工具应用创新:AR远程协作视频操作指令时空锚定技术实现

Chord视频理解工具应用创新:AR远程协作视频操作指令时空锚定技术实现 1. 什么是Chord视频时空理解工具 Chord不是又一个“看图说话”的AI工具,它专为视频这个时间维度空间维度的双重载体而生。传统图像理解模型只能分析单帧画面,而Chord从设…

作者头像 李华