要让机器发声,首先需要理解人类是如何发声的。在上一节中我们了解到,人类发音的机理是:声带的振动在口腔和鼻腔中产生谐振。其中,声带及相关振动生成器官统称为“声门”,口腔、鼻腔、唇齿等声音传导器官统称为“声道”。
为了更好地描述这一过程,科学家提出了一种称为“源-滤波模型”的人类发音模型。根据该模型,声门首先产生激励信号e(n)。对于元音和浊辅音,e(n) 表现为周期性的脉冲信号;对于清辅音,e(n) 则是一段白噪声信号。激励信号e(n) 经过声道h(n) 传导后发生了变化(这一过程称为调制),最终得到的输出信号x(n) 就是我们实际听到的声音。对于一个线性时不变系统来说,激励信号e(n) 经过声道h(n) 的调制过程本质上是一个卷积过程,即x(n) =e(n) ∗h(n)。
源-滤波模型示意图。图中“*”表示卷积操作
源-滤波模型为语音合成提供了理论基础:只要能够构造出合理的激励信号e(n) 和声道特性h(n),就可以基于这一模型合成人声。源-滤波模型为传统语音合成技术奠定了基础。