研究者很早就希望通过机器也能“听声辨人”。1962 年,贝尔实验室的 Lawrence Kersta 在《自然》杂志中首次提出“声纹”(Voiceprint)这一概念,认为声音就像指纹一样具有可用于身份识别的独特性。
Kersta 在 1962 年提出“声纹”概念的论文
“声纹”一词形象地表达了发音人的声音特异性:世界上没有两个人的声音是完全相同的,即使是双胞胎也无法做到。这是因为声纹背后具有生理基础(声带、声道形状等)与行为特征(说话习惯、语调等)的综合影响。
事实上,即使同一个人在不同时间的声纹也会有差别;比如早晨与傍晚、疲劳与清醒的情况下,说话声音会有不同。这一点与指纹不同,因为指纹从出生后就不会发生显著变化,而声纹容易受生理与心理状态的影响。到目前为止,人们还没有发现声音中和人一一对应的、一生保持不变的“声纹”。
声纹识别(或“说话人识别”)是让机器通过声纹判断人身份的“听觉版”生物特征识别技术,与其他生物认证手段相比,具有以下优势:
非接触性:与指纹、掌纹相比,声纹采集不需要身体接触;
较低隐私泄露风险:相比于人脸,声音被非法获取后复刻还具有一定技术难度;
设备简单,使用方便:与虹膜等方式相比,声纹无需昂贵的专用采集装置;
意图真实性:声纹需要人主动发声才可采集,可以在一定程度上可确保认证意图的真实性,从而防止被盗用。
此外,在一些特殊应用场景中,人用声音表达的内容还可以兼具“签字”或“意图确认”的作用,从而提高交互的安全性与准确性。例如,在合同签订时,人用声音所表述的内容,可以认为代表了他的真实意图,对于合同的真实性有了更合理的保证。
声纹识别与其他生物特征识别