语音作为“调制信号”

与许多有趣的自然声音一样,语音是一种动态信号,即其幅度和频率内容随时间变化。Elliott & Theunissen提出的一个有趣问题是语音是否具有“特征性”时变幅度和频率分布。语音的“时间和频谱调制”是否必须遵循某些参数范围才能使语音可理解或可识别?语音通常表现出什么样的时间和频谱调制?是否存在使语音可识别或可理解的“必要”特定调制?

Elliot 和 Theunissen 通过计算语音的“调制频谱”解决了这个问题,如下所示:

modulation spectra of speech

 

这样的调制频谱是“可逆的”,这意味着(如果您精通数字信号处理)可能是在从原始信号中去除某些调制范围之后,您可以从调制频谱回到原始声音,然后您可以思考:如果删除特定的调制,语音是否仍然是可理解的。

这里有一些例子。首先是原始语音:

现在,除了具有小于 4 周期/kHz 的频谱调制和 1 到 7 Hz 之间的时间调制的“核心”区域外,过滤掉具有所有时间和频谱调制的相同语音样本,示例仍然可以理解,但听起来很不自然。

这种分解为频谱和时间调制的有趣结果是,语音样本的“含义”与音调或说话者身份“存在于调制空间的不同部分”。

考虑此示例,其中保留了所有时间调制,但仅保留了低于 0.5 周期/kHz 的所有频谱调制。 这保留了语音共振峰,因此语音仍然可以理解,但丢失了大部分音调信息,我们无法再判断说话者是男性还是女性:

并将其与滤除所有快于 3 Hz 的时间调制的样本进行比较。 现在我们缺少了承载“意义”的重要时间结构,句子变得更难理解,但我们仍然可以轻松识别说话者的音高和性别: