语音作为“调制信号”

与许多有趣的自然声音一样，语音是一种动态信号，即其幅度和频率内容随时间变化。Elliott & Theunissen提出的一个有趣问题是语音是否具有“特征性”时变幅度和频率分布。语音的“时间和频谱调制”是否必须遵循某些参数范围才能使语音可理解或可识别？语音通常表现出什么样的时间和频谱调制？是否存在使语音可识别或可理解的“必要”特定调制？

Elliot 和 Theunissen 通过计算语音的“调制频谱”解决了这个问题，如下所示：

modulation spectra of speech

这样的调制频谱是“可逆的”，这意味着（如果您精通数字信号处理）可能是在从原始信号中去除某些调制范围之后，您可以从调制频谱回到原始声音，然后您可以思考：如果删除特定的调制，语音是否仍然是可理解的。

这里有一些例子。首先是原始语音：

现在，除了具有小于 4 周期/kHz 的频谱调制和 1 到 7 Hz 之间的时间调制的“核心”区域外，过滤掉具有所有时间和频谱调制的相同语音样本，示例仍然可以理解，但听起来很不自然。

这种分解为频谱和时间调制的有趣结果是，语音样本的“含义”与音调或说话者身份“存在于调制空间的不同部分”。

考虑此示例，其中保留了所有时间调制，但仅保留了低于 0.5 周期/kHz 的所有频谱调制。这保留了语音共振峰，因此语音仍然可以理解，但丢失了大部分音调信息，我们无法再判断说话者是男性还是女性：

并将其与滤除所有快于 3 Hz 的时间调制的样本进行比较。现在我们缺少了承载“意义”的重要时间结构，句子变得更难理解，但我们仍然可以轻松识别说话者的音高和性别：

适合打印版本

语音作为“调制信号”

Topics in this Chapter