语音信号的分析分为时域、频域、倒谱域等,时域分析简单、运算量小、物理意义明确,但对于语音识别而言, 更为有效的是频域的分析方法,那么为什么还有进行时域的分析呢?

语音信号具有时变特性,但在短时内可以看做是平稳的,所以语音的时域分析是建立在“短时”的条件下的,经研究统计, 语音信号在帧长为10ms~30ms内是相对平稳的。

语音信号是模拟信号,在进行处理之前,要进行数字化,模拟信号数字化的一般方法是采样,按照Nyquist采样定理进行 采样(一般在8K~10KHz)后,在进行量化(一般用8bit,也有16bit等)和编码,变为数字信号。

在语音信号数字化之后,就可以开始对其进行处理了,首先是预处理,由于语音信号的平均功率谱受声门激励和口鼻辐射的影响, 高频端大约在800Hz以上按6dB/倍频程跌落,为此要在预处理中进行预加重。预加重的目的是提升高频部分,是信号变得平坦, 以便于进行频谱分析或声道参数分析。预加重可以用具有6dB/倍频程的提升高频特性的预加重数字滤波器实现。预处理的另一 方面工作是分帧和加窗:分帧的帧长一般在10ms~30ms,分帧既可以是连续的,也可以是有部分over-lap;短时分析的实质是 对信号加窗,一般采用Hamming窗,其他的还有矩形窗、汉宁窗等,如下图所示。

好了,经过预处理之后就可以真正开始进行时域分析了,这里的时域分析主要包含短时平均能量、短时过零分析、短时自相 关分析以及高阶统计量分析等。

短时平均能量(Short Time Average Energy)可以理解为先计算信号格采样值的平方,然后用一个移动窗h(n-m)选取出一个个 短时平方序列,并将各段的平方值求和,从而得到短时能量序列。短时平均能量(En)可以用来从清音中区分浊音(浊音的En比 清音大得多),可以用来确定声母和韵母、无声与有声、连字等的分界,还可以作为一种超音段信息用于语音识别。但短时平均 能量En对于高电平信号可能产生溢出,此时可以采用短时平均幅度(Short Time Average Magnitude)来度量语音信号幅度的变化。

信号的幅度值从正值到负值要经过零点,从负值到正值也要经过零点,称为过零,统计信号在单位时间(如1s)内过零的次数, 就成为过零率。如果信号按段分割,就成为短时,把各段信号的过零率做统计平均,就是短时平均过零率(Short Time Average Cross Zero Ratio)。短时平均过零率(Zn)可以作为“频率”来理解。过零率可以用来定量的分析清音/浊音,特别是在背景噪声电平较大时 更为有效(相比短时平均能量而言),有时还可以同时结合Zn和En来进行判定。

如果说短时平均过零率是描述复杂波形“频率”特征的一个参数,那么短时平均上升过零间隔(Short Time Rise Zero-Crossing Inteval) 就是描述复杂波形“周期”特性的参数。研究表明:在一定噪声背景下,该参数具有很好的稳健性,对不同的语音具有很好的差异性。

自相关函数是偶函数,语音信号的短时自相关函数(Short Time Autocorrelation Function)可以理解为序列[x(n)x(n-k)]通过一个 冲激响应为 $hk(n)$ 的数字滤波器的输出,即有 $Rn(k) = [x(n)x(n-k)]*hk(n)$ 。短时自相关函数是语音信号时域分析中的一个重要参量,但是 运算量很大。短时平均幅度差函数AMDF(Short Time Average Magnitude Difference Function)与自相关函数有类似的功效,但运算量 可降低许多,所以在语音信号处理中应用广泛。

最后是高阶统计量了。近来高阶统计量在语音信号处理中应用也越来越多,高阶统计量一般指高阶矩(Moment)、高阶累积量(Cumulant)以及 他们的谱——高阶矩谱和高阶累积量谱。首先定义了随机变量x的(第一)特征函数(也称为矩生成函数),实际为它的密度函数 $f(x)$ 的傅里叶变换。 然后定义了第二特征函数(也称为累积量生成函数),它是第一特征函数的对数。还有随机变量x的k阶矩(mk)的定义,它是x的k次幂与 $f(x)$ 的 乘积在 $x\in R$ 上的积分。类似的还有k阶中心矩(μk)的定义,都与概率论中的定义差不多。现在,可以对第一、二特征函数进行泰勒展开,可以得 到ck(x的k阶累积量)和mk之间的一些关系,可以发现k<4时,$ck=\mu k$,此时ck的物理意义与μk的物理意义相同,而k>=4时,则不相等。对于c3, 描述了概率分布的对称性,通过定义一个新的概念——偏度(Skewness,也称为偏态系数)来衡量。对于c4,文中为了简化,假设了x的均值为0, 然后定义了一个称为峰态(也称峰度,Kurtosis)的概念,以表示分布相对于正太分布的尖锐或平坦程度。后面两小节分别对此进行了从单个 随机变量到多个随机变量的推广的分析和随机变量服从高斯分布(正态分布)的特殊情形做了分析。

Original Link: http://ibillxia.github.io/blog/2013/05/08/speech-processing-in-time-domain/
Attribution - NON-Commercial - ShareAlike - Copyright © Bill Xia