摘要:介绍一种融合最大后验概率算法和改进的高阶倒谱归整的抗噪声语音识别方法。将最大后验概率算法用于特征空间来估计电话通道特性(通道差的估计),用分段高阶倒谱归整进行后续补偿,可以同时减少电话语音中卷积噪声和加性噪声的影响。实验结果验证了该方法的有效性,与传统的倒谱均值减相比,训练库中识别率从46.3%提高到87.5%。
关键词:电话语音识别 高阶倒谱规整 最大后验概率估计 分段
电话语音识别借助通信平台,实现了语音技术的更广泛应用,人们通过最便捷的电话方式可以查询到远端数据库中的所需信息,给日常生活带来了极大的方便。然而由于电话网络中各种噪声的影响,使得语音识别系统的性能大幅度下降。电话语音的噪声主要分为两部分:背景噪声和电噪声的影响为加性噪声;由电话话筒和传输线引起的通道影响,即卷积噪声。尽可能地减少这两种噪声在电话语音中的影响,提高电话语音的鲁棒性是系统达到实用化的关键。
针对电话语音鲁棒性的研究,前人已经作了很多工作,提出的一些方法如倒谱均值减[1](CMS)、CDCN[2](Codeword-Dependent Cepstral Normalization)、相对谱RASTA[3](RelAtive SpecTral)处理技术等,对减少测试环境与训练环境的失配都有一定的效果。但随着噪声的增强,以上方法对系统性能的提高都在非常有限。
基于最大后验概率(MAP)算法的自适应方法利用Bayes理论,通过对模型参数进行修正,显示了相当好的性能。为了减小模型计算的复杂度,该文也将MAP算法用于特征空间,用该算法估计电话通道影响。高阶倒谱归整是将倒谱均值减的均值归一扩展到更高阶阶矩归一。研究发现,当归一化较高阶数的阶矩时,失配进一步减少,带噪语音信号的概率密度函数更接近干净语音的概率密度函数,特征参数更具有鲁棒性。
本文提出了一种基于最大后验概率算法的估计通道影响方法,并用改进的高阶倒谱归整作后续补偿,将两者结合同时提高系统对加性噪声和卷积噪声的鲁棒性。实验表明这种方法能有效地提高电文事音识别系统的识别率。
1 算法描述
1.1 通道估计理论
假设Y(n)表示实际的电话语音倒谱矢量,X(n)表示纯净语音的倒谱矢量,h表示通道响应的倒谱失量。在不考虑北京噪声的情况下有:
Y(n)=X(n)+h (1)
将(1)式两边同时减去通道矢量的估计值h,有
Y'(n)Y(n)-h=X(n)+h-h=X(n)+Δh (2)
其中Δh=h-h。目的是尽可能地使Y'(n)接近于X(n),若再将(2)式两边同时减去Δh的估计值Δh,可以进一步减少失配。
Y″(n)=Y'(n)-Δh=X(n)+Δh' (3)
其中Δh=Δh-Δh。
研究发现,CMS是用于估计通道矢量的有效方法之一,因其有理简单、计算方便而应用广泛。由CMS方法得到h=Y后,(3)式表示为:
Y″(n)=Y(n)-Y-Δh (4)
1.2 MAP算法[4-5]
在MAP算法中,后验概率由似然函数和先验概率组成。由于引入了通道的先验统计特性,理论上MAP算法比最大似然估计算法(ML)估计得要准确。因此,用MAP估计通道向量与均值的差,把(4)式中的Δh表示为ΔhMAP,同时,为了表示方便,将Y(n)-Y用Z来表示。
运用MAP算法求ΔhMAP,用公式表示为:
ΔhMAP=argmax P(Δh/Z) (5)
其中P(Δh/Z)是后验概率,直接从(5)式中估计ΔhMAP是很困难的,然而(5)式等价为:
为计算方便是,将(6)式取对数,得到:
基于MAP算法和高阶倒谱归整的电话语音识别方法 [日期:2005-12-27] 来源:电子技术应用 作者:徐 洁 杨鼎才 [字体:大 中 小]
摘要:介绍一种融合最大后验概率算法和改进的高阶倒谱归整的抗噪声语音识别方法。将最大后验概率算法用于特征空间来估计电话通道特性(通道差的估计),用分段高阶倒谱归整进行后续补偿,可以同时减少电话语音中卷积噪声和加性噪声的影响。实验结果验证了该方法的有效性,与传统的倒谱均值减相比,训练库中识别率从46.3%提高到87.5%。
关键词:电话语音识别 高阶倒谱规整 最大后验概率估计 分段
电话语音识别借助通信平台,实现了语音技术的更广泛应用,人们通过最便捷的电话方式可以查询到远端数据库中的所需信息,给日常生活带来了极大的方便。然而由于电话网络中各种噪声的影响,使得语音识别系统的性能大幅度下降。电话语音的噪声主要分为两部分:背景噪声和电噪声的影响为加性噪声;由电话话筒和传输线引起的通道影响,即卷积噪声。尽可能地减少这两种噪声在电话语音中的影响,提高电话语音的鲁棒性是系统达到实用化的关键。
针对电话语音鲁棒性的研究,前人已经作了很多工作,提出的一些方法如倒谱均值减[1](CMS)、CDCN[2](Codeword-Dependent Cepstral Normalization)、相对谱RASTA[3](RelAtive SpecTral)处理技术等,对减少测试环境与训练环境的失配都有一定的效果。但随着噪声的增强,以上方法对系统性能的提高都在非常有限。
基于最大后验概率(MAP)算法的自适应方法利用Bayes理论,通过对模型参数进行修正,显示了相当好的性能。为了减小模型计算的复杂度,该文也将MAP算法用于特征空间,用该算法估计电话通道影响。高阶倒谱归整是将倒谱均值减的均值归一扩展到更高阶阶矩归一。研究发现,当归一化较高阶数的阶矩时,失配进一步减少,带噪语音信号的概率密度函数更接近干净语音的概率密度函数,特征参数更具有鲁棒性。
本文提出了一种基于最大后验概率算法的估计通道影响方法,并用改进的高阶倒谱归整作后续补偿,将两者结合同时提高系统对加性噪声和卷积噪声的鲁棒性。实验表明这种方法能有效地提高电文事音识别系统的识别率。
1 算法描述
1.1 通道估计理论
假设Y(n)表示实际的电话语音倒谱矢量,X(n)表示纯净语音的倒谱矢量,h表示通道响应的倒谱失量。在不考虑北京噪声的情况下有:
Y(n)=X(n)+h (1)
将(1)式两边同时减去通道矢量的估计值h,有
Y'(n)Y(n)-h=X(n)+h-h=X(n)+Δh (2)
其中Δh=h-h。目的是尽可能地使Y'(n)接近于X(n),若再将(2)式两边同时减去Δh的估计值Δh,可以进一步减少失配。
Y″(n)=Y'(n)-Δh=X(n)+Δh' (3)
其中Δh=Δh-Δh。
研究发现,CMS是用于估计通道矢量的有效方法之一,因其有理简单、计算方便而应用广泛。由CMS方法得到h=Y后,(3)式表示为:
Y″(n)=Y(n)-Y-Δh (4)
1.2 MAP算法[4-5]
在MAP算法中,后验概率由似然函数和先验概率组成。由于引入了通道的先验统计特性,理论上MAP算法比最大似然估计算法(ML)估计得要准确。因此,用MAP估计通道向量与均值的差,把(4)式中的Δh表示为ΔhMAP,同时,为了表示方便,将Y(n)-Y用Z来表示。
运用MAP算法求ΔhMAP,用公式表示为:
ΔhMAP=argmax P(Δh/Z) (5)
其中P(Δh/Z)是后验概率,直接从(5)式中估计ΔhMAP是很困难的,然而(5)式等价为:
为计算方便是,将(6)式取对数,得到: