对线性预测语音解压缩方法的探讨
发布时间:2007/8/24 0:00:00 访问次数:586
摘要:本文针对常见的语音压缩方法,具体叙述了线性预测编码的基本原理及具体格式,并对算法实现的软件及硬件进行了详细的分析。
关键词:线性预测编码 格形滤波器 PWM MATLAB
引言
现实生活中,有大量语音数字存储和传输、语音综合、说话人确认和辨认、语音识别的应用,这些应用需要处理的数据量很大,这必须采用一定的压缩方法进行处理。
对频率范围为300Hz——3000Hz的语音,诸如电脑语音图书、真人发声电子字典、语言学习机等,只需要一般的语音压缩方法,而对20Hz——20KHz的音乐,则需高级的压缩方法。当然,在选择语音表示方法时,数据压缩率不是唯的考虑,还要考虑价格、表示的灵活性、语音考虑价格、表示的灵活性、语音的质量等诸多因素。在选择信号表示以及随后作用的数字信号处理方法时最重要的考虑还是应用的实际需要。
针对我们目前开发的发音电子字典及语音学习机等产生,既需要音质清晰又要价格便宜,我们考虑采用参数表示语音信号的LPC,MELP,CELP压缩方法。
LPC(Linear Predictive Coding-线性预测编码),是一种低速率的语音参数表示方法,它根据最小的方误差的准则,用过去的若干语音数字信号来预测当前的语音信号,将估算出来的语音参数送到语音合成模型后输出语音。混合激励线性预测MELP和码本激励线性预测CELP也是基于线性预测上的语音压缩方法,数据压缩量销逊于LPC,但因其语音数据的制作不需要专门的硬件与有经验的调音人员,在语音产品的开发中也得到了广泛的应用,本文重点描述LPC算法的软件和硬件实现。
LPC原理简述
LPC语音编码的基础是语音产生模型,它模拟人的发生过程。在这个模型中,语音信号分为清音和浊间,在浊音时声道中产生对应音调周期的脉冲列,而在清音时,则产生白噪声序列,语音就是由这些激励信号激励一个自适应滤波器(即全极点滤波器)产生的。
LPC滤波器的参数ak是通过线性预测的方法,即用若干过去的样值预测当前样值提取的,预测值与真值之间的误差满足最小均方误差准则。参数随时间逐帧更新,更新速率30~100次/秒,即帧移为10~33ms。在每帧之间对参数进行内插以适应参数随时间缓慢变化。
因此,LPC模型只需传输增益系数,浊音和清音的判决信息、浊音音调和全极点滤波器的参数{ak},k=1,…p,用超低BIT率便可实现语音信号的传送。这种高压缩率可以大大降低语音识别中的存储量。
语音合成模型见图1。
L
摘要:本文针对常见的语音压缩方法,具体叙述了线性预测编码的基本原理及具体格式,并对算法实现的软件及硬件进行了详细的分析。
关键词:线性预测编码 格形滤波器 PWM MATLAB
引言
现实生活中,有大量语音数字存储和传输、语音综合、说话人确认和辨认、语音识别的应用,这些应用需要处理的数据量很大,这必须采用一定的压缩方法进行处理。
对频率范围为300Hz——3000Hz的语音,诸如电脑语音图书、真人发声电子字典、语言学习机等,只需要一般的语音压缩方法,而对20Hz——20KHz的音乐,则需高级的压缩方法。当然,在选择语音表示方法时,数据压缩率不是唯的考虑,还要考虑价格、表示的灵活性、语音考虑价格、表示的灵活性、语音的质量等诸多因素。在选择信号表示以及随后作用的数字信号处理方法时最重要的考虑还是应用的实际需要。
针对我们目前开发的发音电子字典及语音学习机等产生,既需要音质清晰又要价格便宜,我们考虑采用参数表示语音信号的LPC,MELP,CELP压缩方法。
LPC(Linear Predictive Coding-线性预测编码),是一种低速率的语音参数表示方法,它根据最小的方误差的准则,用过去的若干语音数字信号来预测当前的语音信号,将估算出来的语音参数送到语音合成模型后输出语音。混合激励线性预测MELP和码本激励线性预测CELP也是基于线性预测上的语音压缩方法,数据压缩量销逊于LPC,但因其语音数据的制作不需要专门的硬件与有经验的调音人员,在语音产品的开发中也得到了广泛的应用,本文重点描述LPC算法的软件和硬件实现。
LPC原理简述
LPC语音编码的基础是语音产生模型,它模拟人的发生过程。在这个模型中,语音信号分为清音和浊间,在浊音时声道中产生对应音调周期的脉冲列,而在清音时,则产生白噪声序列,语音就是由这些激励信号激励一个自适应滤波器(即全极点滤波器)产生的。
LPC滤波器的参数ak是通过线性预测的方法,即用若干过去的样值预测当前样值提取的,预测值与真值之间的误差满足最小均方误差准则。参数随时间逐帧更新,更新速率30~100次/秒,即帧移为10~33ms。在每帧之间对参数进行内插以适应参数随时间缓慢变化。
因此,LPC模型只需传输增益系数,浊音和清音的判决信息、浊音音调和全极点滤波器的参数{ak},k=1,…p,用超低BIT率便可实现语音信号的传送。这种高压缩率可以大大降低语音识别中的存储量。
语音合成模型见图1。
L