基于定点DSP的MP3音频编码算法研究及实现

发布时间:2008/5/27 0:00:00 访问次数:510

ｍｐ３是ｍｐｅｇ－１国际标准中音频压缩层３的简称，单声道比特率一般取６４ｋｂｐｓ，在采样率４４．１ｋｈｚ的情况下，其压缩比可达１２倍以上，被广泛应用于互联网等许多场合。由于解码比编码过程简单很多，ｍｐ３播放机或随身听已随处可见，但ｍｐ３编码在单片定点ｄｓｐ上实现，并要保证音质，则鲜有耳闻。考虑到心理声学模型在整个ｍｐ３音频编码算法中所占比例巨大，笔者从简化该模型入手，采用快速算法减少子带编码的运算量和数据量，尽可能减少量化编码的迭代循环次数，从而在一片美国德州仪器公司的ｔｍｓ３２０ｃ５４９tms320c549芯片上实现了ｍｐ３的实时压缩，用标准解码软件回放，主观评定，对于通常的音频能达到接近ｃｄ的音质。

１ｍｐ３编码算法及原理

图１是ｍｐ３编码器的系统方框图。每声道以１１５２个采样值为一帧进行处理。首先，分析子带滤波采用正交镜像滤波器组，将２０ｋｈｚ左右带宽的信号划分成相等带宽的３２个子带。然后对子带样值作ｍｄｃｔ以补偿子带滤波的不足，主要是为提高频率分辨率、消除由子带滤波引起的带间混迭。

同时采样值通过心理声学模型计算出各频带的掩蔽阈值。

失真控制循环和非归一化量化控制循环是量化编码循环过程，它通过量化减少各ｍｄｃｔ系数的精度，使编码比特数得以降低。不同系数采用不同的量化阶，人耳敏感的频率量化精度高，不敏感的频率量化精度低，量化误差则不会被人耳察觉。选择量化阶的依据就是心理声学模型计算出的掩蔽阈值。最后将量化阶等信息以及霍夫曼码打包成比特流，供解码用。

那么为什么掩蔽阈值能反映人耳的听觉特点呢？

人耳的听觉特性涉及生理声学和心理声学方面的问题。例如人耳对不同频率的声音感觉不同就是生理方面的问题，其中对２ｋｈｚ～４ｋｈｚ的声音最敏感，且低频较高频敏感。敏感程度具体体现为静态掩蔽阈值，如图２虚线所示，表示在安静的情况下，各种频率的声音刚好被听到的音量。与人的心理知觉有关的有掩蔽效应等。掩蔽效应指一个声音的听觉感受受到另一个声音影响的现象，分为时间掩蔽（前向、后向掩蔽）和频率掩蔽（同时掩蔽）。例如，当一个较强的声音停止后，要过一会儿才能听到另一个较弱的声音，这就是时间掩蔽效应。频率掩蔽是指一个声音对与其同时存在的临近频率的声音产生的影响，如图２实线所示。其中标志１的实线表示：当１ｋｈｚ的掩蔽声音为６０ｄｂ时，不同频率的声音刚好被听到的分贝值，可见越临近频率被掩蔽得越厉害，且低频更易掩蔽高频。因此心理声学模型就先用ｆｆｔ分析信号中包含的频率分量，将每个频率处受到其他所有频率分量掩蔽的值加起来，连线得到的曲线就是掩蔽阈值，是频率的函数。当某频率分量的能量处在曲线下方时，不能被人耳感觉到，则该频率分量可用零比特编码；另一方面，选择量化阶时若能保证量化噪声低于掩蔽曲线，也不被人耳察觉，所以掩蔽阈值越大的频率分量量化阶可以越大。因此用掩蔽阈值作为量化编码的依据，就能够保证压缩后的声音质量。由于声音信号随时间改变，因此每帧信号都要计算两次心理声学模型，其中要用到大量的实验测试数据，运算量之大是可想而知的。

２算法的简化和优化

２．１分析子带滤波器的快速算法

分析子带滤波器的输入是３２个采样值，输出是３２个频率等间隔的子带样值。它首先将３２个采样值放入一个长度５１２的先进先出（ｆｉｆｏ）缓存；对该缓存加窗；然后５１２个缓存中每８个值累加，转换成６４个中间值；最后通过（１）式将６４个中间值变换成３２个采样值：

可见用（５）式代替（１）式可以减少一半的乘法运算。又发现（５）式和标准的ｉｄｃｔ非常相似，可以将ｌｅｅ提出的快速ｉｄｃｔ算法稍加改动推导（５）式的快速算法。所以又将３２点变换分解成以下的两个１６点变换：