位置:51电子网 » 技术资料 » 集成电路

语音信号编码

发布时间:2008/12/17 0:00:00 访问次数:621

  早期的语音信号处理及传输均是以模拟的方式进行的。20世纪30年代末脉冲编码调制(pcm,pulse code modulation)原理和声码器(vocoder)概念被提出后,语音数字编码便一直沿着这两个方向发展。语音数据压缩目的是能在尽可能低的传输速率上获得高质量的语音效果,即希望语音信号可以在带宽较窄的信道中传输而语音质量下降的不多或尽可能不下降。语音编码系统早期用的是波形编码方法,也叫波形编码(或非参数编码),其目的是力图使重建的语音波形保持原语音信号的波形形状。这种编码器是把语音信号当成一般的波形信号来处理,而并未考虑语音信号的冗佘度。它的优点是具有较强的适应能力,有较好的合成语音质量,然而编码速率高(64kbit/s),编码效率极低。脉冲编码调制(pcm)、自适应增量调制(adm)、自适应差分编码(adpcm)、自适应编码(apc)等都是属于波形编码(非参数编码)。而声码器则是不同于波形编码器的高效编码方式。声码器又称参数编码(或模型编码),它主要是对提取的语音信号特征参数进行编码,目的主要是使重建的语音信号具有尽可能高的可懂度,而不是要求重建波形保持原语音波形的形状。因此,可能出现的情况是即使重建语音的可懂度高,但其时域波形与原语音的时域波形有较大的差别。这种编码器的优点是可达到极低的编码速率而语音依然可懂,编码速率可达到8kbit/s、4.8kbit/s甚至更低。主要缺点是重建语音自然度低,韵律感差,合成语音质量差。声码器的典型代表是通道声码器、共峰声码器及线性预测声码器等。

  20世纪80年代至今,不仅声码器和波形编码器得到了很大发展,并且还有一种全新的革命性编码方法被普遍推广,这类编码器叫混合编码器。这种编码器在传送器中对给定编码结构的所有可能性进行综合,找出输人语音的最好编码形式,并从这些可能性中发现输入语音的最优主观匹配,然后用数码表示这种主观匹配并发送到接收器。利用线性预测、vq、a-b-s、感觉加权、后滤波等技术得到的多脉冲激励线性预测(mpelp,multi pulse enspirit lineprognosticate),规则脉冲激励线性预测(rpelp,rule pulse enspirit line prognosticate),码本激励线性预测(celp,code enspirit line prognosticate) 编码速率达到8~16kbit/s甚至更底,其话音质量高、编码速率低,但算法复杂。

  近年来,itu-t在多媒体数字通信方面(包括电视会议等)制定了一系列国际标准(按itu的说法是建议)。

  表1 itu-t多媒体会议标准(基本模式)

  在现有的网路设施条仵下,h.320和h.323比较适用的标准。h.320的基本音频模式是g.711 log-pcm(对数脉码调制)编码解码器,它是一种简单的8khz采样频率对数脉码调制模式,长期以来它都是数字电话网络主要的编码方法(长途电话尽管起源于模拟电话,现在长途电话在数字网络上传输)。

  g.711定义为8位编码,速率为64kbit/s,但在h.320中采样截短为6或7比特位,因为速率相应变为48kbit/s或56kbit/s。g.711提供了出色的长话音质窄带(3khz音频带宽)语音、不太明显的编解码延迟(低于1ms)以及非常低的实现复杂性。为了提供与普通g.711音频电话的兼容性,所有的h.320呼叫在h.221 fas和bas信道中进行同步初始化和模式协商时开始发送和接收g.711音频。

  g.711有很多优点,但是g.711指定了两个不同的编码a律和μ律,在采用g.711标准的区域,不同地方使用上述两种不同的方法。ccitt不能达成统一的编码方法。结果是h.320系统必须由远端在每次呼叫开始时自动发现使用的编码律,或者避免使用音频直到h.320控制过程能用来建立另一音频模式。而且,g.711因为它的低复杂性和与普遍电话的兼容性成为h.320的基本音频模式,但与其他h.320音频模式相比在使用带宽方面它是效率低下的。如果转到其他音频模式下节省的数据带宽可用来传送更多的视频位,将使h.320视频质量有很大不同,特别是在普通的2-b(128kbit/s)h.320呼叫上。

  鉴于g.711语音压缩协议本身的一些缺点,人们一直在找一种替代它的协议,现在已经开始用的有g.722协议和g.728协议。

  g.728是目前h.320中用得较多的窄带音频模式。它是基于通常的8khz窄带采样和5个采样(0.625ms)的音频帧的低时延码本激励线性编码(ld-celp),比特率为16kbit/s,提供很好的长话音质,总延迟为大约1.875ms。

  在现有网络条件下,需要一个窄带音频模式,但是又要有相当好的语音质量。 最近建立的8kbit/s电话标准真正提高了该速率下的语音品质并改善了复杂性,这种编码器在某种程度上是一个突破,因此它的严格规范使性能达到或超过了32kbit/s的g.726 adpcm,但速率仅为8kbit/s。itu g.729 skbit/s标准在性能上不亚于g.726,其算法延时少于16ms,随机误码和背景噪声的

  早期的语音信号处理及传输均是以模拟的方式进行的。20世纪30年代末脉冲编码调制(pcm,pulse code modulation)原理和声码器(vocoder)概念被提出后,语音数字编码便一直沿着这两个方向发展。语音数据压缩目的是能在尽可能低的传输速率上获得高质量的语音效果,即希望语音信号可以在带宽较窄的信道中传输而语音质量下降的不多或尽可能不下降。语音编码系统早期用的是波形编码方法,也叫波形编码(或非参数编码),其目的是力图使重建的语音波形保持原语音信号的波形形状。这种编码器是把语音信号当成一般的波形信号来处理,而并未考虑语音信号的冗佘度。它的优点是具有较强的适应能力,有较好的合成语音质量,然而编码速率高(64kbit/s),编码效率极低。脉冲编码调制(pcm)、自适应增量调制(adm)、自适应差分编码(adpcm)、自适应编码(apc)等都是属于波形编码(非参数编码)。而声码器则是不同于波形编码器的高效编码方式。声码器又称参数编码(或模型编码),它主要是对提取的语音信号特征参数进行编码,目的主要是使重建的语音信号具有尽可能高的可懂度,而不是要求重建波形保持原语音波形的形状。因此,可能出现的情况是即使重建语音的可懂度高,但其时域波形与原语音的时域波形有较大的差别。这种编码器的优点是可达到极低的编码速率而语音依然可懂,编码速率可达到8kbit/s、4.8kbit/s甚至更低。主要缺点是重建语音自然度低,韵律感差,合成语音质量差。声码器的典型代表是通道声码器、共峰声码器及线性预测声码器等。

  20世纪80年代至今,不仅声码器和波形编码器得到了很大发展,并且还有一种全新的革命性编码方法被普遍推广,这类编码器叫混合编码器。这种编码器在传送器中对给定编码结构的所有可能性进行综合,找出输人语音的最好编码形式,并从这些可能性中发现输入语音的最优主观匹配,然后用数码表示这种主观匹配并发送到接收器。利用线性预测、vq、a-b-s、感觉加权、后滤波等技术得到的多脉冲激励线性预测(mpelp,multi pulse enspirit lineprognosticate),规则脉冲激励线性预测(rpelp,rule pulse enspirit line prognosticate),码本激励线性预测(celp,code enspirit line prognosticate) 编码速率达到8~16kbit/s甚至更底,其话音质量高、编码速率低,但算法复杂。

  近年来,itu-t在多媒体数字通信方面(包括电视会议等)制定了一系列国际标准(按itu的说法是建议)。

  表1 itu-t多媒体会议标准(基本模式)

  在现有的网路设施条仵下,h.320和h.323比较适用的标准。h.320的基本音频模式是g.711 log-pcm(对数脉码调制)编码解码器,它是一种简单的8khz采样频率对数脉码调制模式,长期以来它都是数字电话网络主要的编码方法(长途电话尽管起源于模拟电话,现在长途电话在数字网络上传输)。

  g.711定义为8位编码,速率为64kbit/s,但在h.320中采样截短为6或7比特位,因为速率相应变为48kbit/s或56kbit/s。g.711提供了出色的长话音质窄带(3khz音频带宽)语音、不太明显的编解码延迟(低于1ms)以及非常低的实现复杂性。为了提供与普通g.711音频电话的兼容性,所有的h.320呼叫在h.221 fas和bas信道中进行同步初始化和模式协商时开始发送和接收g.711音频。

  g.711有很多优点,但是g.711指定了两个不同的编码a律和μ律,在采用g.711标准的区域,不同地方使用上述两种不同的方法。ccitt不能达成统一的编码方法。结果是h.320系统必须由远端在每次呼叫开始时自动发现使用的编码律,或者避免使用音频直到h.320控制过程能用来建立另一音频模式。而且,g.711因为它的低复杂性和与普遍电话的兼容性成为h.320的基本音频模式,但与其他h.320音频模式相比在使用带宽方面它是效率低下的。如果转到其他音频模式下节省的数据带宽可用来传送更多的视频位,将使h.320视频质量有很大不同,特别是在普通的2-b(128kbit/s)h.320呼叫上。

  鉴于g.711语音压缩协议本身的一些缺点,人们一直在找一种替代它的协议,现在已经开始用的有g.722协议和g.728协议。

  g.728是目前h.320中用得较多的窄带音频模式。它是基于通常的8khz窄带采样和5个采样(0.625ms)的音频帧的低时延码本激励线性编码(ld-celp),比特率为16kbit/s,提供很好的长话音质,总延迟为大约1.875ms。

  在现有网络条件下,需要一个窄带音频模式,但是又要有相当好的语音质量。 最近建立的8kbit/s电话标准真正提高了该速率下的语音品质并改善了复杂性,这种编码器在某种程度上是一个突破,因此它的严格规范使性能达到或超过了32kbit/s的g.726 adpcm,但速率仅为8kbit/s。itu g.729 skbit/s标准在性能上不亚于g.726,其算法延时少于16ms,随机误码和背景噪声的

上一篇:傅立叶变换

上一篇:语音信号去噪

相关IC型号

热门点击

 

推荐技术资料

DS2202型示波器试用
    说起数字示波器,普源算是国内的老牌子了,FQP8N60... [详细]
版权所有:51dzw.COM
深圳服务热线:13692101218  13751165337
粤ICP备09112631号-6(miitbeian.gov.cn)
公网安备44030402000607
深圳市碧威特网络技术有限公司
付款方式


 复制成功!