灰关联分析与语音/音乐信号识别
发布时间:2007/9/11 0:00:00 访问次数:1518
摘要:将灰关联分析方法应用于语音/音乐信号的分类和识别,并给出了对音频信号进行灰关联分析的方法和步骤。利用语音和音乐信号的短时能量均方根的概率统计特征建立目标的参考数据和比较数据,进行语音和音乐信号的灰关联分析,确定目标识别与分类的判据,并对两类信号进行识别。仿真结果表明灰关联分析方法应用于音频信号分类和识别具有一定的可行性。
关键词:灰关联分析 特征 语音和音乐识别 仿真
语音和音乐是两类最重要的音频数据,语音和音乐的自动分类在基于内容的音频检索、视频的摘要以及语音识别等众多领域都有重要的应用价值。
目前,国内外语音信号识别多采用基于感觉特征(例如响度、音调、谐度等)和过零率、功率谱、MFCC系数等多种语音/音乐分类特征的模式识别技术实现信号的自动识别。然而当识别对象的参数不完整、不齐全时,这些方法有的不能给出正确可靠的结果,有的无法进行识别,有的识别的可靠性较差。由于语音信号环境的复杂和多变性,语音和音乐信号参数有时很难完全得到,上述方法在实际应用中存在一定的局限性。
因此,如何有效利用现有的少量音频数据,准确地进行了音频信号的自动分类识别,尤其是语音和音乐的分类,并作为提取音频内容语义和结构的重要手段之一,其研究日益引起人们的重视。灰色系统理论特别是灰关联分析方法的发展,为解决这一问题提供了问题。
图1
1 语音/音乐信号的灰关联分析方法
灰色系统理论属系统论的范畴,灰色是指信息不完全。灰色系统理主要研究系统模型不明确、行为信息不完全、运行机制不清楚这类系统的建模、预测、决策和控制等问题。在进行序列关联分析时,必须先确定参考数列,然后比其它序列与参考序列的接近程度,进而进出判断。灰关联分析的主要步骤:(1)确定参考序列和比较序列;(2)求灰关联系数;(3)求灰度联度;(4)按灰关联度大小排序。
2 参考序列和比较序列的确定
选取一定无停顿的语音信号和音乐信号作为待识别音频信号,音频信号的特征提取本质上起到了降维作用,用较少的维度表现了时域上的音频信号。考虑到只有在5~20ms的时间间隔内才可以认为音频信号的特征基本保持不变。因此本文选取短时能量均方根的概率统计方法提取语音和音乐信号的特征。
图1(a)和图2(a)分别为语音和音乐信号短时能量的均方根(RMS)的时域波形。其采样频率均为11025Hz,矩形窗长度N取10ms,时间长度为30s。
式(1)中,x(n)是音频信号,矩形窗序列沿音频样点序列逐帧移动,每段帧长度为N。
30s的RMS的概率分布即信号分布频数直方图如图1(b)、图2(b)所示。由图可知两分布有效明显的差异,可以作为识别语音和音乐信号的特片依据。进一步研究发现其概率分布服从不同参数时的广义X2分布。
选取上述30s的语音和音乐信号RMS概率分布作为参考序列,记为xj={xj(k)|k=1,2,…,K},其中x1为语音参序列,x2为音乐参考序列,记作yi={yi(k)|k=1,2,…,k},其中y1为语音比较数列,y2为音乐比较序列。K为特征数量,本文取K=10。为检验不同长度比较序列的灰关联度,特征提取的比较序列时间长度分别取0.1s、1s、10s。图3为与30s的语音和音乐参考信号RMS概率分布比较图。由图3可知,比较序列的时间长度越长,概率分布与参考序列的相似程度就越大,当比较序列时长为10s时,概率分布几乎与参考序列吻合。
为保证音频序列的可比性,在进行灰关联分析时,需要对序列进行初值化生成处理,即对一个数列的所有数据均用其第一个数去除。这个新序列表明原始数列中不同时刻的值相对于第一个时刻值的倍数。
图2
3 计算灰关联系数
在语音/音乐识别中,由于目标的类型为两个,有两个参考序列,为区分不同的类型就需要求一组比较序列与组参考序列的灰关联度。如果在局部环境下计算每一组比较序列分别与二组参考序列的灰度联系数,则在不同局部条件下所得到的灰关联度将失去可比性。因此,为实现音频类型的识别,在计算某一个比较序列与各个参考序列的灰关联度时,必须是在相同最大值和最小值下计算,从而得到“全局环境”的灰关联度系数。
计算全局环境下的灰关联系数的算法如下:
其中,Nj={1,2},Ni={1,2},K={1,2,…,10},常数ξ称为分辨系数,ξ∈[0,1],其作用是调整比较环境的大小。ξ越小,分辨力越大。一段取ξ=0.5。minminmin|xj(k)-yi(k)|称为两极最小差,maxmaxmax|xj(k)-yi(k)|称为两极最大差,|xj(k)-yi(k)|称为第k个指标xj与yi的绝对差。
4 计算灰关联度
灰关联分析的实质,就是对数列曲线进行几
摘要:将灰关联分析方法应用于语音/音乐信号的分类和识别,并给出了对音频信号进行灰关联分析的方法和步骤。利用语音和音乐信号的短时能量均方根的概率统计特征建立目标的参考数据和比较数据,进行语音和音乐信号的灰关联分析,确定目标识别与分类的判据,并对两类信号进行识别。仿真结果表明灰关联分析方法应用于音频信号分类和识别具有一定的可行性。
关键词:灰关联分析 特征 语音和音乐识别 仿真
语音和音乐是两类最重要的音频数据,语音和音乐的自动分类在基于内容的音频检索、视频的摘要以及语音识别等众多领域都有重要的应用价值。
目前,国内外语音信号识别多采用基于感觉特征(例如响度、音调、谐度等)和过零率、功率谱、MFCC系数等多种语音/音乐分类特征的模式识别技术实现信号的自动识别。然而当识别对象的参数不完整、不齐全时,这些方法有的不能给出正确可靠的结果,有的无法进行识别,有的识别的可靠性较差。由于语音信号环境的复杂和多变性,语音和音乐信号参数有时很难完全得到,上述方法在实际应用中存在一定的局限性。
因此,如何有效利用现有的少量音频数据,准确地进行了音频信号的自动分类识别,尤其是语音和音乐的分类,并作为提取音频内容语义和结构的重要手段之一,其研究日益引起人们的重视。灰色系统理论特别是灰关联分析方法的发展,为解决这一问题提供了问题。
图1
1 语音/音乐信号的灰关联分析方法
灰色系统理论属系统论的范畴,灰色是指信息不完全。灰色系统理主要研究系统模型不明确、行为信息不完全、运行机制不清楚这类系统的建模、预测、决策和控制等问题。在进行序列关联分析时,必须先确定参考数列,然后比其它序列与参考序列的接近程度,进而进出判断。灰关联分析的主要步骤:(1)确定参考序列和比较序列;(2)求灰关联系数;(3)求灰度联度;(4)按灰关联度大小排序。
2 参考序列和比较序列的确定
选取一定无停顿的语音信号和音乐信号作为待识别音频信号,音频信号的特征提取本质上起到了降维作用,用较少的维度表现了时域上的音频信号。考虑到只有在5~20ms的时间间隔内才可以认为音频信号的特征基本保持不变。因此本文选取短时能量均方根的概率统计方法提取语音和音乐信号的特征。
图1(a)和图2(a)分别为语音和音乐信号短时能量的均方根(RMS)的时域波形。其采样频率均为11025Hz,矩形窗长度N取10ms,时间长度为30s。
式(1)中,x(n)是音频信号,矩形窗序列沿音频样点序列逐帧移动,每段帧长度为N。
30s的RMS的概率分布即信号分布频数直方图如图1(b)、图2(b)所示。由图可知两分布有效明显的差异,可以作为识别语音和音乐信号的特片依据。进一步研究发现其概率分布服从不同参数时的广义X2分布。
选取上述30s的语音和音乐信号RMS概率分布作为参考序列,记为xj={xj(k)|k=1,2,…,K},其中x1为语音参序列,x2为音乐参考序列,记作yi={yi(k)|k=1,2,…,k},其中y1为语音比较数列,y2为音乐比较序列。K为特征数量,本文取K=10。为检验不同长度比较序列的灰关联度,特征提取的比较序列时间长度分别取0.1s、1s、10s。图3为与30s的语音和音乐参考信号RMS概率分布比较图。由图3可知,比较序列的时间长度越长,概率分布与参考序列的相似程度就越大,当比较序列时长为10s时,概率分布几乎与参考序列吻合。
为保证音频序列的可比性,在进行灰关联分析时,需要对序列进行初值化生成处理,即对一个数列的所有数据均用其第一个数去除。这个新序列表明原始数列中不同时刻的值相对于第一个时刻值的倍数。
图2
3 计算灰关联系数
在语音/音乐识别中,由于目标的类型为两个,有两个参考序列,为区分不同的类型就需要求一组比较序列与组参考序列的灰关联度。如果在局部环境下计算每一组比较序列分别与二组参考序列的灰度联系数,则在不同局部条件下所得到的灰关联度将失去可比性。因此,为实现音频类型的识别,在计算某一个比较序列与各个参考序列的灰关联度时,必须是在相同最大值和最小值下计算,从而得到“全局环境”的灰关联度系数。
计算全局环境下的灰关联系数的算法如下:
其中,Nj={1,2},Ni={1,2},K={1,2,…,10},常数ξ称为分辨系数,ξ∈[0,1],其作用是调整比较环境的大小。ξ越小,分辨力越大。一段取ξ=0.5。minminmin|xj(k)-yi(k)|称为两极最小差,maxmaxmax|xj(k)-yi(k)|称为两极最大差,|xj(k)-yi(k)|称为第k个指标xj与yi的绝对差。
4 计算灰关联度
灰关联分析的实质,就是对数列曲线进行几
上一篇:数字视频接口——DVI 1.0