DSP的声控电子记事本的设计与实现
发布时间:2008/8/30 0:00:00 访问次数:517
语音输入方式与手写输入方式相比,具有操作简便、查找方便、识别准确率高等优点。省去了大量的输入时间,降低了信息检索的复杂度。本文所介绍的声控电子记事本系统将语音识别和语音编解码在同一片dsp芯片上实现,用语音方式代替其它方式进行信息输入,提高了系统的灵活性。
1 系统功能
可存200张语音名片,每张语音名片包含四条信息:姓名、电话号码、工作单位、备注;声控查找语音名片信息,用户只需口述所要查找人的姓名,即可获得电话号码、工作单位、备注等信息,同时电话号码显示在液晶显示屏上。
具有双音多频(dtmf)拨号功能,用户用声控查找到电话号码并显示在液晶屏上之后,只需轻触一个拨号键,即可通过普通电话机的话筒实现快速自动拨号。
数字录音,每段录音加语音标识;声控放音,在放音时只需口述所要语音段的语音标识即可自动找到该段录音并加放,累计录音时间达两个半小时以上。
具有方便的编辑功能,增加、删除语音名片,增加、删除数字录音段。
2 系统构成
本文所介绍的声控电子记事本系统,是在定点16位dsp芯片上实现的,它包含特定人孤立词语音识别算法和代数码本激励线性预测(acelp)语音编解码算法数(mfcc)为语音特征、以动态时间规划(dtw)为模板匹配算法,对于普通词条,识别率达到了99%以上。用于“录音”功能的acelp算法是该码率下性能优异的编解码算法,虽然算法复杂度较高,但共重建语音质量的平均主观评测分数(mos分)达到了4.0,非常接近于压缩前的分数4.3。
如图1所示,系统由mcu实现总线控制,接受外部键盘输入,并在液晶屏上显示信息。在本系统中,语音充当大部分人机界面的角色,尽量省去复杂的键盘操作,而且用语音提示或语音回放代替一部门液晶文字提示。由于语音要经过dsp处理,所以mcu需要与dsp经常交换信息,以便实现友好的操作界面。
2.1 dsp
dsp(adsp2185)是整个硬件系统的信号处理中心,完成语音识别、训练、编解码,进行片内ram及外部flash存储芯片的数据管理与调度,并向主控芯片mcu提供简洁的命令与反馈信息。adsp2185是analog devices公司的产品,其主要性能如下:
运算速度为50mips,且均为高效的单周期指令。
提供了80kbyte的片内ram,其中32kbyte为数据ram,48kbyte为程序ram。
最大可支持4mbyte的外部存储区,用于存储数据或程序。
提供对字节存储区(bm)与片内ram区之间的dma方式支持。
提供两上可编程、全双工、自动进行收发缓冲区操作的串行口。
2.2 mcu
mcu(ks57c2316)是samsung公司生产的性价比较高的一种cmos四位单片机,可以一次性编程,适于小批量生产,被广泛地应用于家用电器的控制,它具有强大的i/o功能。其主要性能如下:
rom为16k×8 bit;ram为512×4 bit
40个i/o引脚
多至16位数字lcd显示
32个段,4个公共端引脚
这些性能保证了系统主控能力,而且能够提供灵活的外部接口,适于做进一步的改进和改造。计算器等附加功能可以直接由mcu完成。
2.3 数据flash存储器
数据flash存储器km29u64000是samsung公司的产品,它可在3伏电压下低功耗工作,存贮量大、价位低、速度快、存储数据掉电后可保持而不会丢失。其主要性能指标如下:
存储单元阵列为(8m+256k)×8bit;数据寄存器(512+16)×8bit
页写入为(512+16)byte;块擦除为(8k+256)byte
命令/地址/数据复用i/o端口
可靠的cmos floating-gate技术,耐受一百万次写入/擦除,数据维持时间为10年
命令寄存器操作
2.4 其它器件
本系统还采用了analog devices公司的codec(a/d、d/a变换器)ad73311l,sst的flash存储器sst29le010(128k×8bit)存储dsp程序及运算数据。
3 系统内主要芯片的互连互控
3.1 mcu与dsp
mcu与dsp采用串
语音输入方式与手写输入方式相比,具有操作简便、查找方便、识别准确率高等优点。省去了大量的输入时间,降低了信息检索的复杂度。本文所介绍的声控电子记事本系统将语音识别和语音编解码在同一片dsp芯片上实现,用语音方式代替其它方式进行信息输入,提高了系统的灵活性。
1 系统功能
可存200张语音名片,每张语音名片包含四条信息:姓名、电话号码、工作单位、备注;声控查找语音名片信息,用户只需口述所要查找人的姓名,即可获得电话号码、工作单位、备注等信息,同时电话号码显示在液晶显示屏上。
具有双音多频(dtmf)拨号功能,用户用声控查找到电话号码并显示在液晶屏上之后,只需轻触一个拨号键,即可通过普通电话机的话筒实现快速自动拨号。
数字录音,每段录音加语音标识;声控放音,在放音时只需口述所要语音段的语音标识即可自动找到该段录音并加放,累计录音时间达两个半小时以上。
具有方便的编辑功能,增加、删除语音名片,增加、删除数字录音段。
2 系统构成
本文所介绍的声控电子记事本系统,是在定点16位dsp芯片上实现的,它包含特定人孤立词语音识别算法和代数码本激励线性预测(acelp)语音编解码算法数(mfcc)为语音特征、以动态时间规划(dtw)为模板匹配算法,对于普通词条,识别率达到了99%以上。用于“录音”功能的acelp算法是该码率下性能优异的编解码算法,虽然算法复杂度较高,但共重建语音质量的平均主观评测分数(mos分)达到了4.0,非常接近于压缩前的分数4.3。
如图1所示,系统由mcu实现总线控制,接受外部键盘输入,并在液晶屏上显示信息。在本系统中,语音充当大部分人机界面的角色,尽量省去复杂的键盘操作,而且用语音提示或语音回放代替一部门液晶文字提示。由于语音要经过dsp处理,所以mcu需要与dsp经常交换信息,以便实现友好的操作界面。
2.1 dsp
dsp(adsp2185)是整个硬件系统的信号处理中心,完成语音识别、训练、编解码,进行片内ram及外部flash存储芯片的数据管理与调度,并向主控芯片mcu提供简洁的命令与反馈信息。adsp2185是analog devices公司的产品,其主要性能如下:
运算速度为50mips,且均为高效的单周期指令。
提供了80kbyte的片内ram,其中32kbyte为数据ram,48kbyte为程序ram。
最大可支持4mbyte的外部存储区,用于存储数据或程序。
提供对字节存储区(bm)与片内ram区之间的dma方式支持。
提供两上可编程、全双工、自动进行收发缓冲区操作的串行口。
2.2 mcu
mcu(ks57c2316)是samsung公司生产的性价比较高的一种cmos四位单片机,可以一次性编程,适于小批量生产,被广泛地应用于家用电器的控制,它具有强大的i/o功能。其主要性能如下:
rom为16k×8 bit;ram为512×4 bit
40个i/o引脚
多至16位数字lcd显示
32个段,4个公共端引脚
这些性能保证了系统主控能力,而且能够提供灵活的外部接口,适于做进一步的改进和改造。计算器等附加功能可以直接由mcu完成。
2.3 数据flash存储器
数据flash存储器km29u64000是samsung公司的产品,它可在3伏电压下低功耗工作,存贮量大、价位低、速度快、存储数据掉电后可保持而不会丢失。其主要性能指标如下:
存储单元阵列为(8m+256k)×8bit;数据寄存器(512+16)×8bit
页写入为(512+16)byte;块擦除为(8k+256)byte
命令/地址/数据复用i/o端口
可靠的cmos floating-gate技术,耐受一百万次写入/擦除,数据维持时间为10年
命令寄存器操作
2.4 其它器件
本系统还采用了analog devices公司的codec(a/d、d/a变换器)ad73311l,sst的flash存储器sst29le010(128k×8bit)存储dsp程序及运算数据。
3 系统内主要芯片的互连互控
3.1 mcu与dsp
mcu与dsp采用串