实用的家电语音控制系统的设计
发布时间:2007/9/11 0:00:00 访问次数:443
摘要:家电语音控制系统在复杂的背景环境下,由于识别率显著下降而导致关键词检出率偏低。介绍了利用孤立词、连接词以及连续语音识别引擎构造的多识别引擎的识别器,该识别器允许用户自由选择语音输入方式,扩大了关键词的检出范围,从而达到提高关键词检出率的目的。同时给出了家电语音控制系统的整体结构,分析了影响系统性能的关键因素,并且给出了相应的解决方案。
关键词:语音识别 家电语音控制 语音确认关键词检出
近年来,随着语音识别与确认技术的逐渐成熟,基于语音识别技术的对话控制系统受到了越来越多的关注。现有的语音技术虽然在实验室环境中取得取得了较好的识别效果,但是一旦由于环境或者说话人的客观原因使得语音信号变差时,就会导致系统检出率急剧下降,从而使得语音控制系统的性能变差甚至不能正常工作。
针对残疾人行动不便的问题,在日本富士通公司的资助下开发了一套残疾人利用语音进行家电控制的系统。本系统的用户主要是康复中心的特殊用户,由于身体长期瘫痪或者其它原因,他们不仅行动不便,而且语言交流能力也有很大程度的下降,尤其是发音不够清晰准确,仅仅用传统的语音识别器很难满足控制系统实际应用的需要。因此,提出了综合利用孤立词识别器、连接词识别以及连续语音识别器构建一个基于多识别引擎的识别器的方法,使得关键词被正确检出的可能性大大增加,在允许用户自由使用孤立或者连续语音交流的同时,还最大限度地利用不同识别引擎的优点,改善了家电语音控制系统的性能。
另外,还分析了语音控制系统中确认、模型自适应以及对话控制策略等关键技术,并且给出了相应的解决方案,从而给出家电语音控制系统的完整结构,在电梯、轮椅、电视等设备的实际控制中取得了良好的效果。
1 家电语音控制系统的结构
家电语音控制系统包括软件设计和硬件设计两部分。本文主要讨论软件设计部分,其中包括:语音识别模块、语音确认模块、对话控制及硬件指令传输模块以及模型自适应模块。整个系统的流程是:首先,用户的语音被送入语音识别模块进行Viterbi解码识别,得到相应的候选关键词;然后,将候选关键词送入语音确认模块进行确认,从中检出可能的关键词,并给出相应的确认分值;再后,根据检出的关键词及其对应的确认分值产生相应的对话或者控制命令对硬件进行控制,同时利用已经确认的语音对识别中的语音模型进行更新。图1给出了家电语音控制系统的结构图。
2 基于多识别引擎的识别器设计
2.1 传统识别引擎简介
根据待识别语音属于单一用户还是公众进行分类,可以将其分为特定人识别以及非特定人识别。由于设计目标是针对特定用户的,因此采用特定人识别器。如果根据输入语音特点以及建模方法进行分类,当前的识别引擎主要分为孤立词识别、连续语音识别以及连接词识别等引擎。下面分别介绍几种不同的识别引擎以及各自的优缺点。
2.1.1 孤立词识别引擎
由于孤立词识别引擎的输入是孤立的词汇,因此其识别范围小,建模精确,识别率高,非特定人的孤立词识别引擎的识别率可达95%左右,特定人的识别率甚至可达99%以上。但是孤立词识别引擎要求用户的输入必须是一个个独立的单词,显然对于连续的语音流无法处理。即使是独立的单词,如果由于用户的习惯或者生理原因,在语音中含有一些语气词或者其它高能量的突发噪声,将严重影响系统的识别率。
2.1.2 连续语音识别引擎
连续语音识别引擎是以音节或者音素为单位进行建模的,很好地解决了孤立词识别中对输入语音的限制,而且通过对常见的语气词以及噪声的建模,也能够解决由其引起的识别率下降的问题。但是连续语音的识别率很低,即使在实验室环境下,其识别率最高也只能达90%左右。显然连续语音识别引擎难以单独用于家电语音控制系统。
2.1.3 连接词识别引擎
连接词识别引擎介于孤立词识别引擎和连续语音识别引擎之间。它以孤立词为模型,通过对孤立词的拼接实现对连续语音流的识别。对于小型的语音识别系统来说,由于其词表较小,因此建模方便,而且建模精度高,对关键词的识别率接近于孤立词识别引擎,很好地解决了孤立词识别引擎
摘要:家电语音控制系统在复杂的背景环境下,由于识别率显著下降而导致关键词检出率偏低。介绍了利用孤立词、连接词以及连续语音识别引擎构造的多识别引擎的识别器,该识别器允许用户自由选择语音输入方式,扩大了关键词的检出范围,从而达到提高关键词检出率的目的。同时给出了家电语音控制系统的整体结构,分析了影响系统性能的关键因素,并且给出了相应的解决方案。
关键词:语音识别 家电语音控制 语音确认关键词检出
近年来,随着语音识别与确认技术的逐渐成熟,基于语音识别技术的对话控制系统受到了越来越多的关注。现有的语音技术虽然在实验室环境中取得取得了较好的识别效果,但是一旦由于环境或者说话人的客观原因使得语音信号变差时,就会导致系统检出率急剧下降,从而使得语音控制系统的性能变差甚至不能正常工作。
针对残疾人行动不便的问题,在日本富士通公司的资助下开发了一套残疾人利用语音进行家电控制的系统。本系统的用户主要是康复中心的特殊用户,由于身体长期瘫痪或者其它原因,他们不仅行动不便,而且语言交流能力也有很大程度的下降,尤其是发音不够清晰准确,仅仅用传统的语音识别器很难满足控制系统实际应用的需要。因此,提出了综合利用孤立词识别器、连接词识别以及连续语音识别器构建一个基于多识别引擎的识别器的方法,使得关键词被正确检出的可能性大大增加,在允许用户自由使用孤立或者连续语音交流的同时,还最大限度地利用不同识别引擎的优点,改善了家电语音控制系统的性能。
另外,还分析了语音控制系统中确认、模型自适应以及对话控制策略等关键技术,并且给出了相应的解决方案,从而给出家电语音控制系统的完整结构,在电梯、轮椅、电视等设备的实际控制中取得了良好的效果。
1 家电语音控制系统的结构
家电语音控制系统包括软件设计和硬件设计两部分。本文主要讨论软件设计部分,其中包括:语音识别模块、语音确认模块、对话控制及硬件指令传输模块以及模型自适应模块。整个系统的流程是:首先,用户的语音被送入语音识别模块进行Viterbi解码识别,得到相应的候选关键词;然后,将候选关键词送入语音确认模块进行确认,从中检出可能的关键词,并给出相应的确认分值;再后,根据检出的关键词及其对应的确认分值产生相应的对话或者控制命令对硬件进行控制,同时利用已经确认的语音对识别中的语音模型进行更新。图1给出了家电语音控制系统的结构图。
2 基于多识别引擎的识别器设计
2.1 传统识别引擎简介
根据待识别语音属于单一用户还是公众进行分类,可以将其分为特定人识别以及非特定人识别。由于设计目标是针对特定用户的,因此采用特定人识别器。如果根据输入语音特点以及建模方法进行分类,当前的识别引擎主要分为孤立词识别、连续语音识别以及连接词识别等引擎。下面分别介绍几种不同的识别引擎以及各自的优缺点。
2.1.1 孤立词识别引擎
由于孤立词识别引擎的输入是孤立的词汇,因此其识别范围小,建模精确,识别率高,非特定人的孤立词识别引擎的识别率可达95%左右,特定人的识别率甚至可达99%以上。但是孤立词识别引擎要求用户的输入必须是一个个独立的单词,显然对于连续的语音流无法处理。即使是独立的单词,如果由于用户的习惯或者生理原因,在语音中含有一些语气词或者其它高能量的突发噪声,将严重影响系统的识别率。
2.1.2 连续语音识别引擎
连续语音识别引擎是以音节或者音素为单位进行建模的,很好地解决了孤立词识别中对输入语音的限制,而且通过对常见的语气词以及噪声的建模,也能够解决由其引起的识别率下降的问题。但是连续语音的识别率很低,即使在实验室环境下,其识别率最高也只能达90%左右。显然连续语音识别引擎难以单独用于家电语音控制系统。
2.1.3 连接词识别引擎
连接词识别引擎介于孤立词识别引擎和连续语音识别引擎之间。它以孤立词为模型,通过对孤立词的拼接实现对连续语音流的识别。对于小型的语音识别系统来说,由于其词表较小,因此建模方便,而且建模精度高,对关键词的识别率接近于孤立词识别引擎,很好地解决了孤立词识别引擎
上一篇:基于I2S的USB声卡系统设计