语音信号处理语音识别-

9.1 9.1 概述概述v语音识别（语音识别（Speech RecognitionSpeech Recognition）主要指让机器听懂人说的）主要指让机器听懂人说的话，即在各种情况下，准确地识别出语音的内容，从而根据话，即在各种情况下，准确地识别出语音的内容，从而根据其信息，执行人的各种意图。它是一门涉及面很广的交叉学其信息，执行人的各种意图。它是一门涉及面很广的交叉学科，与计算机、通信、语音语言学、数理统计、信号处理、科，与计算机、通信、语音语言学、数理统计、信号处理、神经生理学、神经心理学和人工智能等学科都有着密切的关神经生理学、神经心理学和人工智能等学科都有着密切的关系。系。一般语音识别系统按不同的角度有下面几种分类方法。一般语音识别系统按不同的角度有下面几种分类方法。v孤立词、连接词、连续语音识别系统以及语音理解和会话系孤立词、连接词、连续语音识别系统以及语音理解和会话系统。统。v大词汇、中词汇和小词汇量语音识别系统。大词汇、中词汇和小词汇量语音识别系统。 v特定人和非特定人语音识别系统。特定人和非特定人语音识别系统。v语音识别所采用的方法也可以作为语音识别系统分类的依据，语音识别所采用的方法也可以作为语音识别系统分类的依据，因此，也有从识别方法上来对语音识别系统进行分类的。语因此，也有从识别方法上来对语音识别系统进行分类的。语音识别方法一般有模板匹配法、随机模型法和概率语法分析音识别方法一般有模板匹配法、随机模型法和概率语法分析法三种。法三种。v实用语音识别研究中存在的几个主要问题和困难如下：实用语音识别研究中存在的几个主要问题和困难如下：v（1 1）语音识别的一种重要应用是自然语言的识别和理解。）语音识别的一种重要应用是自然语言的识别和理解。v（2 2）语音信息的变化很大。）语音信息的变化很大。v（3 3）语音的模糊性。）语音的模糊性。v（4 4）单个字母及单个词语发音时语音特性受上下文环境的）单个字母及单个词语发音时语音特性受上下文环境的影响，使相同字母有不同的语音特性。影响，使相同字母有不同的语音特性。v（5 5）环境的噪声和干扰对语音识别有严重影响。）环境的噪声和干扰对语音识别有严重影响。 9.2 9.2 语音识别原理和识别系统的组成语音识别原理和识别系统的组成v语音识别系统是建立在一定的硬件平台和操作系统之上的一语音识别系统是建立在一定的硬件平台和操作系统之上的一套应用软件系统。套应用软件系统。v语音识别一般分两个步骤。第一步是系统语音识别一般分两个步骤。第一步是系统“学习学习”或或“训练训练”阶段。第二步是阶段。第二步是“识别识别”或或“测试测试”阶段。阶段。 v语音识别技术加上各种外围技术的组合，才能构成一个完整语音识别技术加上各种外围技术的组合，才能构成一个完整的实际应用的语音识别系统。从语音识别系统的各个功能划的实际应用的语音识别系统。从语音识别系统的各个功能划分的角度出发，语音识别系统可分为语音信号的预处理部分、分的角度出发，语音识别系统可分为语音信号的预处理部分、语音识别系统的核心算法部分以及语音识别系统的基本数据语音识别系统的核心算法部分以及语音识别系统的基本数据库等几部分。库等几部分。v一般语音识别系统框图一般语音识别系统框图预处理和参数分析预处理和参数分析v语音信号预处理部分包括：语音信号的电压放大、反混叠滤语音信号预处理部分包括：语音信号的电压放大、反混叠滤波、自动增益控制、模数变换、去除声门激励及口唇辐射波、自动增益控制、模数变换、去除声门激励及口唇辐射的影响等。这里仅对个别需要注意的地方做一些介绍。的影响等。这里仅对个别需要注意的地方做一些介绍。v话筒自适应和输入电平的设定话筒自适应和输入电平的设定：输入语音信号的品质对语音：输入语音信号的品质对语音识别性能的影响很大，因此，对话筒的耐噪声性能要求很高。识别性能的影响很大，因此，对话筒的耐噪声性能要求很高。选择好的麦克风，不仅能提高输入语音质量，而且，还有助选择好的麦克风，不仅能提高输入语音质量，而且，还有助于提高整个系统的鲁棒性。为了保持高精度的语音分析，于提高整个系统的鲁棒性。为了保持高精度的语音分析，A/DA/D变换的电平必需正确的设定。同时还要通过变换的电平必需正确的设定。同时还要通过AGCAGC来自动的来自动的调整输入电平放大的倍数或者通过对于输入数据进行规整处调整输入电平放大的倍数或者通过对于输入数据进行规整处理来控制语音数据幅度的变化。理来控制语音数据幅度的变化。v抗噪声抗噪声：环境噪声不可能完全消除。对于手自由的语音识别：环境噪声不可能完全消除。对于手自由的语音识别（Hand-FreeHand-Free），话筒与嘴有一定距离的时候，以及在汽车），话筒与嘴有一定距离的时候，以及在汽车里或户外等周围环境噪声大的时候必须对输入信号进行降噪里或户外等周围环境噪声大的时候必须对输入信号进行降噪处理。对于平稳噪声，传统的谱相减（处理。对于平稳噪声，传统的谱相减（SSSS）降噪声技术是有）降噪声技术是有效的，对于非平稳噪声也有通过两个话筒分别输入语音和噪效的，对于非平稳噪声也有通过两个话筒分别输入语音和噪声相互抵消加以消除的方法。声相互抵消加以消除的方法。v语音区间的端点检测语音区间的端点检测: :端点检测的目的是从包含语音的一段端点检测的目的是从包含语音的一段信号中确定出语音的起点以及终点。有效的端点检测不仅能信号中确定出语音的起点以及终点。有效的端点检测不仅能使处理时间减到最小，而且能排除无声段的噪声干扰，从而使处理时间减到最小，而且能排除无声段的噪声干扰，从而使识别系统具有良好的识别性能。传统的端点检测方法是将使识别系统具有良好的识别性能。传统的端点检测方法是将语音信号的短时能量与过零率相结合加以判断的。但这种端语音信号的短时能量与过零率相结合加以判断的。但这种端点检测算法如果运用不好，将会发生漏检或虚检的情况。为点检测算法如果运用不好，将会发生漏检或虚检的情况。为了克服传统端点检测算法的缺点，已有很多改进方法被提出了克服传统端点检测算法的缺点，已有很多改进方法被提出来。例如，可以考虑采用基于相关性的语音端点检测算法。来。例如，可以考虑采用基于相关性的语音端点检测算法。 v语音参数分析语音参数分析: :经过预处理后的语音信号，就要对其进行特经过预处理后的语音信号，就要对其进行特征参数分析，其目的是抽取语音特征，以使在语音识别时类征参数分析，其目的是抽取语音特征，以使在语音识别时类内距离尽量小，类间距离尽量大。识别参数可以选择下面的内距离尽量小，类间距离尽量大。识别参数可以选择下面的某一种或几种的组合：平均能量、过零数或平均过零数、频某一种或几种的组合：平均能量、过零数或平均过零数、频谱、共振峰、倒谱、线性预测系数、谱、共振峰、倒谱、线性预测系数、PARCORPARCOR系数（偏自相关系数（偏自相关系数）、声道形状的尺寸函数，以及音长、音高、声调等超系数）、声道形状的尺寸函数，以及音长、音高、声调等超声短信息函数。声短信息函数。 v现在，经过现在，经过FFTFFT变换或者变换或者LPCLPC得到功率谱以后再经过对数变换得到功率谱以后再经过对数变换和傅立叶反变换得到的倒谱参数是常用的语音识别特征参数。和傅立叶反变换得到的倒谱参数是常用的语音识别特征参数。 9.2.2 9.2.2 语音识别语音识别v语音识别是语音识别系统的核心部分。除包括语音的声学模语音识别是语音识别系统的核心部分。除包括语音的声学模型以及相应的语言模型的建立、参数匹配方法、搜索算法、型以及相应的语言模型的建立、参数匹配方法、搜索算法、话者自适应算法，还包括增添新词的功能、数据库管理和友话者自适应算法，还包括增添新词的功能、数据库管理和友好的人机交互界面等等。好的人机交互界面等等。v语音模型语音模型: :语音模型一般指的是用于参数匹配的声学模型。语音模型一般指的是用于参数匹配的声学模型。语音声学模型的好坏对语音识别的性能影响很大，现在公认语音声学模型的好坏对语音识别的性能影响很大，现在公认的较好的概率统计模型是的较好的概率统计模型是HMMHMM模型。因为模型。因为HMMHMM可以吸收环境和可以吸收环境和话者引起的特征参数的变动，实现非特定人的语音识别。话者引起的特征参数的变动，实现非特定人的语音识别。识别模型的基元单位的选择对于识别性能也有很大的影识别模型的基元单位的选择对于识别性能也有很大的影响。对于日语和英语，以半音节、环境依存音素为模型的研响。对于日语和英语，以半音节、环境依存音素为模型的研究例子较多。对于汉语，则可用究例子较多。对于汉语，则可用“声母声母-韵母韵母”，也可用，也可用音节字、词等识别基元。音节字、词等识别基元。v连续语音的自动分段连续语音的自动分段: :连续语音的自动分段，是指从语音信连续语音的自动分段，是指从语音信号流中自动地分割出识别基元的问题。号流中自动地分割出识别基元的问题。把连续的语音信号分把连续的语音信号分成对应于各音的区间叫做分割（成对应于各音的区间叫做分割（SegmentationSegmentation），分割的结），分割的结果产生的区间叫做分割区间（果产生的区间叫做分割区间（SegmentSegment），给分割区间付与），给分割区间付与表示音种的符号叫做符号化。表示音种的符号叫做符号化。汉语自动分段是指根据汉语特汉语自动分段是指根据汉语特点及其参数的统计规律，设置某些参数的阈值，用计算机程点及其参数的统计规律，设置某些参数的阈值，用计算机程序自动的进行分段。序自动的进行分段。通常可用的参数有：帧平均能量、帧平通常可用的参数有：帧平均能量、帧平均过零数、线性预测的第一个反射系数或其残差序列、音调均过零数、线性预测的第一个反射系数或其残差序列、音调值等。从简单、快速的要求而言，最好采用前两种时域参数值等。从简单、快速的要求而言，最好采用前两种时域参数即帧平均能量即帧平均能量FNFN和帧平均过零数和帧平均过零数ZNZN。 v语音识别方法语音识别方法: :当今语音识别技术的主流算法，主要有基于当今语音识别技术的主流算法，主要有基于参数模型的隐马尔可夫模型（参数模型的隐马尔可夫模型（HMMHMM）的方法和基于非参数模）的方法和基于非参数模型的矢量量化（型的矢量量化（VQVQ）的方法。另外，基于人工神经网络）的方法。另外，基于人工神经网络(ANN)(ANN)的语音识别方法，也得到了很好的应用。的语音识别方法，也得到了很好的应用。传统的基于动态时间伸缩的算法（传统的基于动态时间伸缩的算法（DTWDTW），在连续语音），在连续语音识别中仍然是主流方法。同时，在小词汇量、孤立字（词）识别中仍然是主流方法。同时，在小词汇量、孤立字（词）识别系统中，也已有许多改进的识别系统中，也已有许多改进的DTWDTW算法被提出。算法被提出。用于语音识别的距离测度有多种，如欧氏距离及其变形用于语音识别的距离测度有多种，如欧氏距离及其变形的欧氏距离测度、似然比测度、加权的识别测度等。选择什的欧氏距离测度、似然比测度、加权的识别测度等。选择什么样的距离测度与识别系统采用什么语音特征参数和什么样么样的距离测度与识别系统采用什么语音特征参数和什么样的识别模型有关，的识别模型有关， v计算量和存储量的削减计算量和存储量的削减：对于在有限的硬件和软件资源下动：对于在有限的硬件和软件资源下动作的语音识别系统，降低识别处理的计算量和存储量非常重作的语音识别系统，降低识别处理的计算量和存储量非常重要。当用要。当用HMMHMM作为识别模型时，特征矢量的输出概率计算以作为识别模型时，特征矢量的输出概率计算以及输入语音和语音模型的匹配搜索将占用很大的时间和空间。及输入语音和语音模型的匹配搜索将占用很大的时间和空间。为了减少计算量和存储量，可以进行语音或者标准模式的矢为了减少计算量和存储量，可以进行语音或者标准模式的矢量量化和聚类运算分析，利用代表语音特征的中心值进行匹量量化和聚类运算分析，利用代表语音特征的中心值进行匹配。在配。在HMMHMM语音识别系统中，识别运算时输出概率计算所消语音识别系统中，识别运算时输出概率计算所消耗的计算量较大，所以可以在输出概率计算上采用快速算法。耗的计算量较大，所以可以在输出概率计算上采用快速算法。另外为了提高搜索效率，可以采用线搜索方法以及向前向后另外为了提高搜索效率，可以采用线搜索方法以及向前向后的组合搜索法等。的组合搜索法等。 v拒识别处理拒识别处理：由于用户发音的错误，可能出现系统词汇表以：由于用户发音的错误，可能出现系统词汇表以外的单词或者句子，同时，在噪声环境下由噪音引起的语音外的单词或者句子，同时，在噪声环境下由噪音引起的语音区间检测错误也可能产生许多误识别的结果。所以在实际语区间检测错误也可能产生许多误识别的结果。所以在实际语音识别系统中，对信赖度低的识别结果的音识别系统中，对信赖度低的识别结果的RejectionRejection处理也处理也是一个很重要的课题，可以考虑利用音节识别得到的得分补是一个很重要的课题，可以考虑利用音节识别得到的得分补偿的方式进行拒识别处理，在这种方式中，利用在不限定识偿的方式进行拒识别处理，在这种方式中，利用在不限定识别对象的条件下求得的参考得分来补偿的识别结果，并用补别对象的条件下求得的参考得分来补偿的识别结果，并用补偿过的识别得分进行拒识别判定。偿过的识别得分进行拒识别判定。 v识别结果确认，候补选择识别结果确认，候补选择：为了避免由于误识别而产生的：为了避免由于误识别而产生的ApplicationApplication的误动作，可以让用户对识别结果进行确定，的误动作，可以让用户对识别结果进行确定，或者给用户提供复数个识别结果侯选，让用户自己选择正确或者给用户提供复数个识别结果侯选，让用户自己选择正确的结果。的结果。 v用户设定：用户设定：一台识别系统被多个用户使用的场合。系统必须一台识别系统被多个用户使用的场合。系统必须具有记忆和选择每个用户特定模型的功能。同时，每个用户具有记忆和选择每个用户特定模型的功能。同时，每个用户可以随时在自己的词典里增加或删减单词的功能，以及系统可以随时在自己的词典里增加或删减单词的功能，以及系统根据一定的特征信息自动进行不同用户间的根据一定的特征信息自动进行不同用户间的ApplicationApplication识识别程序的切换的功能。别程序的切换的功能。 9.2.3 9.2.3 语音识别系统的基本数据库语音识别系统的基本数据库语音识别系统中包括大量的控制参数信息，这些参数以语音识别系统中包括大量的控制参数信息，这些参数以数据库的方式存储在计算机内数据库的方式存储在计算机内, ,构成了语音识别系统的基本构成了语音识别系统的基本数据库。它们是通过数据库。它们是通过“训练训练”（或叫（或叫“学习学习”）的方法，从）的方法，从单讲话者或多讲话者的多次重复发音的语音参数以及大量的单讲话者或多讲话者的多次重复发音的语音参数以及大量的语法规则中，经过长时间的训练而聚类得到的。语法规则中，经过长时间的训练而聚类得到的。需要指出的是，一个成功的语音识别系统的建立，一定需要指出的是，一个成功的语音识别系统的建立，一定要结合其具体的应用背景，选择不同的识别策略、以及硬件要结合其具体的应用背景，选择不同的识别策略、以及硬件平台和软件平台。另外，更应注意的是，语音识别系统的建平台和软件平台。另外，更应注意的是，语音识别系统的建立应当结合语言的自然特点，否则，将很难达到较高的水平。立应当结合语言的自然特点，否则，将很难达到较高的水平。v单词词典和文法单词词典和文法：一般来说，在多任务环境中，对于一个：一般来说，在多任务环境中，对于一个ApplicationApplication，要定义相应的单词集合，根据识别结果或，要定义相应的单词集合，根据识别结果或ApplicationApplication的动作进行单词集之间的切换。在文上法要根的动作进行单词集之间的切换。在文上法要根据具体的据具体的ApplicationApplication，首先设定和分析输入语句的语义内，首先设定和分析输入语句的语义内容；然后，根据语义内容的句法表现、主、谓语的种类、语容；然后，根据语义内容的句法表现、主、谓语的种类、语序、语的省略等，构造单词字典以及文法，同时，文法上的序、语的省略等，构造单词字典以及文法，同时，文法上的单词间的语义依存关系可以利用依存关系表格表示。通过单单词间的语义依存关系可以利用依存关系表格表示。通过单词词典、文法以及声学模型（如词词典、文法以及声学模型（如HMMHMM）和句法分析搜索算法）和句法分析搜索算法的共同编译，得到用于识别的系统网络。的共同编译，得到用于识别的系统网络。v词典编辑、文法开发工具词典编辑、文法开发工具：高效的单词词典编辑、：高效的单词词典编辑、文法制作工具的开发是很重要的。可以根据不同用文法制作工具的开发是很重要的。可以根据不同用户的能力或具体的户的能力或具体的ApplicationApplication的复杂程度，提供最的复杂程度，提供最佳的用户接口和最适应的工具性能。佳的用户接口和最适应的工具性能。vAPIAPI：为了使语音识别和：为了使语音识别和ApplicationApplication更紧密的结合，更紧密的结合，实现对语音识别系统的自动控制，实现对语音识别系统的自动控制，APIAPI是必须的。可是必须的。可以通过以通过APIAPI来实现语音识别环境的切换，识别开始、来实现语音识别环境的切换，识别开始、终止等对识别系统的控制。终止等对识别系统的控制。