资源预览内容
第1页 / 共52页
第2页 / 共52页
第3页 / 共52页
第4页 / 共52页
第5页 / 共52页
第6页 / 共52页
第7页 / 共52页
第8页 / 共52页
第9页 / 共52页
第10页 / 共52页
亲,该文档总共52页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
上次课内容简单回顾1.语音信号的数字化和预处理2.语音信号的时域分析整理课件(1)语音信号的数字化带 通 滤波器自动增益控制(AGC)模 /数 转 换(A/D)脉冲编码调制(PCM)语音信号存入计算机(2) 语音信号的预处理预处理一般包括预加重、加窗和分帧等。整理课件(3) 语音信号的时域分析1.短短时能量及短能量及短时平均幅度平均幅度2.短短时过零率零率整理课件3.短短时自相关函数自相关函数4.短短时平均幅度差函数平均幅度差函数整理课件1 语音信号的音信号的频域分析域分析2 语音信号的倒音信号的倒谱分析分析(第二讲)整理课件3.4 语音信号的音信号的频域分析域分析语音信号的音信号的频域分析就是分析域分析就是分析语音信号的音信号的频域特征。从广域特征。从广义上上讲,语音信号的音信号的频域分析包括域分析包括语音信号的音信号的频谱、功率、功率谱、倒、倒频谱、频谱包包络分析等。分析等。常用的常用的频域分析方法有域分析方法有带通通滤波器波器组法、傅里叶法、傅里叶变换法、法、线性性预测法法等几种。等几种。本本节介介绍的是的是语音信号的音信号的傅里叶分析法傅里叶分析法。整理课件短时分析将语音流分为一段一段来处理,每一段称为一“帧”;帧长:1030ms,20ms常见;帧移:01/2帧长,帧与帧之间的平滑过渡;“短短时谱”整理课件 3.4.1 利用短利用短时傅里叶傅里叶变换求求语音的短音的短时谱语音分音分帧之后,之后,对第第n帧语音信号音信号xn(m)进行傅里叶行傅里叶变换(离散离散时域傅里叶域傅里叶变换,DTFT),可得到,可得到短短时傅里叶傅里叶变换,其定,其定义如下:如下:由定由定义可知,短可知,短时傅里叶傅里叶变换实际就是窗就是窗选语音信号的音信号的标准傅里叶准傅里叶变换。这里,窗里,窗w(n)是一个是一个“滑滑动的的”窗口,它随窗口,它随n的的变化而沿着序列化而沿着序列x(m)滑滑动。由于窗口是有限由于窗口是有限长度的,度的,满足足绝对可和条件,所以可和条件,所以这个个变换是存在的。是存在的。 是是帧号号n和角和角频率率的函数。的函数。整理课件 是是帧号号n和角和角频率率的函数。的函数。可可见,当,当n不不变时, 是序列是序列 的的标准傅立叶准傅立叶变换,此,此时 具有与具有与标准傅立叶准傅立叶变换相相同的性同的性质。第一种解第一种解释(从傅立叶(从傅立叶变换的角度):的角度):整理课件设语音信号序列和窗口序列的音信号序列和窗口序列的标准傅里叶准傅里叶变换均存在。当均存在。当n取取固定固定值时,根据根据卷卷积定理定理有有:因因为上式右上式右边两个卷两个卷积项均均为关于角关于角频率率的以的以2为周期的周期的连续函数,函数,所所以也可将其写成以下的卷以也可将其写成以下的卷积积分形式:分形式:结论:假:假设x(m)的的DTFT是是X(ej),且且(m)的的DTFT是是X(ej),那么那么Xn(ej)是是X(ej)和和W(ej)的周期卷的周期卷积。整理课件由于由于 相当于信号相当于信号谱 与窗函数与窗函数谱的卷的卷积,因此因此应该使窗函数的使窗函数的频谱分辨率高,主瓣尖分辨率高,主瓣尖锐;同;同时还要要使旁瓣衰减大,使旁瓣衰减大,这样与信号卷与信号卷积时的的频谱泄露才会少。泄露才会少。为了使了使 能能够与与 具有相同的性具有相同的性质,则要求要求 必必须是一个冲激函数。窗是一个冲激函数。窗长越越长, 的主瓣越狭窄的主瓣越狭窄尖尖锐,则 越接近越接近 。 但窗但窗长太大太大时,窗窗选信号已信号已经不不满足足语音的短音的短时平平稳特性,此特性,此时 已不能正确反映短已不能正确反映短时语音的音的频谱了。了。为此,必此,必须要折中要折中选择窗窗长。 整理课件令角令角频率率 则得到离散的短得到离散的短时傅立叶傅立叶变换,它,它实际上是上是 在在频域的取域的取样,如下所示,如下所示在语音信号数字处理中,都是采用 的离散傅立叶变换 代替 ,并且可以用高效的快速傅立叶变换(FFT)算法完成由 至 的转换。当然,这时窗长N必须是2的整次幂 (L是整数)。根据傅立叶变换的性质,实数序列的傅立叶变换的频谱具有对称性,因此全部频谱信息包含在长度为 个 里。另外,为了使 具有较高的频率分辨率,所取的DFT以及相应的FFT点数N1应该足够多,但有时 的长度N要受到采样率和短时性的限制。整理课件整理课件FFT的计算可以在通用计算机上由相应的算法软件完成,这种方式一般只能实现非实时运算。为了完成实时运算可以采用先进的数字信号处理芯片、阵列处理芯片或专用FFT芯片。整理课件 是是帧号号n和角和角频率率的函数。的函数。当当w固定不固定不变时, 可可视为信号信号 与窗函数与窗函数 的卷的卷积,此,此时,短,短时傅立叶傅立叶变换可看作可看作线性性滤波波.第二种解第二种解释(从(从线性性滤波的角度):波的角度):整理课件整理课件下面给出采样率8kHz,窗长400点(50ms)情况下,分别用矩形窗与汉明窗选取同一段浊音信号,求得其对数幅度谱。简单分析一下不同的窗函数对语音信号短时谱的影响。讨论:窗口形状:窗口形状对短短时谱的影响的影响整理课件矩形窗加窗的矩形窗加窗的浊音波形及其短音波形及其短时频谱汉明窗加窗的明窗加窗的浊音波形及其短音波形及其短时频谱整理课件由上图可看出:(1)它)它们都具有两种都具有两种变化。一种是快速化。一种是快速变化,化,这是由于激励信是由于激励信号引起的号引起的变化。化。例如图中由于时域波形具有周期性,因此经短时傅立叶变换得到的对数幅度谱表现出频率等间隔的尖峰,尖峰反映了语音的基频和各次谐波。另一种是慢速另一种是慢速变化,化,这是由于声道是由于声道滤波器的共振峰特性引起波器的共振峰特性引起的,它反映了各个共振峰的位置和的,它反映了各个共振峰的位置和带宽。而且共振峰的幅度。而且共振峰的幅度随着随着频率的增高逐率的增高逐渐衰减。衰减。(2)矩形窗和)矩形窗和汉明窗得到的明窗得到的频谱之之间存在明存在明显的区的区别。矩形窗具有较窄的主瓣,因而频谱分辨率较高,在频谱图中表现为基音谐波的各个峰都很尖锐。但是矩形窗旁瓣的衰减较小,由于相邻谐波的旁瓣在谐波间隔内相互干扰,有时叠加,有时抵消,所以在相邻谐波之间会产生类似于噪声的杂乱频谱,造成频谱泄漏现象,抵消了矩形窗具有较窄主瓣的优点。而采用汉明窗得到的短时频谱相比之下要平滑得多,因而汉明窗用得比较普遍。整理课件矩形窗加窗的清音波形及其短矩形窗加窗的清音波形及其短时频谱汉明窗加窗的清音波形及其短明窗加窗的清音波形及其短时频谱整理课件由上图可看出:从两个短时频谱图中都可以发现,由于清音的发声类似于随机噪声,因此频谱具有慢速具有慢速变化的化的趋势,同,同时有着有着频繁的繁的尖峰和谷尖峰和谷。当然,汉明窗明窗较之矩形窗有着平滑的短之矩形窗有着平滑的短时频谱。下面给出了浊音和清音前40个样点加矩形窗和汉明窗的短时频谱,可以直观地看到窗长对短时谱的影响。整理课件整理课件由图可见:由于窗长很短,所选出的语音段甚至不到一个基音周期长度,因此语音段音段丢失了关于基音周期的信息,表失了关于基音周期的信息,表现在短在短时谱上上就是反映基音就是反映基音频率和率和谐波的快速波的快速变化特点消失了,短化特点消失了,短时谱中只保留着慢速中只保留着慢速变化的特点,也就是化的特点,也就是还保持着声道保持着声道滤波器波器的共振峰的共振峰。由于矩形窗具有更高的频谱分辨率,因此其短短时频谱不如不如汉明窗平滑明窗平滑。整理课件从以上对窗函数和短时频谱的讨论可以得出以下结论:1)矩形窗和汉明窗的主瓣狭窄且旁瓣衰减较大,具有低通的性质。窗越长,主瓣越窄,加窗后的频谱能更好地逼近短时语音的频谱。2)窗长越长,频谱分辨率越高,但由于长窗的时间平均作用导致时间分辨率相应下降,如共振峰在不同的基音周期是要发生变化,但如果使用较长的窗则会模糊这种变化。3)窗长越短,时间分辨率越高,但频率分辨率相应降低。如采用短窗可以清楚地观察到共振峰在不同基音周期的变化情况,但是基频以及谐波的精细结构在短时频谱图上消失了。4)由于时间分辨率和频谱分辨率的相互矛盾关系,在进行短时傅里叶变换时,应根据分析的目的来折中选择窗长。整理课件在在语音信号数字音信号数字处理中,功率理中,功率谱具有重要意具有重要意义,在一些,在一些语音音应用系用系统中,往往都是利用中,往往都是利用语音信号的功率音信号的功率谱。根据功率。根据功率谱定定义,可以写出短,可以写出短时功率功率谱与短与短时傅里叶傅里叶变换之之间的关系:的关系:或者或者:式中式中*表示复共表示复共轭运算。并且运算。并且功率功率谱Sn(ej)是短是短时自相关函数自相关函数Rn(k)的傅里叶的傅里叶变换。整理课件3.4.2 语音的短音的短时谱的的临界界带特征矢量特征矢量利用短时傅立叶变换求取的语音信号的短时谱是按照实际频率分布的,而符合人耳的听觉特性的频率分布应该是按临界带频率分布的。所以,如果用按实际频率分布的频谱作为语音特征,由于它不符合人耳的听觉特性,将会降低语音信号处理系统的性能。下面介绍一种把实际的线性频谱转化为临界带频谱特征的方法。整理课件第一步,首先求出一帧加窗语音xn(m):m=0(N-1)的DFT的模平方值|Xn(k)|2,即功率谱。DFT可用FFT计算,设定DFT的点数为512(在实际的语音信号数字处理系统中的DFT点数一般在128、256、512、1024中任选一个,点数越高则频谱分辨精度提高,计算开销相应提高),则可以得到|Xn(k)|2与原始加窗模拟语音的频谱模平方 具有下列关系: (3-35)式中,k=2fk,fk=kfs/512。第二步,依据下面公式,在f=0fs/2中确定若干个 (单位Hz)临界带频率分割点,将i=1,2,3代入;整理课件由此可求出这样如果fs=8kHz,在0.14000Hz范围内需要安排16个临界带。若fs=10kHz,在0.35000Hz范围内可安排16个临界带。将每个临界带中|Xn(k)|2取和即可得到相应的临界带特征矢量。如果用 表示临界带特征矢量,对于上面举的第一个例子( ,频谱范围0.13.7kHz),L=16,其中的每一个分量可用下式计算:整理课件临界带特征矢量从人耳对频率高低的非线性心理感觉角度反映了语音短时幅度谱的特征。它的畸变可以用欧式距离来度量,所需的变换可以用高效的FFT来完成,因而使用该特征矢量时计算开销较小。所以可用它作为语音识别系统的特征矢量。整理课件3.5 语音信号的倒音信号的倒谱分析分析语音信号的倒音信号的倒谱分析就是求取分析就是求取语音倒音倒谱特征参数的特征参数的过程,它程,它可以通可以通过同同态处理来理来实现。同同态信号信号处理也称理也称为同同态滤波,它波,它实现了将卷了将卷积关系关系变换为求和关系的分离求和关系的分离处理,即解卷。理,即解卷。解卷算法分解卷算法分为两大两大类:一:一类是参数解卷:是参数解卷:为线性系性系统建立一建立一个模型,然后按照某种准个模型,然后按照某种准则对模型模型进行参数估行参数估计,如,如线性性预测分析;另一种是非参数解卷:无需分析;另一种是非参数解卷:无需为线性系性系统建立模型,建立模型,如同如同态处理。理。对语音信号音信号进行解卷,得到声行解卷,得到声门激励信息用于判断清激励信息用于判断清浊音、音、求基音周期;得到声道响求基音周期;得到声道响应信息用于求得共振峰;用于信息用于求得共振峰;用于语音音编码、合成、合成、识别等。等。整理课件 3.5.1 同同态信号信号处理的基本原理理的基本原理我我们日常生活中遇到的日常生活中遇到的许多信号,它多信号,它们并不是加性信号并不是加性信号(即即组成各分量按加法原成各分量按加法原则组合起来合起来)而是乘而是乘积性信号或卷性信号或卷积性信号,如性信号,如语音信号、音信号、图像信号、通信中的像信号、通信中的衰落信号、衰落信号、调制信号等。制信号等。这些信号要用非些信号要用非线性系性系统来来处理。理。同同态信号信号处理理就是将非就是将非线性性问题转化化为线性性问题的的处理方法。理方法。按被按被处理的信号来分理的信号来分类,大体分,大体分为乘乘积同同态处理和卷理和卷积同同态处理两种。理两种。由于由于语音信号可音信号可视为声声门激励信号和声道冲激励信号和声道冲击响响应的卷的卷积,所以所以这里里仅讨论卷卷积同同态信号信号处理。理。下面看一个同下面看一个同态系系统模型。模型。整理课件线性系统复倒谱整理课件第一个子系第一个子系统D*完成将卷完成将卷积性信号性信号转化化为加性信号的运算,即加性信号的运算,即对于信号于信号x(n)=xl(n)*x2(n)进行了如下运算行了如下运算处理:理:由于由于x(n)为加性信号,所以第二个子系加性信号,所以第二个子系统可可对其其进行需要的行需要的线性性处理得到理得到y(n)。第三个子系。第三个子系统是逆特征系是逆特征系统D*-1 ,它,它对y(n)= y1(n)+y2(n)进行行逆逆变换,使其恢复,使其恢复为卷卷积性信号,即性信号,即进行了如下行了如下处理:理:从而得到卷从而得到卷积性的恢复信号。性的恢复信号。我们感兴趣的是第一个子系统的运算,若语音信号为x(n),通过第一个子系统后,就可将声门激励信号和声道冲击响应的卷积运算转换为线性运算,从而分解两信号。整理课件 3.5.2 复倒复倒谱和倒和倒谱x(n)是是x(n)的的“复倒复倒频谱”,简称称为“复倒复倒谱”,有,有时也称也称作作对数复倒数复倒谱。其英文原文。其英文原文为“Complex Cepstrum”,Cepstrum是一个新造的英文是一个新造的英文词,它是由,它是由Spectrum这个个词的的前四个字母倒置而构成的。同前四个字母倒置而构成的。同样,序列,序列y(n)也是也是y(n)的复倒的复倒谱。虽然然D* 与与D*-1 系系统中的中的x(n)和和y(n)信号也均是信号也均是时域序列,域序列,但它但它们所所处的离散的离散时域域显然不同于然不同于x(n)和和y(n)所所处的离散的离散时域,所以我域,所以我们把它称之把它称之为“复倒复倒频谱域域”。整理课件在在绝大多数数字信号大多数数字信号处理中,理中,X(z),X(z),Y(z),Y(z)的收的收敛域均包含域均包含单位位圆,则序列的傅里叶序列的傅里叶变换存在,复倒存在,复倒谱计算中的算中的Z变换可用傅里叶可用傅里叶变换代代替,因而替,因而D* 与与D*-1 系系统有如下形式:有如下形式:D* =D*-1 =设:则取其取其对数得数得:整理课件即复数的即复数的对数仍是复数,它包含数仍是复数,它包含实部和虚部。注意,部和虚部。注意,这时对数的虚部数的虚部argX(ej)由于是由于是X(ej)的相位的相位,所以将所以将产生不一致生不一致性。如果,我性。如果,我们只考只考虑X(ej)的的实部,令:部,令:显然然c(n)是序列是序列x(n)对数幅度数幅度谱的傅里叶逆的傅里叶逆变换。c(n)称称为“倒倒频谱”或或简称称为“倒倒谱”,有,有时也称也称“对数倒数倒频谱”。倒。倒谱对应的量的量纲是是“Quefrency”,它也是一个新造的英文,它也是一个新造的英文词,是由是由“Frequency”转变而来的,因此也称而来的,因此也称为“倒倒频”,它,它的量的量纲是是时间。c(n)实际上就是我上就是我们要求取的要求取的语音信号倒音信号倒谱特征。特征。下面我下面我们根据上面的根据上面的讨论来分析一下来分析一下复倒复倒谱和倒和倒谱特点和关系特点和关系。整理课件复倒谱倒谱(1)复倒复倒谱要要进行复行复对数运算,而倒数运算,而倒谱只只进行行实对数运算。数运算。(2)在倒在倒谱情况下一个序列情况下一个序列经过正逆两个特征系正逆两个特征系统变换后,不后,不能能还原成自身,因原成自身,因为在在计算倒算倒谱的的过程中将序列的相位信息程中将序列的相位信息丢失了。失了。(3)与复倒与复倒谱类似,如果似,如果c1(n)和和c2(n)分分别是是x1(n)和和x2(n)的倒的倒谱,并且并且x(n)= x1(n)*x2(n),则x(n)的倒的倒谱c(n)= c1(n)+c2(n) 。(4)已知一个已知一个实数序列数序列x(n)的复倒的复倒谱x(n),可以由,可以由x(n)求出它求出它的倒的倒谱c(n)。(5)已知一个已知一个实数序列数序列x(n)的倒的倒谱c(n),能否用它来求出复倒,能否用它来求出复倒谱x(n)?整理课件(1)如何由复倒)如何由复倒谱求倒求倒谱。首先将首先将 表示成一个偶表示成一个偶对称序列称序列 和一个奇和一个奇对称序列称序列 之和。之和。 易于证明由于一个偶由于一个偶对称序列的称序列的DTFTDTFT是一个是一个实函数,而一个奇函数,而一个奇对称序列的称序列的DTFTDTFT是一个虚函数,是一个虚函数,对照式子照式子整理课件可得可得由公式由公式3-44可得可得所以有所以有这样可由可由 求得求得同理可以同理可以导出相位倒出相位倒谱整理课件整理课件(2)由倒谱求复倒谱已知一个实数序列x(n)的倒谱c(n),能否用它来求出复倒谱 ?要做到这一点, 必须满足一定的条件,例如 是一个因果序列,该条件可表示为其中,u(n)是一个单位阶跃函数。可以看出,在满足此条件时,式(3-50)可以表示为下列形式整理课件因此,立刻得到如果 是一个反因果序列,即满足下列条件则可以导出整理课件在什么情况下 才是一个因果稳定序列呢?可以证明,只有当 是一个因果最小相位序列时, 才是一个因果稳定序列。这说明 应满足两个条件:(1)(2) 的零极点都应该在单位圆之内。同理可以证明,只有当 是一个反因果最大相位序列时, 才是一个反因果稳定序列。于是,只有当 是因果最小相位序列或反因果最大相位序列时,可由 求出 。整理课件整理课件 3.5.3 语音信号倒音信号倒谱分析分析实例例1由同由同态分析求出的分析求出的语音信号倒音信号倒谱实例例一个信号的倒一个信号的倒谱定定义为信号信号频谱模的自然模的自然对数的逆傅里叶数的逆傅里叶变换(即即设相位恒定相位恒定为零零)。设信号信号为s(n),则其倒其倒谱为:根据根据语音信号音信号产生模型,生模型,语音信号音信号s(n)是由声是由声门脉冲激励脉冲激励e(n)经声道响声道响应v(n)滤波而得到,即:波而得到,即:设三者的倒三者的倒谱分分别为s(n)、e(n)及及v(n),则有:有:整理课件整理课件整理课件从上面的从上面的图中可以看出:中可以看出:浊音信号的倒音信号的倒谱中存在着峰中存在着峰值,它的出,它的出现位置等于位置等于该语音音段的基音周期。清音的倒段的基音周期。清音的倒谱中中则不存在峰不存在峰值。加加汉明窗的倒明窗的倒谱基音蜂清晰突出,加矩形窗的倒基音蜂清晰突出,加矩形窗的倒谱基音蜂基音蜂变得不清晰甚至消失。可得不清晰甚至消失。可见,窗口函数,窗口函数应选择缓变窗。窗。利用利用这个特点我个特点我们可以可以进行清行清浊音的判断,并且可以估音的判断,并且可以估计浊音的基音周期。音的基音周期。整理课件 2MEL频率倒率倒谱参数(参数(MFCC)MEL频率倒率倒谱系数系数MFCC:mel frequency cepstrum coefficient, MFCC将人耳的听将人耳的听觉感知特性与感知特性与语音的音的产生机制相生机制相结合,是合,是目前目前语音音识别中广泛使用的特征。中广泛使用的特征。人耳具有一些特殊功能,可以在嘈人耳具有一些特殊功能,可以在嘈杂的的环境中分辨出各种声境中分辨出各种声 音,主要原因是耳音,主要原因是耳蜗起了关起了关键作用,耳作用,耳蜗相当于一个相当于一个滤波器波器组,其,其滤波作用是在波作用是在对数数频率尺度上率尺度上进行,在行,在1000Hz以下以下为线性尺度,性尺度,带宽大大约100Hz左右,以上左右,以上为对数尺度,数尺度,这就使就使得人耳得人耳对低低频信号更加敏感。信号更加敏感。这种特性种特性类似于似于临界界带的划分,的划分,即可以将即可以将语音音频率划分成一系列三角形的率划分成一系列三角形的滤波器序列。波器序列。整理课件Mel频率尺度率尺度则更符合人耳的听更符合人耳的听觉特性。所特性。所谓Mel频率尺度,率尺度,它的它的值大体上大体上对应于于实际频率的率的对数分布关系。数分布关系。Mel频率与率与实际频率的具体关系可用式(率的具体关系可用式(3-89)表示:)表示:这里,里,实际频率率f的的单位是位是Hz。整理课件MFCC参数的参数的计算算过程:程:1)根据下面公式将)根据下面公式将实际频率尺度率尺度转换为Mel频率尺度。率尺度。2)在)在Mel频率率轴上配置上配置L个通道的三角形个通道的三角形滤波器波器组,L的个的个数由信号的截止数由信号的截止频率决定。每一个三角形率决定。每一个三角形滤波器的中心波器的中心频率率 在在Mel频率率轴上等上等间隔分配。隔分配。设 、 和和 分分别是第是第l个三角形个三角形滤波器的下限、中心和上限波器的下限、中心和上限频率,率,则相相邻三角形三角形滤波器之波器之间的下限、中心和上限的下限、中心和上限频率有率有图3-14所示所示的如下关系成立:的如下关系成立:整理课件3)根据)根据语音信号幅度音信号幅度谱 求每一个三角形求每一个三角形滤波器波器的的输出出4)对所有所有滤波器波器输出作出作对数运算,再数运算,再进一步作离散余弦一步作离散余弦变换即可得到即可得到MFCC整理课件
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号