资源预览内容
第1页 / 共68页
第2页 / 共68页
第3页 / 共68页
第4页 / 共68页
第5页 / 共68页
第6页 / 共68页
第7页 / 共68页
第8页 / 共68页
第9页 / 共68页
第10页 / 共68页
亲,该文档总共68页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数字语音处理及MATLAB仿真 张雪英编著1第二章第二章 基础知识基础知识2.1概述概述12.2语音的发音机理语音的发音机理 2.3语音的语音的听觉机理听觉机理32.4语音的感知语音的感知42.5语音信号模型语音信号模型5 2.6语音信号数字模型语音信号数字模型62数字语音处理及MATLAB仿真 张雪英编著22.1概述概述本本章章重重点点介介绍绍语语音音信信号号产产生生的的数数字字模模型型,对对语语音信号的特性和听觉特性做一般介绍。音信号的特性和听觉特性做一般介绍。数字语音处理及MATLAB仿真 张雪英编著32.2语音的发音机理语音的发音机理2.2.1人的发音器官人的发音器官1.组成组成 肺和气管组成声源;肺和气管组成声源; 喉和声带称为声门;喉和声带称为声门; 由咽腔、口腔、鼻腔由咽腔、口腔、鼻腔 组成声道;组成声道; 图图2.1发音器官机理模型发音器官机理模型 数字语音处理及MATLAB仿真 张雪英编著42.功能功能肺:产生压缩气体,通过气管传送到声音生成系肺:产生压缩气体,通过气管传送到声音生成系统。统。喉:控制声带运动的复杂系统。主要包括:环状软喉:控制声带运动的复杂系统。主要包括:环状软骨、甲状软骨、杓状软骨、声带。骨、甲状软骨、杓状软骨、声带。数字语音处理及MATLAB仿真 张雪英编著5 声带是伸展在喉前、后端之间的褶肉,前端由甲状软骨支撑,声带是伸展在喉前、后端之间的褶肉,前端由甲状软骨支撑,后端由杓状软骨支撑,杓状软骨又与环状软骨较高部分相连,这些后端由杓状软骨支撑,杓状软骨又与环状软骨较高部分相连,这些软骨在环状软骨上的肌肉的控制下,能将两片声带合拢或分离。软骨在环状软骨上的肌肉的控制下,能将两片声带合拢或分离。数字语音处理及MATLAB仿真 张雪英编著6 声门:声门:声带之间的间隙称为声门。声带之间的间隙称为声门。 主要功能:主要功能:产生激励产生激励。 声声道道:声声道道指指声声门门至至嘴嘴唇唇的的所所有有发发音音器器官官。可可以以看看成成一一根根从从声声门门一一直直延延伸伸到到嘴嘴唇唇的的具具有有非非均均匀匀截截面面的的声声管管。声声道道的的形形状状变变化化(截截面面积积)由由舌舌、软软腭腭、唇唇、牙的形状和位置决定牙的形状和位置决定。 主要功能:主要功能:传输调制声波传输调制声波。包括:咽喉、口腔和鼻腔。包括:咽喉、口腔和鼻腔。 数字语音处理及MATLAB仿真 张雪英编著7 口腔包括:上下唇、上下齿、上下齿龈、上口腔包括:上下唇、上下齿、上下齿龈、上下腭、舌和小舌等部分。下腭、舌和小舌等部分。 上腭又分为:硬腭和软腭两部分;上腭又分为:硬腭和软腭两部分; 舌又分为:舌尖、舌面和舌根三部分。舌又分为:舌尖、舌面和舌根三部分。 鼻腔在口腔上面,靠软腭和小舌将其与口腔鼻腔在口腔上面,靠软腭和小舌将其与口腔隔开。当小舌下垂时,鼻腔和口腔便耦合起来,隔开。当小舌下垂时,鼻腔和口腔便耦合起来,当小舌上抬时,口腔与鼻腔是不相通的。口腔和当小舌上抬时,口腔与鼻腔是不相通的。口腔和鼻腔都是发音时的共鸣器。鼻腔都是发音时的共鸣器。数字语音处理及MATLAB仿真 张雪英编著8图图2.3 声道纵剖面图声道纵剖面图数字语音处理及MATLAB仿真 张雪英编著92.2.2语音生成语音生成 图图2.1为为语语音音生生成成其其机机理理模模型型。空空气气由由肺肺部部排排入入喉喉部部,经经过过声声带带进进入入声声道道,最最后后由由嘴嘴辐辐射射出出声声波波,这这就就形形成成了了语语音音。在在声声门门(声声带带)以以左左,称称为为“声声门门子子系系统统”,它它负负责责产产生生激激励励振振动动;右右边边是是“声声道道系系统统”和和“辐辐射射系系统统”。当当发发不不同同性性质质的的语语音音时时,激激励励和和声声道道的的情情况况是是不不同同的的,它它们们对对应应的的模模型型也也是是不同的。不同的。数字语音处理及MATLAB仿真 张雪英编著10 图图2.1发音器官机理模型发音器官机理模型 数字语音处理及MATLAB仿真 张雪英编著11 语音生成动作可分为两种功能:语音生成动作可分为两种功能: (1 1)激励)激励 (2 2)调制)调制数字语音处理及MATLAB仿真 张雪英编著122.2.2 语音生成语音生成-浊音浊音 空气流经过声带时,如果声带是崩紧的,则空气流经过声带时,如果声带是崩紧的,则声带将产生张弛振动,即声带将周期性地启开和声带将产生张弛振动,即声带将周期性地启开和闭合。声带启开时,空气流从声门喷射出来,形闭合。声带启开时,空气流从声门喷射出来,形成一个脉冲,声带闭合时相应于脉冲序列的间隙成一个脉冲,声带闭合时相应于脉冲序列的间隙期。因此,期。因此,这种情况下在声门处产生出一个准周这种情况下在声门处产生出一个准周期脉冲状的空气流。该空气流经过声道后最终从期脉冲状的空气流。该空气流经过声道后最终从嘴唇辐射出声波,这便是浊音语音。这个准周期嘴唇辐射出声波,这便是浊音语音。这个准周期脉冲的周期即为基音周期。脉冲的周期即为基音周期。数字语音处理及MATLAB仿真 张雪英编著13基音频率是由声带张开闭合的周期所决定的:基音频率是由声带张开闭合的周期所决定的:男性的基音频率一般为男性的基音频率一般为50250Hz;女性基音频率为女性基音频率为100500Hz。数字语音处理及MATLAB仿真 张雪英编著14数字语音处理及MATLAB仿真 张雪英编著152.2.2 语音生成语音生成-清音清音 空空气气流流经经过过声声带带时时,如如果果声声带带是是完完全全舒舒展展开开来来的的,则则肺肺部部发发出出的的空空气气流流将将不不受受影影响响地地通通过过声声门门。空空气气流流通通过过声声门门后后,会会遇遇到到两两种种不不同同情情况况。一一种种情情况况是是,如如果果声声道道的的某某个个部部位位发发生生收收缩缩形形成成了了一一个个狭狭窄窄的的通通道道,当当空空气气流流到到达达此此处处时时被被迫迫以以高高速速冲冲过过收收缩缩区区,并并在在附附近近产产生生出出空空气气湍湍流流,这这种湍流空气通过声道后便形成所谓摩擦音或清音。种湍流空气通过声道后便形成所谓摩擦音或清音。数字语音处理及MATLAB仿真 张雪英编著162.2.2 语音生成语音生成-爆破爆破音音 另另一一种种情情况况是是,如如果果声声道道的的某某个个部部位位完完全全闭闭合合在在一一起起,当当空空气气流流到到达达时时便便在在此此处处建建立立起起空空气气压压力力,闭闭合合点点突突然然开开启启便便会会让让气气压压快快速速释释放放,经经过过声道后便形成所谓爆破音。声道后便形成所谓爆破音。数字语音处理及MATLAB仿真 张雪英编著17数字语音处理及MATLAB仿真 张雪英编著18 共振峰频率或共振峰共振峰频率或共振峰 声声音音产产生生后后,便便沿沿着着声声道道进进行行传传播播。声声道道可可以以看看成成是是一一根根具具有有非非均均匀匀截截面面的的声声管管,在在发发音音时时起起着着共共鸣鸣器器的的作作用用。声声音音进进入入声声道道后后,其其频频谱谱必必定定会会受受到到声声道道的的共共振振特特性性的的影影响响,声声道道具具有有一一组组共共振振频频率率,称称为为共共振振峰峰频频率率或或共共振振峰峰。声声道道的的频频谱谱特特性性便便主主要要地地反反映映出出这这些些共共振振峰峰的的不不同同位位置置以以及及各各个个峰峰的的频频带带宽宽度度。共共振振峰峰及及其其带带宽宽取取决决于于声声道道的的形形状状和和尺尺寸寸,因因而而不不同同的的语语音音对对应应于于一一组组不不同的共振峰参数。同的共振峰参数。数字语音处理及MATLAB仿真 张雪英编著19数字语音处理及MATLAB仿真 张雪英编著20数字语音处理及MATLAB仿真 张雪英编著21数字语音处理及MATLAB仿真 张雪英编著222.3语音的听觉机理语音的听觉机理2.3.1听觉器官听觉器官 人的听觉器官包括:外耳、中耳和内耳人的听觉器官包括:外耳、中耳和内耳图图2.3 2.3 人耳结构示意图人耳结构示意图数字语音处理及MATLAB仿真 张雪英编著23 1. 1.外耳外耳 外外耳耳由由耳耳廓廓(耳耳翼翼)、外外耳耳道道和和耳耳鼓鼓(鼓鼓膜膜)组组成。成。 2.2.中耳中耳 组成:包括三块听小骨组成:包括三块听小骨:锤骨,砧骨和镫骨。锤骨,砧骨和镫骨。作用:阻抗匹配和限幅作用:阻抗匹配和限幅 外外耳耳和和中中耳耳的的综综合合作作用用相相当当于于一一个个介介于于500Hz到到6kHz之之间间的的平平滑滑的的带带通通滤滤波波器器,可可以以用用有有限限冲冲激激响响应应(FIR-FiniteImpulseResponse)滤滤波波器器来来模模拟。拟。数字语音处理及MATLAB仿真 张雪英编著243.内耳内耳 内内耳耳是是一一个个充充满满液液体体的的骨骨质质结结构构,由由前前庭庭、圆圆形窗、卵形窗及耳蜗组成。形窗、卵形窗及耳蜗组成。数字语音处理及MATLAB仿真 张雪英编著252.3.2耳蜗耳蜗的信号处理机制的信号处理机制数字语音处理及MATLAB仿真 张雪英编著26当当声声音音经经外外耳耳传传入入中中耳耳时时,镫镫骨骨的的运运动动引引起起耳耳蜗蜗内内流流体体压压强强的的变变化化,从从而而引引起起行行波波沿沿基基底底膜膜的的传传播播。图图2.62.6是是流流体体波波的的简简单单表表示示。在在耳耳蜗蜗的的底底部部基基底底膜膜的的硬硬度度很很高高,流流体体波波传传播播的的很很快快。随随着着波波的的传传播播,膜膜的的硬硬度度变变得得越越来来越越小小,波波的的传传播播也也逐逐渐渐变变缓缓。不不同同频频率率的的声声音音产产生生不不同同的的行行波波,而而峰值出现在基底膜的不同位置上。峰值出现在基底膜的不同位置上。 数字语音处理及MATLAB仿真 张雪英编著27图图2.7基底膜上六个不同点的频率响应基底膜上六个不同点的频率响应1 1 基底膜基底膜2 2 内毛细胞内毛细胞3 3 外毛细胞外毛细胞4听传导通路听传导通路 数字语音处理及MATLAB仿真 张雪英编著282.3.3 语音信号听觉模型语音信号听觉模型 听听觉觉系系统统的的研研究究主主要要集集中中在在三三个个方方面面:听听觉觉系系统统的的实实验验研研究究、听听觉觉系系统统的的建建模模和和听听觉觉模模型型的的应应用用。听听觉觉系系统统的的实实验验研研究究主主要要是是指指听听觉觉系系统统在在医医学学、生生理理学学及及心心理理学学方方面面的的研研究究。由由于于耳耳蜗蜗深深植植于于颅颅骨骨中中,尺尺寸寸极极小小(如如蜗蜗管管的的直直径径只只有有1mm),所所以以耳耳蜗蜗的的实验研究是一项非常艰巨和复杂的工作。实验研究是一项非常艰巨和复杂的工作。耳耳蜗蜗建建模模主主要要集集中中在在基基底底膜膜的的振振动动上上,然然而而,建建立立基基底底膜膜的的振振动动模模型型是是耳耳蜗蜗建建模模的的首首要要任任务务,它它又被称为耳蜗的宏观力学模型。又被称为耳蜗的宏观力学模型。数字语音处理及MATLAB仿真 张雪英编著29图2.10 语音信号听觉模型一般原理框图 语语音音信信号号首首先先通通过过一一串串带带通通滤滤波波器器(BPF)阵阵列列,其其中中心心频频率率跟跟随随着着图图2.7所所示示的的基基底底膜膜频频率率响响应应按按照照对对数数尺尺度度分分布布。每每一一个个带带通通滤滤波波器器都都被被独独立立的的设设定定为为有有限限冲冲激激响响应应滤滤波波器器(FIR)或或无无限限冲冲激激响响应应滤滤波波器器(IIR),但但是是频频率率响响应应的的波波形形并并不不是是严严格格精精确的。确的。数字语音处理及MATLAB仿真 张雪英编著30 被被滤滤波波的的信信号号在在通通过过内内毛毛细细胞胞/突突触触模模型型之之后后,到到达达听听传传导导通通路路模模型型。虽虽然然各各种种听听觉觉模模型型的的带带通通滤滤波波器器的的性性能能特特征征是是基基本本相相同同的的,但但是是在在接接下下来来几几级级的的信信号号处处理理过过程程却却有有很很大大差差异异。事事实实上上,不不同同的的听听觉觉模模型型都都各各自自拥拥有有不不同同的的IHC模模型型,突突触触模模型型和和听听传传导导通通路路模模型型。一一些些模模型型为为每每一一个个滤滤波波后后的的信信号号都都设设有有独独立立的的频频道道,而而另另一一些些模模型型则则认认为为在在基基底底膜膜上上相相邻邻位位置置处处滤滤波波得得到到的的信信号号之之间间存存在耦合性。在耦合性。数字语音处理及MATLAB仿真 张雪英编著31 根根据据人人耳耳的的听听觉觉特特性性得得出出的的模模型型作作为为语语音音识识别别的的特特征征提提取取部部分分,可可获获得得具具有有鲁鲁棒棒性性的的特特征征参参数数,它它们们对对真真实实世世界界中中的的噪噪音音环环境境下下的的语语音音识识别别都表现出很好的性能。都表现出很好的性能。数字语音处理及MATLAB仿真 张雪英编著322.4语音的感知语音的感知2.4.1几个概念几个概念1.人耳听觉界限的频率范围大约为人耳听觉界限的频率范围大约为20Hz-20kHz。2.语音感知的强度范围是语音感知的强度范围是0130dB声压级。声压级。3.语音的特性包括:音质,音调,音强,音长语音的特性包括:音质,音调,音强,音长3.响响度度这这是是频频率率和和强强度度级级的的函函数数。通通常常用用响响度度( (单单位位为为宋宋) )和和响响度度级级( (单单位位为为方方) )来来表表示示。此此时时响响度度级级定定为为零零方方。测测量量表表明明听听阈阈值值是是随随频频率率变变化化的的。通通常,人们把常,人们把1kHz纯音听阈值定为零方。纯音听阈值定为零方。数字语音处理及MATLAB仿真 张雪英编著334 4.人耳刚刚可以听到的声音强度,称为人耳刚刚可以听到的声音强度,称为“听听阈阈”。加加大大声声音音的的强强度度,使使听听起起来来令令耳耳朵朵感感到到疼痛,这个阈值称为疼痛,这个阈值称为“痛阈痛阈”。5.音高音高(音调音调)音高也叫基音。音高也叫基音。物理单位为物理单位为Hz,主观感觉的音高单位是美,主观感觉的音高单位是美(Mel)。当声强级为当声强级为40dB频率为频率为1kHz时,设时,设定的音高为定的音高为1000美。美。数字语音处理及MATLAB仿真 张雪英编著342.4.2 掩蔽效应掩蔽效应 掩蔽效应:掩蔽效应: 两两个个响响度度不不等等的的声声音音作作用用于于人人耳耳时时,则则响响度度较较高高的的频频率率成成分分的的存存在在会会影影响响到到对对响响度度较较低低的的频频率率成成分分的的感感受受,使使其其变变得得不不易易察察觉觉,即即:一一个个声声音音的的听听觉觉感感受受性性受受同同时时存存在在的的另另外外一一个个声声音音的的影影响响,这这个个现现象象称称为为人人耳耳的的“掩掩蔽蔽效效应应”。此此时时前前者者称称为为被被掩掩蔽蔽音音,后后者者称称为为掩掩蔽蔽音音。在在掩掩蔽蔽情情况况下下,被被隐隐蔽蔽音音的的听听阈阈会会提提高高,即即加加大大被被掩掩蔽蔽音音的的强度才能听到。此时听阈称为掩蔽听阈。强度才能听到。此时听阈称为掩蔽听阈。数字语音处理及MATLAB仿真 张雪英编著35 低频的纯音可以有效地掩蔽高频的纯音。低频的纯音可以有效地掩蔽高频的纯音。 利利用用人人耳耳的的掩掩蔽蔽效效应应,在在进进行行语语音音压压缩缩时时,让让量量化化噪噪音音的的频频谱谱跟跟随随语语言言信信号号频频谱谱包包络络变变化化。则则共共振振峰峰的的频频率率成成分分就就会会掩掩蔽蔽掉掉量量化化噪噪声声。这这个个技技术术称称为为噪噪声声整形或听觉加权处理。整形或听觉加权处理。 低音容易掩蔽高音,而高音掩蔽低音较难。低音容易掩蔽高音,而高音掩蔽低音较难。 基基于于此此,可可以以将将真真实实的的声声音音频频率率映映射射到到“感感知知”频率尺度,即频率尺度,即Bark尺度对应的临界带宽。尺度对应的临界带宽。数字语音处理及MATLAB仿真 张雪英编著36 2.4.3临界带宽与频率群临界带宽与频率群 用用一一中中心心频频率率为为f,带带宽宽为为f的的白白噪噪声声来来掩掩蔽蔽一一频频率率为为f的的纯纯音音,先先将将这这个个白白噪噪声声的的强强度度调调节节到到使使被被掩掩蔽蔽纯纯音音恰恰好好听听不不见见为为止止。然然后后将将f由由大大到到小小逐逐渐渐变变化化,而而保保持持单单位位频频率率的的噪噪声声强强度度(即即噪噪声声谱谱密密度度)不不变变,起起初初这这个个纯纯音音一一直直是是听听不不见见的的,但但当当f小小到到某某个个临临界界值值时时,这这个个纯纯音音就就突突然然可可以以听听见见了了。如如果果再再进进一一步步减减小小f,被被掩掩蔽蔽音音f就就会会越越来来越越清清晰晰。这这里里刚刚刚刚开开始始能能听听到到被被掩掩蔽蔽声声时时的的f宽宽的的频频带带,叫叫做频率做频率f处的临界带。处的临界带。数字语音处理及MATLAB仿真 张雪英编著37 当当掩掩蔽蔽噪噪声声的的带带宽宽窄窄于于临临界界带带的的带带宽宽时时,能能掩掩蔽蔽住住纯纯音音f的的强强度度是是随随噪噪声声的的带带宽宽的的增增加加而而增增加加的的,但但当当掩掩蔽蔽噪噪声声的的带带宽宽达达到到临临界界带带后后,继继续续增增加加噪噪声声带带宽宽就就不不再再引引起起掩掩蔽蔽量量的的提提高高了了。临临界界带带宽宽是是随随中中心心频频率率而而变变的的,被被掩掩蔽蔽纯纯音音的的频频率率(即即临界带的中心频率)越高,临界带宽也越宽。临界带的中心频率)越高,临界带宽也越宽。 临临界界频频带带也也可可定定义义为为:一一个个给给定定的的正正弦弦纯纯音音在在基基底底膜膜上上能能够够产产生生谐谐振振反反应应的的那那一一部部分分。一一个个频频率率群群的的划划分分相相应应于于基基底底膜膜分分成成许许多多很很小小的的部部分分,每一部分对应一个频率群。每一部分对应一个频率群。 一个临界带的单位用巴克(一个临界带的单位用巴克(Bark)表示。)表示。 数字语音处理及MATLAB仿真 张雪英编著382.5语音信号模型语音信号模型有三部分作用施加在语音的声波上:有三部分作用施加在语音的声波上:声门产生的激励模型声门产生的激励模型G(z);声道产生的调制函数声道产生的调制函数V(z);嘴唇产生的辐射函数嘴唇产生的辐射函数R(z)。语音信号的传递函数由这三个函数级联而成,语音信号的传递函数由这三个函数级联而成,即:即:H(z)=G(z)V(z)R(z)数字语音处理及MATLAB仿真 张雪英编著392.5.1 激励模型激励模型发发浊浊音音时时,产产生生的的脉脉冲冲类类似似于于斜斜三三角角形形的的脉脉冲冲。激励波是一个以基音周期为周期的斜三角脉冲串。激励波是一个以基音周期为周期的斜三角脉冲串。图图2.9三角波及其频谱图三角波及其频谱图数字语音处理及MATLAB仿真 张雪英编著40 单个三角波的数学表达式为单个三角波的数学表达式为 其中:其中:N1为斜三角波的上升时间为斜三角波的上升时间N2为其下降时间为其下降时间 数字语音处理及MATLAB仿真 张雪英编著41单单个个斜斜三三角角波波的的频频谱谱G(ej)表表现现出出一一个个低低通通滤滤波波器的特性。其器的特性。其z变换的全极点形式为:变换的全极点形式为: 作作为为激激励励的的斜斜三三角角波波串串可可以以用用一一串串加加了了权权的的单单位位脉脉冲冲序序列列去去激激励励单单位位斜斜三三角角波波模模型型实实现现。这这个个单单位脉冲串和幅值因子可以表示成下面的位脉冲串和幅值因子可以表示成下面的z变换形式变换形式数字语音处理及MATLAB仿真 张雪英编著42 浊音激励模型可表示为浊音激励模型可表示为 清音可以模拟成随机白噪声。清音可以模拟成随机白噪声。数字语音处理及MATLAB仿真 张雪英编著432.5.2声道模型声道模型- -(1 1)共振峰模型)共振峰模型 典典型型的的声声道道模模型型有有两两种种:无无损损声声管管模模型型和和共共振峰模型。振峰模型。 (1 1)共振峰模型)共振峰模型 当当声声波波通通过过声声道道时时,受受到到声声腔腔共共振振的的影影响响,在在某某些些频频率率附附近近形形成成谐谐振振。反反映映在在信信号号频频谱谱图图上上,在在谐谐振振频频率率处处其其谱谱线线包包络络产产生生峰峰值值,一一般般把把它它叫叫作共振峰作共振峰。数字语音处理及MATLAB仿真 张雪英编著44数字语音处理及MATLAB仿真 张雪英编著45 实实践践表表明明,用用前前三三个个共共振振峰峰代代表表一一个个浊浊音音足足够够了。多个了。多个Vi叠加可以得到声道的共振峰模型:叠加可以得到声道的共振峰模型:一个二阶谐振器的传输函数可以写成一个二阶谐振器的传输函数可以写成数字语音处理及MATLAB仿真 张雪英编著46共振峰模型共振峰模型将将声道声道视为一个视为一个谐振腔谐振腔,共,共振峰就是这个腔体的谐振频率,按共振峰振峰就是这个腔体的谐振频率,按共振峰理论导出。理论导出。基于各种音素发音的不同谐振特点可建基于各种音素发音的不同谐振特点可建立起三种实用的共振峰模型:立起三种实用的共振峰模型:(a)级联型级联型(b)并联型并联型(c)混合型混合型46数字语音处理及MATLAB仿真 张雪英编著47(a)级联型:级联型:适用于适用于一般单元音一般单元音,认为声道是认为声道是一组串联的二阶谐振器一组串联的二阶谐振器:这是一个全极点模型,极点就是这个多项式的根:若P为偶数,解其根会得到共扼复数(conjugate complex)的根,表示成:3 3、语音信号产生的数字模型、语音信号产生的数字模型(2) 声道模型 47数字语音处理及MATLAB仿真 张雪英编著48F=1/T - 取样频率 i/ - 共振峰的频宽。Fi是 - 共振峰(formant)的中心频率这样分解则每一个二阶因式均对应一个共振峰,其幅频特性是典型的二阶谐振特性,谐振中心频率值等于共振峰。若把语音的各个共振峰所对应的二阶系统级联起来就形成了一个完整的级联型声道模型,且具有明显的谐振特性。3 3、语音信号产生的数字模型、语音信号产生的数字模型(2) 声道模型 48数字语音处理及MATLAB仿真 张雪英编著49(b)并联型并联型适用于鼻音、复合元音及大部分辅音适用于鼻音、复合元音及大部分辅音,发这些音时发音,发这些音时发音腔体具有反谐振特性,必须在模型中加入零点以减弱谐腔体具有反谐振特性,必须在模型中加入零点以减弱谐振强度,故要考虑用振强度,故要考虑用零、极点模型零、极点模型:通常PR,假设分子与分母无公因子且分母无重根,则此式可分解为以下部分分式之和的形式:这就是并联型共振峰模型,每一个二阶因式对应一个共振峰。每个二阶谐振器的幅度可单独控制。3 3、语音信号产生的数字模型、语音信号产生的数字模型(2) 声道模型 49数字语音处理及MATLAB仿真 张雪英编著50前面两种共振峰模型各自都只能适用于部分语音,级联或前面两种共振峰模型各自都只能适用于部分语音,级联或并联的级数取决于声道的长度,一般成人取并联的级数取决于声道的长度,一般成人取3到到5级。级联型结级。级联型结构较为简单,并联型各谐振器幅度可独立控制构较为简单,并联型各谐振器幅度可独立控制,综合考虑两者综合考虑两者的优缺点可将两种共振峰模型有机地结合起来就得到一种较为的优缺点可将两种共振峰模型有机地结合起来就得到一种较为完备的共振峰模型。完备的共振峰模型。3 3、语音信号产生的数字模型、语音信号产生的数字模型(2) 声道模型 50数字语音处理及MATLAB仿真 张雪英编著51(c)混合型混合型我们可以根据发音的需要自动切换串联或并联通路,此外并我们可以根据发音的需要自动切换串联或并联通路,此外并联部分还有一条直通路径,其幅度控制因子为联部分还有一条直通路径,其幅度控制因子为AV,这是专为一,这是专为一些频谱特性较为平坦的音素如些频谱特性较为平坦的音素如f、p、b而考虑的,以增强反而考虑的,以增强反谐振特性。谐振特性。3 3、语音信号产生的数字模型、语音信号产生的数字模型(2) 声道模型 51数字语音处理及MATLAB仿真 张雪英编著52 无无损损声声管管模模型型:是是假假定定声声道道由由多多个个等等长长的的不不同同截截面面积积的的管管子子串串联联而而成成的的系系统统,并并假假定定管管子子中中的的流流体体及及管管壁壁没没有有热热传传导导和和粘粘滞滞的的损损耗耗。在在短短时时间间内内,声声道道可可表表为为形形状状稳稳定定的的管管道道,并并可可以以认认为为声波是沿管轴传播的平面波。声波是沿管轴传播的平面波。 2.5.2声道模型声道模型- -(2)无损声管模型无损声管模型数字语音处理及MATLAB仿真 张雪英编著53 对于对于N个无损声管级联的情况,可得到无损声个无损声管级联的情况,可得到无损声管的传递函数为:管的传递函数为: 数字语音处理及MATLAB仿真 张雪英编著54从声道模型输出的是速度波从声道模型输出的是速度波ul(n),而语音信号,而语音信号是声压波是声压波Pl(n)。二者倒比称为辐射阻抗。二者倒比称为辐射阻抗Zl,它表征它表征口唇的辐射效应。如果认为口唇张开的面积远远小口唇的辐射效应。如果认为口唇张开的面积远远小于头部的表面积,利用单板开槽辐射的处理方法,于头部的表面积,利用单板开槽辐射的处理方法,可以得到辐射阻抗,可以得到辐射阻抗,r近似为近似为12.5.2声道模型声道模型- -(3)辐射)辐射模型模型数字语音处理及MATLAB仿真 张雪英编著55 由由辐辐射射引引起起的的能能量量损损耗耗正正比比于于辐辐射射阻阻抗抗的的实实部部R(z),其其频频响响曲曲线线表表现现出出一一阶阶高高通通滤滤波波器器的的特特性性。在在实实际际信信号号分分析析时时,常常用用所所谓谓预预加加重重技技术术。这这样样,模模型型只只剩剩下下声声道道部部分分,对对参参数数分分析析就就方方便便了。在语音合成时再进行解加重处理。了。在语音合成时再进行解加重处理。数字语音处理及MATLAB仿真 张雪英编著562.6语音信号数字模型语音信号数字模型2.6.1数字模型数字模型 (1)组成:)组成:包括三部分:激励模型、声道模型和辐射模型。包括三部分:激励模型、声道模型和辐射模型。激激励励源源分分浊浊音音和和清清音音两两个个分分支支,按按照照浊浊音音/清清音音开开关所处的位置来决定产生的语音是浊音还是清音。关所处的位置来决定产生的语音是浊音还是清音。 数字语音处理及MATLAB仿真 张雪英编著57数字语音处理及MATLAB仿真 张雪英编著58数字语音处理及MATLAB仿真 张雪英编著59(2)在在浊浊音音的的情情况况下下,激激励励信信号号由由一一个个周周期期脉脉冲冲发发生生器器产产生生。所所产产生生的的序序列列是是一一个个周周期期为为T的的冲冲激激序序列列,T的的倒倒数数即即为为基基音音频频率率。为为了了使使浊浊音音的的激激励励信信号号具具有有声声门门气气流流脉脉冲冲的的实实际际波波形形,还还需需要要使使上上述的冲激序列通过一个声门脉冲模型滤波器。述的冲激序列通过一个声门脉冲模型滤波器。数字语音处理及MATLAB仿真 张雪英编著60(3)在在清清音音的的情情况况下下,激激励励信信号号由由一一个个随随机机噪噪声声发发生生器器产产生生。设设其其均均值值为为0,方方差差为为常常数数,幅幅度度具具有有高高斯斯概概率率分分布布。乘乘系系数数的的作作用用是是调调节节清清音音信信号号的的幅度。幅度。(4)图图2.16中中画画出出了了一一段段浊浊音音语语音音产产生生过过程程中中的的有有关波形。关波形。数字语音处理及MATLAB仿真 张雪英编著61数字语音处理及MATLAB仿真 张雪英编著62(5)声声道道模模型型V(Z)给给出出了了离离散散时时域域的的声声道道传传输输函函数数,把把实实际际声声道道作作为为一一个个变变截截面面声声管管加加以以研研究究,采采用用流流体体力力学学的的方方法法可可以以导导出出,在在大大多多数数情情况况下下它是一个全极点函数。它是一个全极点函数。V(Z)可以表示为:可以表示为:数字语音处理及MATLAB仿真 张雪英编著63把把截截面面积积连连续续变变化化的的声声管管近近似似为为P段段短短声声管管的的串串联联,每每段段短短声声管管的的截截面面积积是是不不变变的的。P称称为为这这个个全全极极点点滤滤波波器器的的阶阶。P值值越越大大,模模型型的的传传输输函函数数与与声道实际传输函数的吻合程度越高。声道实际传输函数的吻合程度越高。辐辐射射模模型型R(Z)与与嘴嘴型型有有关关,通通常常R(Z)可可以以表表示为示为数字语音处理及MATLAB仿真 张雪英编著64 在在这这个个模模型型中中,除除了了G(Z)和和R(Z)保保持持不不变变以以外外,T、Av、Au、清清/浊浊音音开开关关的的位位置置以以及及声声道道模模型型中中参参数数a1ap都都是是随随时时间间而而变变化化的的,由由于于发发音音器器官官的的惯惯性性使使这这些些参参数数的的变变化化速速度度受受到到限限制制。对对于于声声道道参参数数,在在1030ms的的时时间间间间隔隔内内可可以以认认为为它它们们保保持持不不变变,因因此此,语语音音的的短短时时分分析析是是分分帧帧进进行行的的。对对于于激激励励源源参参数数,多多数数情情况况下下这这一一结结果果也也是正确的。是正确的。数字语音处理及MATLAB仿真 张雪英编著65 声声道道的的传传输输函函数数具具有有全全极极点点的的性性质质,这这对对于于元元音音和和大大多多数数辅辅音音来来说说是是比比较较符符合合实实际际的的,但但对对于于鼻鼻音音和和阻阻塞塞音音来来说说,由由于于出出现现了了零零点点,这这种种模模型就不够准确了。型就不够准确了。一一种种解解决决问问题题的的方方案案是是在在V(z)中中引引入入若若干干零零点点;另另一一种种方方法法是是适适当当提提高高阶阶数数P,使使得得全全极极点点模模型能更好地逼近具有此种零点的传输函数。型能更好地逼近具有此种零点的传输函数。2.6语音信号数字模型语音信号数字模型-模型局限性模型局限性(1)数字语音处理及MATLAB仿真 张雪英编著66 数数字字模模型型的的基基本本思思想想是是认认为为任任何何语语音音都都是是由由一一个个适适当当的的激激励励源源作作用用于于声声道道而而产产生生的的,这这意意味味着着激激励励源源与与声声道道系系统统是是互互相相独独立立的的。上上述述假假定定对对于于大大多多数数语语音音是是合合适适的的,但但在在有有些些情情况况下下,例例如如某某些些瞬瞬变变音音,实实际际上上声声门门和和声声道道是是互互相相耦耦合合的的,这便形成了这些语音的非线性特性。这便形成了这些语音的非线性特性。2.6语音信号数字模型语音信号数字模型-模型局限性模型局限性(2)数字语音处理及MATLAB仿真 张雪英编著67 并并非非任任何何语语音音都都能能够够明明显显地地按按清清音音和和浊浊音音来来划划分分,有有的的音音甚甚至至也也不不是是清清音音和和浊浊音音的的简简单单叠叠加加。这这种种将将语语音音信信号号截截然然分分为为周周期期脉脉冲冲激激励励和和噪噪声声激激励励两两种种情情况况的的“二二元元激激励励”法法在在高高质质语语音音的的合合成成中是不适用的。中是不适用的。2.6语音信号数字模型语音信号数字模型-模型局限性模型局限性(3)个人观点供参考,欢迎讨论
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号