语音信号处理-第02章语音信号的产生、特征与人耳的听觉特性-

1语音信号处理语音信号处理 Speech Signal ProcessingSpeech Signal Processing长春工业大学图像工程研究所史东承教授长春工业大学图像工程研究所史东承教授 dcshimail.ccut.edu.cn2010.8dcshimail.ccut.edu.cn2010.8第二章语音信号的产生、特征与人耳的听觉特性第二章语音信号的产生、特征与人耳的听觉特性 2.1 语音信号的产生2.1 语音信号的产生鼻腔口腔气管嘴巴鼻子声带软腭人类发音器官示意图人类发音器官示意图发音器官：1)肺和气管：能源与能量传输； 2)咽喉：振动源，包括声带和声门； 3)声道（声门到嘴唇的呼气通道）：谐振腔 (包括口腔、鼻腔等)； 4)其他发音器官：包括嘴唇、齿、舌、面颊等，使谐振腔改变形状。发音器官：1)肺和气管：能源与能量传输； 2)咽喉：振动源，包括声带和声门； 3)声道（声门到嘴唇的呼气通道）：谐振腔 (包括口腔、鼻腔等)； 4)其他发音器官：包括嘴唇、齿、舌、面颊等，使谐振腔改变形状。产生语音的器官产生语音的器官2发音机理发音机理喉位于气管的上端，实际上是气管末端一圈软骨构成的一个框架，前方稍高处的软骨称为甲状软骨，前后方环成一圈的称为喉部环形软骨，喉中两片肌肉称为声带，声带之间的空隙为声门。喉位于气管的上端，实际上是气管末端一圈软骨构成的一个框架，前方稍高处的软骨称为甲状软骨，前后方环成一圈的称为喉部环形软骨，喉中两片肌肉称为声带，声带之间的空隙为声门。当声带张开时，声门打开，空气可自由呼出，正常呼吸就处于这种情况；当声带闭合，声门关闭。当声带张开时，声门打开，空气可自由呼出，正常呼吸就处于这种情况；当声带闭合，声门关闭。Tp 基音周期基音周期声带靠拢声带靠拢当说话时，声带在软骨的作用下相互靠近但不完全闭合，声门变成一条窄缝，当气流通过窄缝时压力减小，外界压力大，从而两片声带完全闭合使得气流不能通过，当气流阻断时压力恢复正常，推开两片声带，声门再次打开，气流再次流过。当说话时，声带在软骨的作用下相互靠近但不完全闭合，声门变成一条窄缝，当气流通过窄缝时压力减小，外界压力大，从而两片声带完全闭合使得气流不能通过，当气流阻断时压力恢复正常，推开两片声带，声门再次打开，气流再次流过。声带的开启和闭合称为振动。这一振动过程周而复始，形成了一串周期性脉冲气流送入声道。这个过程发出的音称为浊音。如汉语发音的a、i、 u和o等。声带的开启和闭合称为振动。这一振动过程周而复始，形成了一串周期性脉冲气流送入声道。这个过程发出的音称为浊音。如汉语发音的a、i、 u和o等。男声发音男声发音“我的语音我的语音”的时域波形和语谱图的时域波形和语谱图3第二章语音信号的产生、特征与人耳的听觉特性第二章语音信号的产生、特征与人耳的听觉特性2.2 语音信号的分类2.2 语音信号的分类声学语音学，根据激励方式划分：声学语音学，根据激励方式划分：（1）浊音(（1）浊音(Voiced Speech)，又称为有声语音基音（pitch）)，又称为有声语音基音（pitch）：声道打开，声带在先打开后关闭，气流经过使声带要发生张驰振动，变为准周期振动气流。浊音的激励源被等效为准周期的脉冲信号。（2）清音(（2）清音(Unvoiced Speech)，又称为无声语音：)，又称为无声语音：声带不振动，而在某处保持收缩，气流在声道里收缩后高速通过产生湍流，再经过主声道（咽、口腔）的调整最终形成清音。清音的激励源被等效为一种白噪声信号。（3）爆破音（3）爆破音（Plosive Speech）：）：声道关闭之后产生压缩空气然后突然打开声道所发出的声音。语音的形成原理肺中的空气受到挤压形成气流，气流通过声门（肺中的空气受到挤压形成气流，气流通过声门（Vocal Cords)（声带）沿着声道（声带）沿着声道(Vocal Tract) （由咽（由咽-Pharynx、喉、喉-Throat、口腔、口腔- Cavity等组成）释放出去，就形成了语音。等组成）释放出去，就形成了语音。气流气流Stream、声门（、声门（Glottis）可以等效为一个）可以等效为一个激励源激励源Excitation，声道可以等效为一个时变，声道可以等效为一个时变滤波器滤波器（共振峰）。（共振峰）。语音信号具有很强的相关性（长期相关、短期相关）。语音信号具有很强的相关性（长期相关、短期相关）。浊音激励脉冲的周期值称为激励脉冲的周期值称为“基音周期基音周期”，用，用Tp表示。表示。称为称为“基因频率基因频率” 。fs与声带尺寸与特性有关。与声带尺寸与特性有关。由周期脉冲串产生的语音称为由周期脉冲串产生的语音称为“浊音浊音” 。p p1fT?60200 : 200450pppHzHzfff男性说话者在范围内女性说话者和小孩在之间发音语音学发音语音学都是基本单位，二者等同。都是基本单位，二者等同。由音节构成词，由词构成由音节构成词，由词构成“节奏群节奏群”或或“句子句子”；音素的各种不同发音方式称为；音素的各种不同发音方式称为“音素变体音素变体”。音节音节=元音元音Vowel+ 辅音辅音Consonant 辅音在元音前或后端（声母）辅音在元音前或后端（声母）元音是音节主干（长度和能量占主要部分）（是浊音）（韵母）元音是音节主干（长度和能量占主要部分）（是浊音）（韵母）音节结构：音节结构：C-V结构，结构，V-C结构，结构，C-V-C结构结构音素：构成语音流的最小单位音节：发声的最小单位4汉语普通话音节结构框架发音语音学发音语音学韵母韵母a,i,u,o为浊音；为浊音；声母声母s,sh,h,x,f为清音；为清音；声母声母z,zh,j既有清音又有浊音。既有清音又有浊音。鼻音韵母鼻音韵母n,ng. 鼻音声母鼻音声母m,n,l. Phoneme (smallest)音素音素:清音，浊音清音，浊音 Morpheme 词素词素 Syllable 音节：元音和辅音构成；（声母和韵母）音节：元音和辅音构成；（声母和韵母） Word 单词单词 Phrase 短语短语 Sentence 句子句子 Paragraph 段落段落 Topics, Articles, Stories 主题文章主题文章5语音信号时频特性32毫秒女声的时域波形及其功率谱毫秒女声的时域波形及其功率谱第二章语音信号的产生、特征与人耳的听觉特性第二章语音信号的产生、特征与人耳的听觉特性2.3 语音信号产生的模型2.3 语音信号产生的模型语音生成模型常用的有：（1）声管模型：波动方程描述（2）LPC模型：数学模型描述（3）共振峰模型：谐振腔描述语音生成模型常用的有：（1）声管模型：波动方程描述（2）LPC模型：数学模型描述（3）共振峰模型：谐振腔描述一.无损声管模型一.无损声管模型短期内，声道可以表示为形状稳定的管道短期内，声道可以表示为形状稳定的管道各段管子截面积的和差比，称为反射系数各段管子截面积的和差比，称为反射系数一.无损声管模型一.无损声管模型声道为一变截面积的声管。声道为一变截面积的声管。声道的频率特性主要取决于声道截面最小值出现的位置（该点称为收紧点）。收紧点位置由舌来控制。声道的频率特性主要取决于声道截面最小值出现的位置（该点称为收紧点）。收紧点位置由舌来控制。17cm8.5cm13cm声道的无损模型声道的无损模型6气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射。气流流过声道时犹如通过了一个具有某种谐振特性的腔体，放大某些频率，在频谱上形成相应位置的峰起，称为共振峰。声带振动频率输出气流的频率气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射。气流流过声道时犹如通过了一个具有某种谐振特性的腔体，放大某些频率，在频谱上形成相应位置的峰起，称为共振峰。声带振动频率输出气流的频率声道的谐振特性声道的谐振特性讲话时，由于舌和唇的连续运动，使声道形状改变，随即改变谐振频率，使得发不同的音。声道的不同的形状，对应不同的谐振频率。讲话时，由于舌和唇的连续运动，使声道形状改变，随即改变谐振频率，使得发不同的音。声道的不同的形状，对应不同的谐振频率。谐振频率的计算谐振频率的计算谐振频率发生在：Fn= （声道的横截面是均匀的，发元音e时，声道近似是均匀的。）谐振频率发生在：Fn= （声道的横截面是均匀的，发元音e时，声道近似是均匀的。）L = 17cm，声道的长度，L = 17cm，声道的长度，c = 340 m/sn = 1,2,3 n = 1,2,3 称为第一共振峰F1=500Hz 、第二共振峰F2=1500Hz 、第三共振峰F3=2500Hz ，称为第一共振峰F1=500Hz 、第二共振峰F2=1500Hz 、第三共振峰F3=2500Hz ，2n-14L2n-14Lc由四部分组成：GU/V 浊音激励+激励形成激励源清音激励声道模型V(Z)辐射模型R(Z)增益参数和清浊音标识二离散时域模型语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 a 声道模型：声道模型：把连续变化的声管，近似为由把连续变化的声管，近似为由P段截面不变的声管的串接。当段截面不变的声管的串接。当P=812时可以满足一般精度要求，一般取时可以满足一般精度要求，一般取P=10。 P取偶数，此时取偶数，此时V(Z)有有P/2对共轭极点。其共轭极点为对共轭极点。其共轭极点为各称为语音信号的共振峰。各称为语音信号的共振峰。( )1V Z( ) 1P i i iGH Z a Z= =()exp,1,2.2kkpjkr=2kkF=7语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 b基音系数基音系数设：语音信号采样频率为设：语音信号采样频率为 fs，基音频率，基音频率 F0，则，则 N0=fs/F0 当当 fs=8kHz(8000样样/秒秒)，F0=50450Hz时有时有 N0=18160 取样周期取样周期Ts=1/fs，即每隔，即每隔Ts时长取一个样。时长取一个样。 N0的意义：系统要求每隔的意义：系统要求每隔N0*Ts时间产生一个冲激脉冲。时间产生一个冲激脉冲。基音频率基音频率F0（Fundamental Frequency）基音频率基音频率F0=1/Tp由声带的质量来决定由声带的质量来决定。 F0的大小决定了声音的高低，称为音高。的大小决定了声音的高低，称为音高。男性的男性的F0大致分布在大致分布在： 60200Hz 女性和儿童的女性和儿童的F0大致分布在大致分布在：200450Hz语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 c脉冲激励形成模型脉冲激励形成模型取：取：其中其中g1,g2为接近为接近1的小数，的小数，Av用于调节浊音的幅度或能量；用于调节浊音的幅度或能量；Au用于调节清音的幅度或能量；用于调节清音的幅度或能量；G(Z)按按12dB每倍频程速度下降。每倍频程速度下降。( )()()1111211G zggzz=语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 d辐射模型辐射模型 R(z)= ，表示嘴型对语音的影响，表示嘴型对语音的影响 e声道面积函数声道面积函数上述模型中上述模型中G(Z)和和R(Z)始终保持不变