资源预览内容
第1页 / 共18页
第2页 / 共18页
第3页 / 共18页
第4页 / 共18页
第5页 / 共18页
第6页 / 共18页
第7页 / 共18页
第8页 / 共18页
第9页 / 共18页
第10页 / 共18页
亲,该文档总共18页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1语音信号处理语音信号处理 Speech Signal ProcessingSpeech Signal Processing长春工业大学图像工程研究所 史东承教授长春工业大学图像工程研究所 史东承教授 dcshimail.ccut.edu.cn2010.8dcshimail.ccut.edu.cn2010.8第二章 语音信号的产生、特征 与人耳的听觉特性第二章 语音信号的产生、特征 与人耳的听觉特性 2.1 语音信号的产生2.1 语音信号的产生鼻腔口腔气管嘴巴鼻子声带软腭人类发音器官示意图人类发音器官示意图发音器官:1)肺和气管:能源与能量传输; 2)咽喉:振动源,包括声带和声门; 3)声道(声门到嘴唇的呼气通道):谐振腔 (包括口腔、鼻腔等); 4)其他发音器官:包括嘴唇、齿、舌、面颊 等,使谐振腔改变形状。发音器官:1)肺和气管:能源与能量传输; 2)咽喉:振动源,包括声带和声门; 3)声道(声门到嘴唇的呼气通道):谐振腔 (包括口腔、鼻腔等); 4)其他发音器官:包括嘴唇、齿、舌、面颊 等,使谐振腔改变形状。产生语音的器官产生语音的器官2发音机理发音机理 喉位于气管的上端,实际 上是气管末端一圈软骨构 成的一个框架,前方稍高 处的软骨称为甲状软骨, 前后方环成一圈的称为喉 部环形软骨,喉中两片肌 肉称为声带,声带之间的 空隙为声门。喉位于气管的上端,实际 上是气管末端一圈软骨构 成的一个框架,前方稍高 处的软骨称为甲状软骨, 前后方环成一圈的称为喉 部环形软骨,喉中两片肌 肉称为声带,声带之间的 空隙为声门。 当声带张开时,声门打 开,空气可自由呼出,正 常呼吸就处于这种情况; 当声带闭合,声门关闭。当声带张开时,声门打 开,空气可自由呼出,正 常呼吸就处于这种情况; 当声带闭合,声门关闭。Tp 基音周期基音周期声带靠拢声带靠拢当说话时,声带在软骨的作用下相互靠 近但不完全闭合,声门变成一条窄缝,当气 流通过窄缝时压力减小,外界压力大,从而 两片声带完全闭合使得气流不能通过,当气 流阻断时压力恢复正常,推开两片声带,声 门再次打开,气流再次流过。当说话时,声带在软骨的作用下相互靠 近但不完全闭合,声门变成一条窄缝,当气 流通过窄缝时压力减小,外界压力大,从而 两片声带完全闭合使得气流不能通过,当气 流阻断时压力恢复正常,推开两片声带,声 门再次打开,气流再次流过。声带的开启和闭合称 为振动。这一振动过程周 而复始,形成了一串周期 性脉冲气流送入声道。这 个过程发出的音称为浊音。 如汉语发音的a、i、 u和o等。声带的开启和闭合称 为振动。这一振动过程周 而复始,形成了一串周期 性脉冲气流送入声道。这 个过程发出的音称为浊音。 如汉语发音的a、i、 u和o等。男声发音男声发音“我的语音我的语音”的时域波形和语谱图的时域波形和语谱图3第二章 语音信号的产生、特征 与人耳的听觉特性第二章 语音信号的产生、特征 与人耳的听觉特性2.2 语音信号的分类2.2 语音信号的分类 声学语音学,根据激励方式划分:声学语音学,根据激励方式划分: (1)浊音((1)浊音(Voiced Speech),又称为有声语音基音(pitch)),又称为有声语音基音(pitch): 声道打开,声带在先打开后关闭,气流经过使声带要发生张 驰振动,变为准周期振动气流。浊音的激励源被等效为准周 期的脉冲信号。 (2)清音((2)清音(Unvoiced Speech),又称为无声语音:),又称为无声语音:声带不振 动,而在某处保持收缩,气流在声道里收缩后高速通过产生 湍流,再经过主声道(咽、口腔)的调整最终形成清音。清 音的激励源被等效为一种白噪声信号。 (3)爆破音(3)爆破音(Plosive Speech):):声道关闭之后产生压缩空气 然后突然打开声道所发出的声音。语音的形成原理 肺中的空气受到挤压形成气流,气流通过声 门(肺中的空气受到挤压形成气流,气流通过声 门(Vocal Cords)(声带)沿着声道(声带)沿着声道(Vocal Tract) (由咽(由咽-Pharynx、喉、喉-Throat、口腔、口腔- Cavity等组成)释放出去,就形成了语音。等组成)释放出去,就形成了语音。 气流气流Stream、声门(、声门(Glottis)可以等效为一 个)可以等效为一 个激励源激励源Excitation,声道可以等效为一个 时变,声道可以等效为一个 时变滤波器滤波器(共振峰)。(共振峰)。 语音信号具有很强的相关性(长期相关、短 期相关)。语音信号具有很强的相关性(长期相关、短 期相关)。浊音 激励脉冲的周期值称为激励脉冲的周期值称为“基音周期基音周期”,用,用Tp表示。表示。称为称为“基因频率基因频率” 。fs与声带尺寸与特性有关。与声带尺寸与特性有关。 由周期脉冲串产生的语音称为由周期脉冲串产生的语音称为“浊音浊音” 。p p1fT?60200 : 200450pppHzHzfff男性说话者在范围内女性说话者和小孩在之间发音语音学发音语音学都是基本单位,二者等同。都是基本单位,二者等同。 由音节构成词,由词构成由音节构成词,由词构成“节奏群节奏群”或或“句子句子”;音素 的各种不同发音方式称为;音素 的各种不同发音方式称为“音素变体音素变体”。 音节音节=元音元音Vowel+ 辅音辅音Consonant 辅音在元音前或后端(声母)辅音在元音前或后端(声母) 元音是音节主干(长度和能量占主要部分)(是浊 音)(韵母)元音是音节主干(长度和能量占主要部分)(是浊 音)(韵母) 音节结构:音节结构:C-V结构,结构,V-C结构,结构,C-V-C结构结构音素:构成语音流的最小单位音节:发声的最小单位4汉语普通话音节结构框架发音语音学发音语音学 韵母韵母a,i,u,o为浊音;为浊音; 声母声母s,sh,h,x,f为清音;为清音; 声母声母z,zh,j既有清音又有浊音。既有清音又有浊音。 鼻音韵母鼻音韵母n,ng. 鼻音声母鼻音声母m,n,l. Phoneme (smallest)音素音素:清音,浊音清音,浊音 Morpheme 词素词素 Syllable 音节:元音和辅音构成; (声母和韵母)音节:元音和辅音构成; (声母和韵母) Word 单词单词 Phrase 短语短语 Sentence 句子句子 Paragraph 段落段落 Topics, Articles, Stories 主题文章主题文章5语音信号时频特性32毫秒女声的时域波形及其功率谱毫秒女声的时域波形及其功率谱第二章 语音信号的产生、特征 与人耳的听觉特性第二章 语音信号的产生、特征 与人耳的听觉特性2.3 语音信号产生的模型2.3 语音信号产生的模型语音生成模型常用的有:(1)声管模型:波动方程描述(2)LPC模型:数学模型描述(3)共振峰模型:谐振腔描述语音生成模型常用的有:(1)声管模型:波动方程描述(2)LPC模型:数学模型描述(3)共振峰模型:谐振腔描述一.无损声管模型一.无损声管模型 短期内,声道可以表示为形状稳定的管道短期内,声道可以表示为形状稳定的管道 各段管子截面积的和差比,称为反射系数各段管子截面积的和差比,称为反射系数一.无损声管模型一.无损声管模型声道为一变截面积的声管。声道为一变截面积的声管。 声道的频率特性主要取决于声道截面最小值出 现的位置(该点称为收紧点)。收紧点位置由 舌来控制。声道的频率特性主要取决于声道截面最小值出 现的位置(该点称为收紧点)。收紧点位置由 舌来控制。17cm8.5cm13cm声道的无损模型声道的无损模型6气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向 外辐射。气流流过声道时犹如通过了一个具有某种 谐振特性的腔体,放大某些频率,在频谱上形成相 应位置的峰起,称为共振峰。声带振动频率输出气流 的频率气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向 外辐射。气流流过声道时犹如通过了一个具有某种 谐振特性的腔体,放大某些频率,在频谱上形成相 应位置的峰起,称为共振峰。声带振动频率输出气流 的频率 声道的谐振特性声道的谐振特性讲话时,由于舌和唇 的连续运动,使声道形 状改变,随即改变谐振 频率,使得发不同的音。 声道的不同的形状,对 应不同的谐振频率。讲话时,由于舌和唇 的连续运动,使声道形 状改变,随即改变谐振 频率,使得发不同的音。 声道的不同的形状,对 应不同的谐振频率。谐振频率的计算谐振频率的计算谐振频率发生在:Fn= (声道的横截面是均匀的,发元音e时,声道近 似是均匀的。)谐振频率发生在:Fn= (声道的横截面是均匀的,发元音e时,声道近 似是均匀的。)L = 17cm,声道的长度,L = 17cm,声道的长度,c = 340 m/sn = 1,2,3 n = 1,2,3 称为第一共振峰F1=500Hz 、第二共振峰F2=1500Hz 、第三共振峰F3=2500Hz ,称为第一共振峰F1=500Hz 、第二共振峰F2=1500Hz 、第三共振峰F3=2500Hz ,2n-14L2n-14Lc由四部分组成:GU/V 浊音激励+激励形成激励源清音激励声道模型V(Z)辐射模型R(Z)增益参数 和清浊音标识二离散时域模型语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 a 声道模型 :声道模型 : 把连续变化的声管,近似为由把连续变化的声管,近似为由P段截面不变的声 管的串接。当段截面不变的声 管的串接。当P=812时可以满足一般精度要 求,一般取时可以满足一般精度要 求,一般取P=10。 P取偶数,此时取偶数,此时V(Z)有有P/2对共轭极点。其共轭极 点为对共轭极点。其共轭极 点为 各称为语音信号的共振峰。各称为语音信号的共振峰。( )1V Z( ) 1P i i iGH Z a Z= =()exp,1,2.2kkpjkr=2kkF=7语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 b基音系数基音系数 设:语音信号采样频率为设:语音信号采样频率为 fs,基音频率,基音频率 F0,则,则 N0=fs/F0 当当 fs=8kHz(8000样样/秒秒),F0=50450Hz时 有时 有 N0=18160 取样周期取样周期Ts=1/fs,即每隔,即每隔Ts时长取一个样。时长取一个样。 N0的意义:系统要求每隔的意义:系统要求每隔N0*Ts时间产生一 个冲激脉冲。时间产生一 个冲激脉冲。基音频率基音频率F0(Fundamental Frequency) 基音频率基音频率F0=1/Tp由声带的质量来决定由声带的质量来决定。 F0的大小决定了声音的高低,称为音高。的大小决定了声音的高低,称为音高。 男性的男性的F0大致分布在大致分布在: 60200Hz 女性和儿童的女性和儿童的F0大致分布在大致分布在:200450Hz语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 c脉冲激励形成模型脉冲激励形成模型 取:取: 其中其中g1,g2为接近为接近1的小数,的小数,Av用于调节浊音的幅度或能量;用于调节浊音的幅度或能量;Au用于调节清音的幅度或能量;用于调节清音的幅度或能量;G(Z)按按12dB每倍频程速度下降。每倍频程速度下降。( )()()1111211G zggzz=语音信号产生的离散时域数字模型语音信号产生的离散时域数字模型 d辐射模型辐射模型 R(z)= ,表示嘴型对语音的影响,表示嘴型对语音的影响 e声道面积函数声道面积函数 上述模型中上述模型中G(Z)和和R(Z)始终保持不变
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号