第四章语音信号处理技术-

第 4 章语音信号处理技术主要内容4.1 语音信号处理概述 4.2 语音信号处理的基础知识 4.3 语音合成 4.4 语音识别 4.5 说话人识别 4.6 语音编码 4.7 语音增强 4.8 语音理解4.1 语音信号处理概述l语音：是人类发音器官发出的、具有一定意义的、能起社会交际作用的声音。能够代表一定的意义，这是语言的声音（语音）同自然界其他一切声音的本质区别。l语言的声音同它所代表的意义是相互依存的统一体，一方面，发音器官发出的声音必须同意义紧密结合、成为一定意义的代表，才能成为语音；另一方面，意义必须借助声音才能成为可被人感知、被人接受的东西，没有声音，意义便无法表达出来。l语音是一种具有多重属性的声音。首先，它同自然界其他声音一样，是由物体振动产生声波而形成的一种自然现象，所以它具有物理的属性方面的自然属性。语言又是人类的生理现象，发音是人体器官的动作。因此，它同时具有生理属性。作为语言这一特殊社会现象的物质基础，语音又具有社会属性，这是语音的本质属性。我们在分析语音现象的时候，这三种属性都会涉及到。l语音信号处理简称语音处理，是以语音学和数字信号处理为基础而形成的一门综合性学科，处理的目的是要得到一些语音参数以便高效的传输或存储，或者通过处理的某种运算以达到某种用途的要求，例如人工合成出语音，辨识出说话者，识别讲话的内容等。l基础：l指导：l技术手段:语音信号处理的发展l开端：1874年电话的发明，基础理论是尽可能不失真的传送语音波形；l1939年，出现通道声码器技术，通过提取语音信号的参数加以传输，在收端重新合成语音；l40年代后期，语谱仪将语音信号的时变谱用图形表示出来的仪器。l50年代初，口授打字机、英语单词语音识别器；l1960年，Fant发表语音产生的声学理论，为建立语音信号数字模型奠定了基础；l60年代中期，快速傅里叶变换变换算法的成功应应用：孤立词语词语音识别识别器数字信号处处理技术术和方法取得突破性进进展；l70年代初，倒谱谱分析技术术、线线性预测预测技术术在语语音处处理中的成功应应用；微电电子学和集成电电路技术术取得进进展；价格低廉的微处处理器芯片的不断问问世；l80年代初，矢量量化VQ应应用于语语音信号处处理；隐隐式马马尔科夫模型HMM是语语音信号处处理技术术的重大发发展；l近年来，人工神经经网络络研究取得迅速发发展，语语音识别识别是神经经网络络的一个重要应应用领领域。语音处理的研究方法新的发展方向l基于语音的信息检索l基于语音识别的广播新闻的自动文摘技术、自动撰写技术lIP电话技术l语音训练与校正技术l语种识别l基于语音的情感处理研究l数字语音安全性、完整性研究l音频作品安全性、完整性研究语音信号处理过程的总体结构l语音识别技术分为两个阶段：训练阶段：对用特定参数形式表示的语音信号进行相应的处理，获得表示识别基本单元共性特点的标准数据，以此构成参考模板，将所有能识别的基本模板结合在一起，形成参考模式库。识别阶段：将待识别的语音经特征提取后逐一与参考模式库中的各个模板按某种原则进行比较，找出最相像的参考模板所对应的发音，即为识别结果。4.2 语音信号处理的基础知识4.2.1 语音 4.2.2 语音信号的特性分析 4.2.3 语音信号生成的数学模型 4.2.4 语音信号的数字化和预处理4.2.1 语音l语音：带有语言信息的声音（声波）。l人们讲话时发出的话语叫语音，它是一种声音，具有称为声学特征的物理特性。l语音是声音和语言的组合体。语音是由一连串的音组成语言的声音。l语音经过声电转换得到电信号；经过声光转换得到光信号。波形图是语音幅度随时间变化的二维图波形特性l语音信号幅度动态范围一般最大为40分贝，实际由于说话人的差别可以达到60-70分贝。l元音幅度较大，有准周期性；清辅音幅度小，和噪声特性相似。l在长时间的语音信号中有相当多的无信号区间，即所谓的语音寂静区间。 l幅度概率密度函数以零幅和近似零幅的概率高，而幅度非常高的情况概率很小。l长时平均幅度的概率密度分布可以用高斯分布、拉普拉斯分布和伽玛(Gamma)分布逼近。l对于短时幅度概率密度用高斯分布逼近就够了。 4.2.2 语音信号的特性分析l语音信号的声学特性l语音信号的时域波形l语音信号的频域波形l语音信号的统计特性语音信号的声学特性l语音的四种物理属性：l音色：又叫音质，是一个声音能区别于其他声音的基本特征。世界上的声音很少是只有一种单纯频率的纯音，绝大多数声音都是由许多个频率和振幅不同的声波组成的复合音。复合音的各成分声波之间频率和振幅相互影响，形成了特定的波形，产生出特定的音质。 l音调：指声音的高低，取决于发音体振动的快慢，即声波的频率。物体每秒钟振动的次数叫频率，声学把频率作为测定物体振动快慢与声音高低的标准。l音强：指声音的强弱，取决于声波的振动幅度。振幅大，发出的声音强度就大，振幅小，声音就弱。l音长：指声音的长短，它取决于发音持续时间的长短。音长的变化往往会影响到音质、音调和音强。基音频率l一般的声音都是由发音体发出的一系列频率、振幅各不相同的振动复合而成的。这些振动中有一个频率最低的振动，由它发出的音就是基音（fundamental tone）。l当发浊音时，气流通过声门时使声带发生振动，产生准周期激励脉冲串，这个脉冲串的周期称为基音周期，其倒数称为基音频率，一般用F0表示。l基音频率与个人声带的长短、厚薄、韧性、劲度和发音习惯有关，很大程度上反映了人的特征。一般来说，男性说话者的基音频率大致分布在50200Hz，女性和小孩的基音频率在200450Hz之间。共振峰l声道是一个谐振腔，当激励的频率达到至声道的固有频率，则声道会以最大的振幅振荡，此时的频率称为共振峰或共振峰频率。l共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道（共振腔）的物理特征。声音在经过共振腔时，受到腔体的滤波作用，使得频域中不同频率的能量重新分配，一部分因为共振腔的共振作用得到强化，另一部分则受到衰减，得到强化的那些频率在时频分析的语图上表现为浓重的黑色条纹。由于能量分布不均匀，强的部分犹如山峰一般，故而称之为共振峰。语音信号的时域波形l在进行语音信号数字处理时，最先接触、最直观的是它的时域波形。通常是将语音用话筒转换成电信号，再用A/D转换器将其转换成离散的数字采样信号后存入计算机。l观察语音信号时间波形的特性，可以通过对语音波形的振幅和周期性来观察不同性质的音素的差别。语音信号的频域波形l时域波形简单直观，但语音信号非常复杂，一些特性要在频域中才能体现出来；并且无论从发音器官的共振角度，还是从听觉器官的频率响应角度来看，频谱都是表征语音特性的基本参数。l共振峰就是一个典型的频域参数，它可以决定信号频谱的总体轮廓或谱包络。l认为语音信号是一种短时平稳信号，在一个很短的时间内（10ms-30ms）语音信号特征基本上是不变的。l根据语音信号的短时平稳特点，在每一时刻都可以用该时刻附近的一短段语音信号分析得到一个频谱。语音信号的语谱图l短时谱只能反映语音信号的静态频率特性（频率变化），不能反映语音信号的动态频率特性（时间变化特性）。因此人们致力于研究语音的时域分析特性，把和时序相关的傅里叶分析的显示图形称为语谱图。l语谱图在1941年由贝尔实验室研究人员发明，它试图用三维的方式显示语音频谱特性，纵轴表示频率，横轴表示时间，颜色的深浅表示特定频带的能量大小，语谱图的发明是语音研究的一个里程碑，它将语音的许多特征直观的呈现出来。l语谱图分为宽带语谱图和窄带语谱图两种。l语音信号是一种短时平稳信号，可以在每个时刻用其附近的短时段语音信号分析得到一种频谱，将语音信号连续的进行这种频谱分析，得到一种三维图谱，横坐标表示时间，纵坐标表示频率，每个像素的灰度值大小反映相应时刻和相应频率信号的能量。这种时频图就是语谱图。l记录语谱图的仪器就是频谱仪。时间、频率、幅值三维坐标，频谱帧随时间变化语音信号的统计特性l语音信号的统计特性可以用它的波形振幅概率密度函数和一些统计量（如均值和自相关函数）来描述。l表示语音信号的统计特性的概率密度的估算方法是根据长时间范围内一段语音信号的大量取样数据的幅度绝对值计算出其幅度直方图，然后，根据统计的振幅直方图，寻找近似的概率密度表达式。v语音产生模型起源于30年代发明的声码器 (Vocoder)。v基本思想是将激励与系统相分离，使语音信号解体，分别进行描述，而不是直接研究语音信号波形本身。v语音信号是一个非平稳的随机过程，但随时间的变化很缓慢，可做一些合理的假设，将语音信号分成短段处理，在这些短段中可视为平稳随机过程，采用线性不时变模型。4.2.3 语音信号生成的数学模型l建立数学模型：寻求一种可以表达一定物理状态下量与量之间关系的数学表示。l语音生成系统：在声门以下，负责产生激励振动激励系统从声门到嘴唇的呼吸通道是声道声道系统语音从嘴唇辐射出去，嘴唇以外辐射系统l 语音信号的分析，就是找出语音产生模型的各种参数（语音的特征参数），应用于语音的编码、识别和合成等。4.2.4 语音信号的数字化和预处理1、预滤预滤波：目的： l抑制输输入信号中频频率超出采样频样频率fs/2的所有分量，防止混叠干扰扰； l抑制50Hz的电电源工频频干扰扰。预滤预滤波器是一个带带通滤滤波器，设设其上、下截止频频率为为： fH=3400Hz， fL=60100Hz。2、采样：l 将时间连续信号变成时间离散信号。l 采样频率通常为fs8kHz。tnxa(nT)xa(t)lIdeal sampling and real sampling奈奎斯特采样定理：设连续信号X(t)的最高频率分量为Fm，以等间隔Ts（Ts称采样间隔，fs=1/Ts称为采样频率）对X(t)进行采样，得到Xs(t)。如果Fs=2Fm，则Xs(t)保留了X(t )的全部信息（从Xs(t)可以不失真地恢复出X(t)）。只要采样频率高于信号中最高频率的2倍，就可以从采样中完全恢复原始信号的波形。音频量化：将经采样后幅度上无限多个连续的样值变为有限个离散值的过程。3. A/D转换（量化）量化过程：先将整个幅度划分成为有限个幅度（量化阶距）的集合，把落入某个阶距内的样值归为一类，并赋予相同的量化值。量化等级的划分量化级越多，量化误差越小。每个采样点占用的 Bit就会越多，在语音信号处理中常用的有16bit 、8bit等量化。采样量化xa(t)xa(nT)x(n)xa1x1xkxakxak+1xk+1xLxaLxaL+1x(n)=Qxa(nT)量化后的信号值与原信号值之间的差值称为量化误差(噪声) e(n)=x(n)- xa(nT) -/2 e(n) /22 m=0 0 其他（1）假设量化噪声是平稳的白噪声过程，有Ee(n)e(n+m)=（2）假设量化噪声与输入信号不相关，有Ee(n)e(n+m)=0 m为任意值（3）在每个量化间隔上，量化噪声均匀分布，有Pe(e(n)=1 |e(n)| /2 0 其他量化信噪比量化噪声的信噪比：SNR=x2/e2 x2语音信号序列的方差， e2噪声序列的方差用分贝表示，SNR=10lg(x2/e2）=6.02B+4.7720lg(Xmax/x)=6.02B7.27Xmax表示信号的峰值，B表示量化的比特数。量化器每增加一个比特，SNR提高约6dB。当B=7, SNR=35dB ，满足一般通信系统的要求。当量化噪声的信噪比达到 6070dB，才能保障有高水平通话质量，这时要求量化为 1113bits。一般的音频