语音重点总结.doc-－金锄头文库

1.function of prefilter：suppress the component of input signal which exceed fs/2， prevent aliasing ； suppress Interference caused by 50Hz electricity。 prefilter is band-pass filter，in general,low and up cut-off frequency are： fH=3400Hz， fL=60100Hz。2. sampling：transform time continuous signal into a time discrete signal 气流从喉向上经过口腔或鼻腔后从嘴或鼻孔向外辐射，期间的传输通道称为声道。气流流过声道时犹如通过了一个具有某种谐振特性的腔体，放大某些频率，在频谱上形成相应位置的峰起，称为共振峰。短时自相关函数和长时自相关函数可以用来描述语音的幅度特性功率谱密度：1.语音中不同频谱分量的平均概率可以用长时平均谱密度来表示。2.语音波形高频分量对语音总能量的贡献很小，但是高频分量带有重要的语音信息，平均功率谱约在250-500Hz处最大，而高于此频率的功率谱约以每倍频程610dB下降。3.语音信号的短时频谱并不总是低通特性。辅音有较高的频谱分量，显噪声特性；元音从总体上看是低通的，显示明显的局部特性。语音信号具有很强的“时变特性” 在有些段落中它具有很强的周期性，有些段落中又具有噪声特性，而且周期性语音和噪声语音也在不断变化之中。语音信号是非平稳的，但具有“准平稳特性” 在较短的时间间隔内（一般20200ms），可以认为语音信号的特征基本保持不变。数字语音信号处理中，通常采取短时分析技术。元音和辅音的区别:1从功能上来讲，元音往往能自成音节，辅音一般不能独立地构成音节。2在物理属性方面，元音基本上由乐音构成，辅音则有一定的噪音。3在听觉上，发元音时，声带振动，比较响亮；发辅音时，有的声带不振动，自然不够响亮，有的声带即使振动，但由于在声腔中受到某种阻碍，还是不如元音响亮。4在生理属性方面，主要有三个方面的区别：第一，发辅音的时候，发音器官的某一部位形成阻碍，气流在只有克服阻碍才能发出来；发元音的时候，气流通过生门使声带发生振动，气流在其通道上不受到阻碍，只受到各种共鸣。第二，发辅音时，因为要克服某种阻碍，气流就比较强；发元音时，因无需克服阻碍，气流就比较弱。决定元音音质的因素：主要有三个方面的因素，一、舌位的高低，二、舌位的前后，三、嘴唇的圆展。这三个因素的不同组合，便能发出不同的元音在求语音信号频谱时，频率越高，相应的成分越小。预加重的目的是提升高频部分，使信号的频谱变得平坦。以便于频谱分析和声道参数分析。一般在语音信号数字化后，通过一个一阶数字滤波器：H(z)=1-mz-1, m接近1。为什么取1030ms，因为根据人的发声生理结构变化的连续性，在此时间段内，声带、声道、口腔的特性几乎不变，语音信号近似平稳。加窗的作用:得到连续的语音特征抑制吉尔伯特效应抑制频谱泄漏窗口的长度N：频率分辨率Df=fs/N。Df随N的增加而减少，频率分辨率得到提高，但时间分辨率降低(与窗长成反比)。应根据不同的应用场合来选择窗口的长度N，应包含7个基音周期，因此可选择100300点为宜。时域波形：幅度时间图。大致得出音节的起始点、清音和浊音以及浊音的基音频率频谱特性：幅度谱图。得出基音周期、共振峰频率及其位置。语音信号的时域分析: 短时能量及短时平均幅度分析(1.幅度分析的依据：是基于语音信号幅度随时间变化。清音段幅度小，其能量集中于高频段；浊音段幅度较大，其能量集中于低频段。2.短时能量函数和短时平均幅度函数作用:(1)区分清/浊音：(2)在信噪比高的情况下，能进行有声/无声判决(3)大致能定出浊音变为清音的时刻，或反之) 短时过零率分析 (定义：信号跨越横轴的情况。对于连续信号，观察语音时域波形通过横轴的情况；对于离散信号，相邻的采样值具有不同的代数符号，也就是样点改变符号的次数。作用:1.区分清/浊音：浊音平均过零率低，集中在低频端；清音平均过零率高，集中在高频端。2.从背景噪声中找出是否有语音，以及语音的起点。) 短时相关分析短时平均幅度差函数在实际应用中，短时平均过零率容易受到A/D转换是的直流偏移、50Hz交流电源的干扰以及噪声的影响.减少这些干扰可以有两种方法：一种是采用带通滤波器消除信号中的直流和50Hz低频分量；另一种是用过门限率来修改过零率，减少随机噪声的影响。短时自相关函数的定义:(1)说明当时域信号为周期信号时，自相关函数也是周期性函数，两者具有同样的周期。(2)Rn(k)为偶函数， Rn(k)Rn(k)(3)Rn(0)最大， Rn(0) |Rn(k)|, Rn(0)=En,对于确定信号， Rn(0)是信号能量；对于随机信号或周期信号， Rn(0)是平均功率。相关函数的作用: 1.区分清/浊音.浊音语音的自相关函数具有一定的周期性。清音语音的自相关函数不具有周期性，类似噪声，有点如语音信号本身。2.估计浊音语音信号的周期，即估计基音周期。短时平均幅度差函数的意义:短时自相关函数是语音信号时域分析的重要参量，但由于乘法运算所需要的时间长。为了避免乘法，一个简单的方法就是利用差值，为此常常采用另一种与自相关函数有类似作用的参量，短时平均幅度差函数。短时平均幅度差函数和自相关函数的关系是：浊音是一个准周期信号，在一帧语音内基音周期近似恒定，因此，短时平均幅度差函数在浊音语音的基音周期上出现极小值，而在清音语音中没有明显的极小值。语谱图: 宽带语谱图窄时窗，时间分辨率高，频率分辨率低纵条纹窄带语谱图横条纹窄时窗，时间分辨率低，频率分辨率高LPC: 提供了预测功能；提供了声道模型和声道模型的参数估计方法；基本思想：语音样本之间存在相关性，一个语音信号的样本可以用过去若干个样本的线性组合来逼近；要想使模型的假定较好的符合语音的实际产生模型主要考虑两个因素：模型的阶数要与共振峰的个数相吻合；声门脉冲形状和口唇辐射影响的补偿。考虑了上述两个因素的线性预测分析，预测误差序列近似于白噪声序列，表明由某一短时信号所得到的线性预测系数能较好的描述产生这段语音的声道特性。线性预测阶数P的选择:P的选择应综合考虑谱估计精度、计算量、存储量；原则：保证有足够的极点来模拟声道的谐振结构,每kHz一个共振峰，每共振峰需要两个极点，外加几个逼近零点的极点；经验公式：分析帧长N的选择N小，计算量小；N大，估计谱的精度高;N可取23个基音周期长度；LPC谱估计的特点：在信号能量较大的区域（谱峰值的地方），LPC谱和信号谱很接近；而在谱的谷底相差比较大。倒谱分析：由卷积信号求得参与卷积的各个信号的过程称为解卷过程。解卷算法可以分为两大类：第一类是首先为线性系统V(Z)建立一个模型，然后对模型参数按照某种最佳准则进行估计，这种方法称为参数解卷方法。采用的模型可以分为全极点模型（AR模型）和零极点模型（ARMA模型），如果采用最小均方误差准则对AR模型进行估计，就得到线性预测编码算法(LPC)。第二类算法称为非模型解卷。同态信号处理完成解卷任务就是其中最重要的一种。倒谱分析优缺点：对语音信号的某一帧同样可以分析出它的短时倒谱参数，总的说来，无论对于语音通信、语音合成或语音识别，倒谱参数所含的信息比其他参数多，也就是语音质量好，识别正确率高。但其缺点是运算量比其他参数大，尽管如此，倒谱分析方法仍不失为一种有效的语音信号的分析方法。同态系统可以分解为两个特征系统（即特征系统和逆特征系统）（指取决于信号的组合规则）和一个线性系统（仅取决于处理要求）结论：一个周期冲激的有限长度序列，其复倒谱也是一个同周期长度的周期冲激序列，只是其长度变为无限长度、振幅随着K值的增加而衰减，衰减速度比原来序列要快，显然，周期冲激序列的倒谱的这些性质对于语音信号的分析是很有用的，这意味着除了原点之外，可以用“高时窗”来从语音信号的倒谱中提取浊音激励信号的倒谱，从而使倒谱法提取音调成为现实。.压缩编码原因：语音信号的压缩编码是研究如何降低语音信号编码速率的问题。把数码率低于64Kbit/s的语音编码方法称为语音压缩编码技术语音编码分类：波形编码（从语音信号的波形出发，对波形的抽样值、预测值、预测误差进行编码，它以重建语音波形为目的，力图使重建波形接近原信号波形。特点：利用抽样定理，恢复原始信号的波形优点：适应能力强，重建语音质量好缺点：编码速率较高类型： PCM，自适应增量调制（ADM），自适应差分编码调制（ADPCM），自适应预测编码APC。速率通常在16-64kbit/s范围），参数编码（提取语音的一些特征信息进行编码，在收端利用这些特征参数合成语音。优点：编码速率低。速率通常是在4.8kbit/s以下。缺点：语音的音质和自然度较差，很难辨别说话人。（有一定的可懂度) 类型:LPC线性预测编码），混合编码（波形编码+参数编码。介于波形编码和参数编码的一种编码。即在参数编码的基础上引入了波形编码的一些特征。可在4-16kbit/s范围内达到良好的语音质量。类型：子带编码）衡量话音编码器的参数：数据输出速率，延迟时间，话音质量，价格（实现代价）语音信号的冗余度：幅度非均匀分布；样本之间的相关性；周期之间的相关性；基音之间的相关性；静止系数（话音间隙）；长期相关性（long term correlation）对大信号来说，虽然绝对量化误差较大，但是因为：（1）大信号出现的机会不多，（2）信噪比（相对误差）与小信号是一致的，所以对总的话音质量影响不大。增量调制 (delta modulation，DM) 是一种预测编码技术，是对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示。DM编码系统又称为“1位系统”。若缩小抽样值（被编码信号）的变化范围，就可以在保证信噪比不变的情况下，减小编码的位数。这就是差值编码的中心思想根据前些时刻的样值来预测现时刻的样值，只要传递预测值和实际值之差，而不需要每个样值的编码都传。这种方法就称为DPCM编码。能够实现自适应预测功能，或者自适应量化功能或者同时实现两种自适应功能的DPCM系统称为ADPCM系统。 ADPCM的两个目标：尽可能去掉语音信号中的冗余信号；以有效的方式将可用比特分配给语音信号自适应预测：1)前向自适应预测算法（根据短时间的相关特性R(i),求短时的最佳预测系数；特点:运算量大，延迟时间大，不能用于高速系统。）2）后向序贯自适应预测算法（采用不断修正预测系数hi(n)的方法来减小瞬时平方差Ed(n),使hi(n)逐步的接近hiopt(n)。）最佳量化：分层电平为相邻量化电平的中点量化电平是该量化间隔内经常出现的瞬时电平值自适应量化的基本思想：自适应量化的基本思想是使量化器的量化级（阶距）能够随着输入信号d(n)瞬时值得变化作自适应调整，从而使量化误差的均方值最小。即:自适应量化指量化台阶随信号变化而变化，使量化误差减小实现方法：前向自适应量化（AQF)：优点：量化误差小，信噪比大；缺点：量阶的信息要与话音信号一起送到收端译码器，否则，收端无法知道该时刻的量阶值后向自适应量化(AQB)：优点：接收端不需要量阶的信息，因为量阶的信息可以从接收码中提取，码速率低，实现容易。缺点：因为量化误差影响量化值得准确度，即信噪比下降，但影响较小。32kb/sA