华中科技大学信号与系统课程设计——语音伪装器-

华中科技大学光学与电子信息华中科技大学光学与电子信息学院学院信号与系统信号与系统课程课程工程工程设计设计问题设计问题设计报告报告题目：题目：_ _语音伪装器语音伪装器_ 分组号： _ 组长： Crainax _ 组员：_ * * *_ 时间： 2015.11.092016.01.15 _ 指导教师： * 报告日期：2016 年 01 月 13 日报告撰写说明报告撰写说明 1 按照参考模板的内容和格式撰写报告 2 理论模型部分须结合本课程知识分析问题、建立模型 3 程序设计部分应给出设计思路、主要流程图和关键函数的说明；结果分析不能只是简单给出结论，应结合具体问题，对关键参数或算法在不同取值条件下对结果的影响情况进行分析和总结。如果可能，还应进行误差分析 4 组内互评分 A、B、C、D 四个贡献等级，最终评价应区分出前三个等级 5 在规定时间内，完成叙述并回答问题。华中科技大学光学与电子信息学院信号与系统工程设计问题设计报告 1 目目录录 1 问题描述 . 2 2 理论模型 . 2 2.1 原理分析与设计思路 . 2 2.2 数学模型 . 2 3 程序设计 . 3 3.1 编程思路 . 3 3.2 主要流程图及说明 . 3 3.3 结果分析 . 7 4 组内互评 . 11 5 总结与体会 . 11 参考文献 . 11 附录 MATLAB 程序主要代码 . 12 华中科技大学光学与电子信息学院信号与系统工程设计问题设计报告 2 1 问题问题描述描述随着科学与技术的进步，在记者进行采访的时候，为了保证被采访者的安全而对被采访者进行声音的伪装；在生活娱乐方面，语音的伪装可以增加趣味性，例如腾讯 qq 推出语音消息变声功能，各手机平台推出众多变声处理的娱乐应用程序这样有用、好玩的语音伪装器是如何实现的？如今我们通过工程设计来解决这个问题。 2 理论模型理论模型 2.1 原理分析与原理分析与设计思路设计思路人类发声过程可以看作是由声门输送的气流经由声道、口、鼻等组织组成的滤波器调制然后产生我们所听到的声音。一般来说人类的语音可以分为有声和无声两种，前者由声带振动产生的激励信号经由声腔调制成不同的音，其声带振动的频率即为基频。而后者则是由声带保持开启状态禁止振动引发的。此外，人类发音的个性化音色除基频外还与另一个参数即共振峰频率有关。不同人群发音基本参数如下：人群基频分布/Hz 共振峰频率分布男声 50,80 偏低女声 160,380 中童声 400,1000 偏高故而在进行性别变音的时候主要考虑基频和共振峰频率的变化即可。当基频伸展，共振峰频率也同时伸展时，可由男声变成女声，女声变成童声；反之，基频收缩，共振峰频率也同时收缩时，则由童声变女声，女声变男声。 2.2 数学模型数学模型对语言信号进行低通滤波，然后进行自相关计算。在低通滤波时，采用巴特沃斯滤波器。根据人的说话特征设定相应指标参数，对本段语音设计算出巴特沃斯模拟滤波器的阶数 N 为 5，3dB 截止频率c, c= (100.1ap1)1 2n,算出c为 0.175，归一化低通原型系统函数为： Ga(p) =1 p5+ b4p4+ b3p3+ b2p2+ b1p + b0 其中b0= 1.0000,b1= 3.2361,b2= 5.2361,b3= 5.2361,b4= 3.2361 将p = s/带人Ga（p）中，得到低通滤波器， Hs(s) =c5s5+ b4c2s4+ b2c3s2+ b1c4s + b0c5 华中科技大学光学与电子信息学院信号与系统工程设计问题设计报告 3 3 程序设计程序设计 3.1 编程思路编程思路变声器是通过改变输入声音频率，进而改变声音的音色、音调，使输出声音在感官上与原声音不同。变声器是借助对声音音色和音调的双重复合改变，实现输出声音的改变的。通过自己发音，共振峰频率的改变是基本重采样实现的，从重采样原理知道，这也同时引发了基频的变化，为保证基频变化和共振频率变化的独立、互不相关，在基频移动是必须考虑抵消重采样带来的偏移，理论上只要基频检测足够精确，确保可以保证基频改变和共振峰频率改变间的互不相关，通过搬移和改变基频、语速，实现变声当基频伸展，共振峰频率也同时伸展时，可由男声变成女声，女声变成童声；反之，基频收缩，共振峰频率也同时收缩时，则由童声变女声，女声变男声。为了获得自然度、真实感较好的变声效果，基频和共振峰频率通常必须各自独立地伸缩变化如下图。采用线性预测参数合成法。线性预测参数合成法利用 LPC 语音分析方法，通过分析自然语音样本，计算出 LPC 系数，就可以建立信号产生模型，从而合成出语音。 3.2 主要流程图主要流程图及说明及说明语音信号输入、保存，读取利用 FFT 分析信号，画出频改变共振峰语音信号恢复代码实现代码实现华中科技大学光学与电子信息学院信号与系统工程设计问题设计报告 4 主要流程主要流程 1 1 声音信号的频谱分析：声音信号的频谱分析：对离散的声音信号的频谱分析时最常用的是 FFT （快速傅氏变换）。FFT 是一种 DFT 的高效算法，称为快速傅立叶变换（fast Fourier transform），它根据离散傅氏变换的奇、偶、虚、实等特性，对离散傅立叶变换的算法进行改进获得的。对声音信号进行 FFT 获得声音信号的频谱特性，为下一步提取基频和共振峰做准备。 2.基于短时间自相关法的基音周期估值基于短时间自相关法的基音周期估值它是一种将语音信号变换到频域或者时域来估计基音周期的方法，首先利用同态分析方法将声道的影响消除，得到属于激励部分的信息，然后求取基音周期，最常用的就是倒谱法，这种方法的缺点就是算法比较复杂，但是基音估计的效果却很好。对语言信号进行低通滤波，然后进行自相关计算。在低通滤波时，采用巴特沃斯滤波器。根据人的说话特征设定相应指标参数，对本段语音设计算出巴特沃斯模拟滤波器的阶数N 为 5，3dB 截止频率c, c= (100.1ap 1)1 2n,算出c为 0.175，归一化低通原型系统函数为： Ga（p） =1 p5+ b4p4+ b3p3+ b2p2+ b1p + b0 其中b0= 1.0000,b1= 3.2361,b2= 5.2361,b3= 5.2361,b4= 3.2361 将p = s/带人Ga（p）中，得到低通滤波器， Hs=c5s5+ b4c2s4+ b2c3s2+ b1c4s + b0c5 根据设定的滤波器编写 matlab 程序，当信号经过低通滤波器后，低通滤波后，保留基音频率，然后再用 8kHz 采样频率进行采样，采样序列为 x(n)，然后进行下一步的自相关计算。 3. 语音信号的短时自相关函数语音信号的短时自相关函数能量有限的语音信号 x(n)的短时自相关函数定义为：此公式表示一个信号和延迟 m 点后该信号本身的相似性。如果信号 x(n)具有周期性，那么它的自相关函数也具有周期性，而且周期与信号 x(n)的周期性相同。自相关函数提供了一种获取周期信号周期的方法。在周期信号周期的整数倍上，它的自相关函数可以达到最大进行频谱分析提取基频与共振峰进行滤波处理改变基频界面设计功能实现华中科技大学光学与电子信息学院信号与系统工程设计问题设计报告 5 值，因此可以不考虑起始时间，而从自相关函数的第一个最大值的位置估计出信号的基音周期，这使自相关函数成为信号基音周期估计的一种工具。短时自相关函数法：语音信号是非稳态信号它的特征是随时间变化的，但在一个很短的时间段内可以认为具有相对稳定的特征即短时平稳性。因此语音具有短时自相关性。这个时间段约 5ms-50ms。为其统计特性和频谱特性都是对短时段而言的。这使得要对语音信号作数字处理必须先按短时段对语音信号分帧。这样每一帧信号都具有短时平稳性从而进行短时相关分析。能量有限的语音信号 s(n)的短时自相关函数定义为：一般要求一帧至少包含 2 个以上的周期。而且相邻帧之间要有足够的重叠。在该信号中定义语音信号自相关函数如下： Rn(k) =xn(