资源预览内容
第1页 / 共42页
第2页 / 共42页
第3页 / 共42页
第4页 / 共42页
第5页 / 共42页
第6页 / 共42页
第7页 / 共42页
第8页 / 共42页
第9页 / 共42页
第10页 / 共42页
亲,该文档总共42页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
卷积神经网络研究及其在基音检测中的应用答 辩 人 :黄志强指导老师:何立强教授 张学良副教授1目录一、选题意义及研究现状二、神经网络与卷积神经网络三、CNN-ACF-DP基音检测方法四、对比实验五、总结与展望2基音检测的意义及研究现状一、选题的意义及研究现状语音是人类生产生活中使用最多的一种交流媒介,被广泛用于智能人机交互领域。语音信号处理技术中,有一个非常重要的语音参数,基音频率(基频),代表声带振动的频率。从语音中提取基频就叫基音检测3基音检测的意义及研究现状常用的基音检测方法有ACF、AMDF、倒谱法及其变形,2011年Jin方法和2014年PEFAC方法。常用的基音检测方法在低信噪比环境下性能急剧下降。一、选题的意义及研究现状4CNN的发展及研究现状神经网络是神经科学与计算机科学结合的产物。神经网络的研究几经起落,直到2006年,深度学习提出,深度神经网研究兴起。Hubel和wiesel通过对猫的视觉系统的实验,提出了感受野的概念。基于视觉神经感受野的理论,有学者提出CNN。一、选题的意义及研究现状5CNN的发展及研究现状深度学习在语音识别、图像识别等领域摧枯拉朽。一、选题的意义及研究现状6国际会议、期刊等涌现大量深度学习的文章,CNN被引入很多领域。知名高科技公司都在深度学习领域加大投入。神经网络起源二、神经网络与卷积神经网络7神经网络-训练过程二、神经网络与卷积神经网络8神经网络-训练理念(梯度下降)各变量满足如下公式:求vjk的梯度:求wij的梯度:二、神经网络与卷积神经网络9BP - 梯度下降的规律一条连接权重的更新量为连接中前层神经元的输出乘以后层神经元的输入和的Err。 对于末层神经元,输出错误定义为:对于非末层神经元,输出误差如Err(y)由与其相连的后层神经元的输入误差Err(Z)加权求和得到:一个神经元的输入误差Err(Y)与输出误差Err(y)满足公式二、神经网络与卷积神经网络10BP算法的规律二、神经网络与卷积神经网络11卷积神经网络卷积神经网络是神经网络的一种变形卷积神经网络与神经网络的主要区别就是CNN采用了卷积和子采样过程。神经生物学中局部感受野的提出(1962)催生了卷积的思想。卷积减少了CNN网络参数,子采样减少了网络参数,权值共享大大减少的CNN网络参数。但是CNN具备深层结构。二、神经网络与卷积神经网络12局部感受野二、神经网络与卷积神经网络13卷积神经网络的一般结构14二、神经网络与卷积神经网络卷积 卷积核kernal在inputX图中从左向右,从上至下每次移动一个位置,对应位置相乘求和并赋值到OutputY中的一个位置。二、神经网络与卷积神经网络15子采样(pooling) 子采样通常有两种形式。均值子采样和最大值子采样,子采样可以看做一种特殊的卷积过程。二、神经网络与卷积神经网络16CNN训练中的三次卷积过程尾部NN训练的三个过程 特征抽取器完成三次卷积二、神经网络与卷积神经网络17前向卷积过程二、神经网络与卷积神经网络18错误信号传播二、神经网络与卷积神经网络19权重更新二、神经网络与卷积神经网络20编码实现CNN我们采用了6w张手写数字图片作为训练集,用1w手写数字图片作为测试集。经过100次迭代,在训练集上得到99.51%的准确率,在测试集上得到98.8%的准确率。二、神经网络与卷积神经网络21本文的基音检测模型 CNN-ACF-DP三、CNN-ACF-DP基音检测方法22CNN特征选取本文的CNN模型的输入是语音的频谱特征三、CNN-ACF-DP基音检测方法23特征选择三、CNN-ACF-DP基音检测方法24CNN输出定义人的发声基频约为80Hz到460Hz,使用如下公式将该范围内连续的pitch合理地离散化到71个区间。三、CNN-ACF-DP基音检测方法25添加一个无基音状态对应CNN的72个输出。本文CNN网络结构描述三、CNN-ACF-DP基音检测方法26CNN的基音预测结果一段带噪语音的真实基频CNN预测出来的基频分布三、CNN-ACF-DP基音检测方法27ACF过程三、CNN-ACF-DP基音检测方法28K=32,33.200CNN与ACF融合 我们将CNN的预测结果以乘积的形式附加到ACF特征中。 将CNN末层神经元的输出乘以ACF特征中对应的维度并作为对应维度的新值。 得到CNN-ACF的167+1=168维特征。三、CNN-ACF-DP基音检测方法29动态规划在每一帧的167个状态中,我们挑选出3个概率最高的峰值作为该帧基频的候选项。最后我们利用动态规划对连续语音计算出收益最大路径作为最终的基音序列。动态规划的收益定义为:三、CNN-ACF-DP基音检测方法30最大受益的路径:模型效果ACF三、CNN-ACF-DP基音检测方法31ACF+CNNACF+CNN+DP对比实验实验数据:Chinese National Hi-Tech Project 863 NOISEX-92训练数据: (male 50 + female 50)*6 noises 0db对比试验:三种语音 三种方法三种方法:1. Jin (2011) 2. PEFAC (2014) 3. CNN(CNN-ACF-DP)三种语音:1 训练用说话者训练用噪声 2 训练用说话者新噪声 3 随机说话人随机噪声四、对比实验对比语音四、对比实验33说话人CNN训练用说话人随机说话人噪声类型训练用噪声新噪声随机噪声噪声种数6种10种16种句子数量6*2*20 =240 10*2*20=400 16*20=320 评价指标基音检测率(detection rate , DR)错误决策率(voicing decision error , VDE)四、对比实验实验结果 噪声类型噪声类型 评估指标评估指标信噪比信噪比 方法方法训练用噪声训练用噪声非训练用噪声非训练用噪声随机说话人随机噪声随机说话人随机噪声DRVDEDRVDEDRVDE-10dbCNN0.39790.25040.36140.38040.3110.4228PEFAC0.41880.31340.31030.38430.32760.3544Jin0.25150.37890.28740.39540.21870.4189-5dbCNN0.65420.12840.5920.2890.45650.3335PEFAC0.61370.24550.52270.31230.49570.2796Jin0.42620.30510.43130.33230.39040.32850dbCNN0.7610.07850.72980.22140.69180.2026PEFAC0.7530.1880.69930.23990.66750.2147Jin0.5330.2590.5360.28370.5060.27215dbCNN0.83060.06470.81450.17340.75290.1474PEFAC0.82610.14340.79940.18130.7750.1642Jin0.60450.22650.60280.24830.5830.2334四、对比实验35CNN训练用说话人CNN训练用噪声CNN新噪声四、对比实验36CNN训练用说话人的基音检测结果模型结果模型DRVDECNN0.6609250.1305Jin0.45380.292375PEFAC0.65290.222575 对于特定说话人训练的CNN模型,在相同说话人语音混合新噪声的条件下,取得了明显优于Jin方法和PEFAC方法的VDE和DR。 说明本文训练的模型对噪声的类型不敏感,对训练集中出现的说话人具有良好的识别能力。四、对比实验37随机说话人随机噪声结果模型结果模型DRVDECNN0.553050.276575Jin0.4245250.313225PEFAC0.566450.253225四、对比实验38工作总结本文从数学角度分析推导了NN和CNN的工作原理,总结了BP算法中误差传播和权重修改策略。首次提出用切割小图训练共权NN的思想,解释了CNN中卷积过程。基于此思想,实现了CNN算法,用手写数字识别问题进一步说明了该思想的准确性。本文将基音检测视为一个分类问题,将CNN和传统ACF方法融合并结合DP得到CNN-ACF-DP基音检测方法。本文的CNN-ACF-DP方法和Jin、PEFAC进行多角度实验对比。本文的方法完胜Jin方法,在训练用说话人的基音提取问题中也优于PEFAC方法。五、总结与展望39创新点用切割小图的思想解释卷积,并基于此解释CNN特征抽取部分的训练过程。首次将卷积神经网络运用于基音提取。五、总结与展望40展望 由于作者的学识和时间有限,本文采用使用的训练数据较少,CNN尝试的网络结构及参数也少,我们还有很大的模型的调优空间。 未来CNN还可以尝试使用更深层的网络结构,使用更好的语音特征。由于深度网络对数据描述的能力更强,我们预测增加训练数据并经合理的训练可以达到更好的结果。五、总结与展望41致谢与 QA谢谢各位老师的聆听!Any questions?42
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号