单声道信号源分离最大似然方法-

单声道信号源分离最大似然方法4 评价现在，我们目前使用语音的人工混合物的单声道分离的一些例子信号和音乐信号。与ICA的教训的基础上过滤器的分离性能相比与其他传统的基地，傅立叶，固定小波函数和数据驱动主成分分析（PCA）的基础上过滤器。为了评估我们的方法的限制，我们比较我们的方法维纳滤波与真实频谱图。然后，我们目前的分离结果在真实的环境噪声和语音记录。图5：仿真系统设置。（A）训练阶段：两套训练数据用来获取基础的过滤器和广义高斯参数。（B）测试阶段：两个源信号x1和x2是混合成单声道信号Y。建议的信号分离算法恢复原始信号源的基础上过滤器和广义高斯PDF参数集。 4.1仿真设置我们已经测试的两种不同的声音类型的单通道混合物的建议方法表现。仿真系统设置如图5所示。模拟分为两个阶段。在第一阶段，我们准备培训资料，并运行ICA学习算法获得的基础上过滤器WIK，并建模系数的广义高斯的参数（IK）（stik）PDFS。基础的过滤器和PDF参数估计分别为源1和源2。在测试阶段，两个源信号XT1和XT2，这是不包括在训练数据集，混合成一个单一的通道混合的，我们申请建议分离算法和恢复原始来源。我们采取了四种不同类型的声音，我们的模拟实验。他们是摇滚和爵士音乐的单声道信号，男性和女性的讲话。我们用于学习功能的基础上产生的混合物两套不同的声音信号。对于混合发电，两个句子的目标扬声器“mcpm0”和“fdaw0”，为每个扬声器，从TIMIT语音库选择。训练集设计，每个性别，37个随机选择的男性和7个随机选择的女性，每年有21句。2目标扬声器的话是不包括在训练集。摇滚音乐，主要是由吉他和鼓声，和爵士乐风仪器产生。两个音乐响起的声乐部分被排除在外。用于培训，一半一半的音乐声中产生的混合物。所有信号缩减像素采样到8kHz，从原来的44.1（音乐）和16kHz的（讲话）。图6：4个声源的波形，从训练集。信号源的音频文件http:/speech.kaist.ac.kr/jangbal/ch1bss/. 图7：4声源的平均功率谱。频率刻度范围在04kHz的（X轴），因为所有的信号都在8kHz采样。平均的功率谱和Y轴代表。在64个样品，每个样品开始（8毫秒）分段。所有实验的音频文件在http:/speech.kaist.ac.kr/ jangbal/ch1bss访问。图6显示了四个声源用于培训学习的基础上过滤器和估算的广义高斯模型参数的波形。我们使用不同的数据分离实验。图7比较平均光谱上述四个资料来源。每个涵盖了所有的频段，虽然幅度不同。人们所预料的那么简单过滤或屏蔽，不能分开的混合来源清楚。图8：由ICA的教训的基础上过滤器。选择只有7的基础上筛选出64个成套。全套的基础上筛选http:/speech.kaist.ac.kr/jangbal/ ch1bss/。他们得到的广义高斯ICA学习算法在2.2节所述。 4.2教训的基础过滤器图8教训的基础上过滤器的四个类型的声音（WIK）的子集。广义高斯ICA学习适应从一个64 64平方米的单位矩阵，基函数的梯度计算了1000个波形段块。每个PG（stik）的参数QIK更新每10梯度步骤。教训的基础上过滤器一般为代表的不同程度，其中一些只局限在时域范围的波形叠加。语音基础的过滤器在时间和频率域化和本地化，轴承相似Gabor小波（高斯调制叠加）。更多关于男性和女性的基础过滤器之间的差异的分析中可以找到工作，李某和张某（2001年）。爵士乐的基础上过滤器大多是固定的，但经常幅度的变化显示在时间轴的非平稳行为。岩石基础的过滤器是少固定，振幅突然变化的特点和摇滚音乐的“鼓声”。要实现高阶概率超过一阶独立性（去相关）独立显示的优势，我们进行了对比实验获得的基础上筛选通过PCA的输出系数之间的相关性，从而消除。去相关定义是一个零均值向量x的转化与矩阵W，使蜡质有身份的协方差矩阵。PCA的基础滤波器正交，可从协方差矩阵，W P= D -2等，其中E是一个矩阵特征向量的EXXT列的特征向量获得。图9：显示四个声源中的每一个主成分分析的基础上过滤器的例子的基础是彼此不同的，因为从不同的训练数据集的协方差矩阵，但差异并不在ICA的基地所产生的显著。对于语音基地，PCA的基础滤波器振幅稳定得多，像傅立叶的基础上涵盖了整个时间范围，虽然在时间和类似于Gabor小波本地化ICA的基础上过滤器。对比数据驱动的ICA和PCA基地，我们也执行与两个固定声源的基础上筛选实验：傅立叶和小波的基础上。了解到的讲话的基础上，通过ICA的过滤器像Gabor小波，和其他数据驱动的基础上过滤器，除了一些先验基础过滤器，叠加类似的行为。因此，这是图9：PCA获得的基础上过滤器。选择只有7的基础上筛选出64个成套。他们通过学习ICA的基础上过滤器使用相同的训练数据计算协方差矩阵的特征值分解。宝贵的是，以评估真正傅立叶和真正Gabor小波滤波器建议的分离方法的有效性。公式（2）我们假设的基础上筛选，实值，因此，我们通过一个离散余弦变换（DCT）的基础上，只给出了实系数：其中k1，N是一个指标的基础上过滤器的中心频率。一个实值的1- D Gabor小波是一个具有高斯信封的平面正弦波，由洛伊（2002年）。和f分别确定的位置和宽度的高斯信封，并是正弦波的频率。f的值和u频率逐渐增多所有过滤器的设置，增长到跨越整个时频空间，因为它可以在普通的小波基。除了规模，只有波长和宽度之间的比例高斯信封可以使不同的两个Gabor小波。图10显示了DCT和Gabor小波基地的一些例子。DCT的基础上过滤器分布在时间轴是完全固定的，也就是说，每个DCT的过滤器是一个独特的频率的正弦波组成。Gabor小波也固定的，但只局限在时域范围驻留在。在图8和9，ICA和PCA的基础上过滤器表现出较少的规律性。PCA的基础上过滤器和傅立叶的基础上过滤器显示出类似的特点，和两个语音信号和Gabor小波ICA基础上过滤器也表现出很大的相似之处。 4.3模拟混合物的分离结果我们所产生的四个选择两个来源，只需添加合成的混合物。在3.4节的建议分离算法用于恢复原始来源渠道单一的混合物。混合物的值初始化为源信号的估计。图10：DCT的基础上过滤器（第一行）和Gabor小波的基础上过滤器（第二行）。选择只有7的基础上筛选出64个成套。同一套基础的过滤器可用于所有的四个声源。信号：XT1= XT2= YT。电流源估计所有的样品，同时在每一次迭代更新，在每10次迭代更新和缩放因素。大约100次迭代后，根据分离的融合学习率和其他各种系统参数。分离的程序算法遍历所有的数据和计算梯度，类似的学习算法的基础上，因此他们的时间复杂性是同样的顺序相同。一个1.0 GHz的奔腾电脑上测得的分离时间为8秒长的混合物约10分钟。信号噪声比（SNR），是指由测量的原始信号源和估计源之间的相似性。其中s是原始的源和S估计。要限定一个分离的结果，我们使用两个恢复源信号信噪比的总和：snrx1（X1）+ snrx2（X2）。表1四种不同基地的SNR结果报告。在平均信噪比，数据驱动两个基地的表现优于表1：建议的方法的SNR结果。（R，J，M，F），摇滚，爵士音乐，男，女性讲话。“组合”一栏中列出的来源是混合到Y的符号，和其他列的值是信噪比的款项，snrx1（X1）+ snrx2（X2），以dB为单位。每列的第一行表明所使用的方法获得的基础过滤器。“毛重”代表Gabor小波。所有结果的音频文件访问http:/speech.- kaist.ac.kr/jangbal/ch1bss/。图11：爵士音乐的男性和讲话的分离结果。在垂直的顺序为：原始来源（x 1和X2），混合信号（X1 + X2），并恢复信号。两个固定基地，和ICA的基础显示性能最好的。此外，ICA的基础上保证一定程度上的所有案件的信噪比性能，而表演的两个固定基地和主成分分析的基础上有很大不同的混合声源。爵士乐女性混合物的分离和PCA的基础信噪比优于ICA的基础，虽然其他的混合物被严重分离。DCT和Gabor小波的基础上显示很好的信噪比为爵士音乐的混合物相比，其他混合物。这可能的解释是，爵士音乐是非常接近固定，并因此PCA和ICA诱导爵士音乐类似特征的基础上过滤器（图8和9），而这些基础的过滤器类似于DCT的基础上过滤器。虽然Gabor小波滤波器在时间上是局部性的，他们也从血窦，所以他们代表与其他信号源相比，爵士音乐。一般来说，含有爵士音乐的混合物被回收比较干净，和男女混合至少收回。关于摇滚音乐的混合物，ICA的基础和其他基地之间的信噪比差异远远比其他混合物。这是因为鼓声（突然变化幅度），以及只有在ICA的基础上过滤器表示。图11说明原始来源和回收的结果为他们的爵士音乐和男性讲话的混合物，和图12的男性和女性的言论的混合物显示的波形。他们的信噪比款项分别为10.3和5.9。讲话，讲话的混合物的分离比音乐讲话混合物的差。从实验结果，我们得出结论，分层性能高度依赖的基础上功能。预计每个基地台的信号源，混合和单一通道中观察到的。