多媒体技术及应用基础-

第2章音频处理技术（二）,西安交通大学计算机教学实验中心 2007,多媒体技术及应用基础,第2|82页,问题的提出,数字音频信息如何处理？用什么工具可以处理？有哪些处理？我能处理吗？ ,第3|82页,二、数字音频,数字音频原理回顾,第4|82页,声音的数字化,声音的数字化数字化就是将连续信号变成离散信号。对音频信号，首先在时间上离散，取有限个时间点，称为采样。然后在幅度上离散，取有限个幅度值，称为量化。再将得到的数据表示成计算机容易识别的格式，称为编码。,第5|82页,声音的A/D与D/A转换,模拟信号很容易受到电子干扰，因此用数字信息代替声音信号成为音频信息处理的一种方法。 A/D转换和D/A转换技术便应运而生。A表示Analog”（类比、模拟），D代表“Digital ”（数字），A/D转换就是把模拟电信号转换成由“0”和“1”组成数字信号的过程。这样做的好处是显而易见的，声音存储质量得到了加强，数字化的声音信息使计算机能够进行识别、处理和压缩，这也就是为什么如今磁带逐渐被淘汰，CD唱片却趋于流行的原因。http:/www.hellodba.net/ 哈罗小说网 A/D转换的一个关键步骤是声音的采样和量化，得到数字音频信号，它在时间上是不连续的离散信号。,第6|82页,PCM编码,1939年法国工程师Alec Reeves发明了将连续的模拟信号变换成时间和幅度都离散的二进制码代表的脉冲编码调制信号（Pulse Code Modulation-PCM），并申请了专利。 P首先开始应用于电话系统，但一直到年美国Bell实验室才为制成了国际上第一套商用电话系统（系统），这标志了通信开始步入数字化。 PCM 编码是对连续语音信号进行空间采样、幅度值量化及用适当码字将其编码的总称。,第7|82页,PCM编码主要优点,抗干扰能力强；失真小；传输特性稳定，尤其是远距离信号再生中继时噪声不累积，而且可以采用压缩编码、纠错编码和保密编码等来提高系统的有效性、可靠性和保密性。,第8|82页,A/D 和D/A转换示意图,8位可编程 A/D转换芯片,示意图,第9|82页,模拟声音信号的采样和量化过程示意,模拟声音信号的波形,采样得到的离散时间信号,再量化得到的数字信号,第10|82页,数字音频的技术指标,采样频率采样精度声道数音频数据传输率编码算法与音频数据压缩比,第11|82页,采样频率,采样频率是指一秒钟采样的次数。采样频率越高，单位时间内采集的样本数越多，得到波形越接近于原始波形，音质就越好。根据奈奎斯特(Harry Nyquist)采样理论：如果采样频率高于输入信号最高频率的两倍，重放时就能从采样信号序列无失真地重构原始信号。,第12|82页,采样的3个常用频率,分别为： 11.025kHzAM(调幅)广播 22.05kHz FM(调频)广播 44.1kHz CD高保真音质声音现在声卡的采样频率一般为48kHz甚至96kHz。,第13|82页,采样精度,采样精度用每个声音样本的位数表示，也叫样本精度或量化位数，反映度量声音波形幅度的精度。例如，每个声音样本用16位表示，则量化样本值在065535之间，它的精度是输入信号的1/65536。采样精度决定了模拟信号数字化以后的动态范围。采样精度影响到声音的质量位数越多，声音的质量越高，而需要的存储空间也越多；位数越少，声音的质量越低，需要的存储空间越少。,第14|82页,声道数,单声道(mono)信号一次产生一组声波数据。双声道或立体声(stereo)一次产生两组声波数据。双声道在硬件中占两条线路，一条是左声道，一条是右声道。立体声不仅音质、音色好，而且能产生逼真的空间感。但立体声数字化后所占空间比单声道多一倍。,第15|82页,其他因素,除采样频率、采样精度、声道数影响声音质量外，声音录制时环境噪声、声卡内部噪声以及采样数据丢失等都会造成声音质量的下降。实际收听时，音响（功率放大器、扬声器等）的质量对音质的表现也起很大作用。,第16|82页,音频数据传输率,音频信号数字化后，产生大量数据。产生数据的速度或播放声音时需要传输数据的速度影响声音的播放质量。数据传输率用每秒钟传输的数据位数表示，记为bps（bit per second）。未经压缩的数字音频数据传输率为：数据传输率(bits) = 采样频率(Hz)量化位数(bit)声道数,第17|82页,声音质量和数字化指标,第18|82页,编码算法与音频数据压缩比,未压缩的音频数据量非常大，因此在编码的时候常采用压缩的方式。实际上，编码的作用一是记录数字数据，二是采用一定的算法来压缩数据以减少存储空间和提高传输效率。压缩编码的基本指标之一就是压缩比，一般为数据压缩前后的数据量之比：,第19|82页,数据压缩说明,采用不同的数字化指标实际上也是进行了不同比例的数据压缩。如果PCM编码采用4bit量化对CD音质信号压缩，其压缩比为4:1。压缩算法包括有损压缩和无损压缩；有损压缩解压后数据不能完全复原，要丢失一部分信息。无损压缩不丢失任何信息，能较好地复原原始信号。,第20|82页,数字音频文件格式,数字声音文件格式是数字音频在磁盘文件中的存放形式，相同的数据可以有不同的文件格式，而不同的数据也可以有相同的文件格式。 WAVE 格式 MP3 格式 RA 格式,第21|82页,WAVE文件格式,WAVE文件是一种通用的音频数据文件，文件扩展名为“WAV”，Windows系统和一般的音频卡都支持这种格式文件的生成、编辑和播放。 CD激光唱盘中包含的就是WAVE格式的波形数据。一般说来，声音质量与其WAVE格式的文件大小成正比。 WAVE文件的特点是易于生成和编辑，但在保证一定音质的前提下压缩比不够，不适合在网络上播放。,第22|82页,MP3文件,MP3文件是采用MP3算法压缩生成的数字音频数据文件，以“.MP3”为文件后缀。 MP3利用MPEG制定的MPEG-1 Audio layer 3的压缩标准，将音频信息用10:1甚至12:1压缩率变成容量较小的数据文件。虽然MP3是一种利用了人类心理声学特性的有损压缩，人耳基本不能分辨出失真，音质几乎达到了CD音质标准。按照这种算法，10张CD-DA的内容可以压缩到l张CD-ROM中，而且视听效果相当好。,第23|82页,RA文件,Real Audio是Real networks推出的一种音乐压缩格式，它的压缩比可达到96:1，因此在网上比较流行。经过压缩的音乐文件可以在通过速率为14.4kb/s的MODEM上网的计算机中流畅回放。其最大特点是可以采用流媒体的方式实现网上实时播放，即边下载边播放。,第24|82页,五、多媒体数据的编码技术,自然现象：我们了解的东西，描述它用的信息量少，不了解的东西，描述它用的信息量大。在信息论中，可以说：信息是用不确定的度量来定义的；一个消息的可能性越小，其信息含量越大；消息的可能性越大，则信息含量越小。,第25|82页,(1)信息和熵,香农（C. E. Shannon）信息论应用概率来描述不确定性。事件出现的概率小，不确定性越多，信息量就大，反之则少。在数学上，所传输的消息是其出现概率的单调下降函数。所谓信息是指从N个相等可能事件中选出一个事件，所需要的信息度量或含量，也就是在辨识N个事件中某个特定事件过程中所需提问“是”或“否”的最少次数。如从64个数中选定某一个数，提问：“是否大于32?”，则不论回答是与否，都消去了半数的可能事件，如此下去，只要问6次这类问题，就可以从64个数中选定一个数。因此，可以用二进制的6个位来记录这一过程，就可以得到这条信息。,第26|82页,信息源x的熵,第27|82页,例2-10,第28|82页,例2-11,第29|82页,香侬理论的要点,信源中含有自然冗余度，这些冗余度既来自于信源本身的相关性，又来自于信源概率分布的不均匀性，只要找到去除相关性或改变概率分布不均匀性的手段和方法，也就找到了信息熵编码的方法。但信源所含有的平均信息量（熵）是进行无失真编码的理论的极限，只要不低于此极限，就能找到某种适宜的编码方法，去逼近信息熵，实现数据压缩。,第30|82页,(2)信息冗余,多媒体数据中大的数据量并不完全等于它们所携带的信息量。在信息论中，称为冗余。冗余是指信息存在的各种性质的多余度。减少数据冗余可以节省存储空间，有效利用网络带宽。,第31|82页,数据冗余的类型,空间冗余物理特性具有相关性。,时间冗余相邻帧图像之间有较大的相关性。,信息熵冗余自然编码的比特分配不能达到最佳。,视觉冗余人眼不能察觉图像中的所有变化。,知识冗余数据的理解与先验知识有很大的关系。例如，当接收到一个成语的前三个字“大惊小”时，就知道下一个字肯定是“怪”。,听觉冗余人耳不能察觉所有频率的变化。,第32|82页,数据压缩的基本原理,数据压缩的对象是数据。数据是信息的载体，用来记录和传送信息。真正有用的不是数据本身，而是数据所携带的信息。大的数据量并不代表含有大的信息量。而对于去掉冗余的数据对信息没有本质的影响称为压缩。,第33|82页,(3)压缩算法的分类,从信息量有无损失划分：可逆编码和不可逆编码。可逆编码也叫无失真编码、冗余度压缩、熵编码等。其原理是减少数据中的冗余度，而不损失任何信息。解压时可以完全恢复出原来的数据，亦称无损压缩。典型的无损压缩有Huffman编码、算术编码和行程编码等。可逆编码由于不会产生失真，因此在多媒体技术中常用于文本、数据的压缩，它能保证完全地恢复原始数据。但这种方法的压缩比较低，一般在2:15:1之间。,第34|82页,不可逆编码,不可逆编码是有失真压缩，信息论中叫熵压缩。由于压缩了熵，会减少信息而不能再恢复。因此这种压缩又称有损压缩。在语音和图像中，由于存在视觉冗余和听觉冗余，减少这种信息并不影响人们的听觉效果和视觉效果，所以经常采用这种方法，有损压缩常用于数字化存储的模拟数据，并且主要应用于图像、声音、动态视频等数据的压缩。如果用混合编码的JPEG标准，对自然景物的彩色图像，压缩比可达到几十倍甚至上百倍。,第35|82页,压缩算法分类,根据压缩原理划分有预测编码、变换编码、矢量编码、子带编码、熵编码等。,第36|82页,1）预测编码,对于语音，就是通过预测去除语音信号时间上的相关性。而对于图像，帧内预测去除了空间上的冗余，帧间预测则可以去除时间上冗余。目前大多数语音、图像编码中都采用了预测技术。例如语音中的LPC(linear Predictive Coding，线性预测)、CELP(码激励线性预测)、图像中的ADPCM(自适应差分脉冲编码调制)等。,第37|82页,2）变换编码,变换编码首先把要压缩的数据变换到某个变换域中，然后再进行编码。变换域中表现为能量集中在某些区域，就可以利用这一特点在不同区域间有效地分配量化比特数，或者去掉这些能量很小的区域，从而达到数据压缩的目的。例如声音中的频谱分析实际上是对语音波形进行了快速傅里叶变换（FFT），将时域信号变到了频域中，可以清楚地看到能量集中在哪些频率范围内。,第38|82页,3）矢量量化,矢量量化是利用相邻数据间的相关性，将数据序列分组进行量化的一种压缩方法。和预测编码一样，矢量量化本质也是利用数据序列的统计相关性进行压缩的。,第39|82页,4）子带编码,子带编码首先让原始数据分别通过若干个具有不同通频带的滤波器，将信号分成多个子带信号输出，然后分别对各个滤波器的输出进行编码。当滤波器选取得合适时，它们的输出将各自具有不同的分布特性，对各频段进行不同的量化处理，可以有效地进行数据压缩。,第40|82页,5）熵编码,根据信息墒的原理，用短码表示出现概率大的数据，用长码表示出现概率小的数据。这是一种无损数据压缩技术，在语音和图像编码中常常和其它有损压缩编码方法结合使用。,