第五章音频的数字化与语音编码课件-

第五章音频的数字化与语音编码,学习内容,第一节音频的数字化 1、声音 2、模拟音频与数字音频 3、音频的采样、量化和数字化（重点） 4、数字音频的格式,学习内容,第二节语音编码 1、人耳的听觉特性 2、脉冲编码调制(PCM) 3、G.711标准、G.721标准、G.722标准（重点）,学习目标,1、了解声音相关概念及要素 2、掌握音频采样、量化和数字化原理 3、了解数字音频的文件格式 4、掌握常见的音频压缩编码方法 5、理解G.711、G.721、G.722标准,第一节音频的数字化,一、声音,声音是通过空气传播的一种连续的波，叫声波。声音的强弱体现在声波压力的大小上音调的高低体现在声音的频率上,一、声音有关概念,复合信号：声音信号由许多频率不同的信号组成,分量信号：单一频率的信号,带宽：描述组成复合信号的频率范围。如：高保真声音的频率范围为10 Hz20K Hz，它的带宽约为20K Hz。,一、声音三要素,音强(volume) 音调(pitch) 音色, 响度，由振幅决定由频率决定指声音频率组成成分,一、声音分类,次音频信号20kHZ(人听不到,有很强的方向性,可以形成波束),二、模拟音频与数字音频,模拟信号数字信号,二、模拟音频与数字音频,模拟音频：在时间和幅度上都是连续变化的,数字音频：在时间和幅度上都是离散、不连续的,三、音频的数字化,模拟音频,数字音频,采样、量化、编码,三、音频的数字化（采样）,音频采样：当把模拟声音变成数字声音时，需要每隔一个时间间隔在模拟声音波形上取一个幅度值。,信号转换示意图,三、音频的数字化（采样）,采样：将时间上连续的取值变为有限个离散取值的过程,三、音频的数字化（采样）,奈奎斯特采样定理：,设连续信号X(t)的最高频率分量为Fm，以等间隔Ts（Ts称采样间隔，fs=1/Ts称为采样频率）对X(t)进行采样，得到Xs(t)。如果Fs=2Fm，则Xs(t)保留了X(t )的全部信息（从Xs(t)可以不失真地恢复出X(t)）。,只要采样频率高于信号中最高频率的2倍，就可以从采样中完全恢复原始信号的波形。,三、音频的数字化（量化）,音频量化：将经采样后幅度上无限多个连续的样值变为有限个离散值的过程,三、音频的数字化（量化）,量化过程：先将整个幅度划分成为有限个幅度（量化阶距）的集合，把落入某个阶距内的样值归为一类，并赋予相同的量化值。,量化等级的划分,三、音频的数字化,模拟信号,采样,量化,编码,A/D转换中，影响质量及数据量的主要因素：,每秒钟需要采集多少个声音样本即采样频率,每个声音样本的位数(bps)应该是多少即量化位数,三、音频的数字化,例子:每个声音样本用16位表示,测得声音样本值是在065536的范围里,它的精度就是输入信号的1/65536,声音质量与数据率,三、音频的数字化,四、数字音频的文件格式,1、WAV文件,声音是随着时间连续变化的物理量，并且是一种能借助介质传播的波。,四、数字音频的文件格式,1、WAV文件,字节数/秒=采样频率（HZ） * 量化位数（BIT）* 声道数/8,特点：数据量大音质好不适合网络传播或播放,文件数据量计算：,? 1分钟单声道，采样频率为11.025kHz，8位采样位数,四、数字音频的文件格式,2、MP3文件,MPEG Audio Layer-3 特点：数据量较小，压缩率10：120：1 音质较好是目前最为流行的音频格式文件,四、数字音频的文件格式,3、MIDI文件,数字乐器接口标准特点：midi文件中存储的是产生声音指令数据量小,适用于：需要播放长时间高质量音乐,四、数字音频的文件格式,3、MIDI文件,四、数字音频的文件格式,3、MIDI文件,四、数字音频的文件格式,4、ASF、WMA文件,微软开发的网上流式数字音频文件格式特点：音质好数据量小适合网络流式传输,四、数字音频的文件格式,5、RAM、RA文件,RealNetworks开发的网上流式数字音频文件格式特点：能随带宽的不同而改变音质，在保证大多数人听到流畅声音的前提下，带宽宽裕的听众获得较好的音质适合低网速的实时传输,四、数字音频的文件格式,6、AIF、AU文件,Apple公司开发的音频文件格式,四、数字音频的文件格式,7、CD-DA,数字音频光盘 44.1khz、16Bit量化位数、双声道,四、数字音频的文件格式,8、MD,Mini Disc Sony推出的便携式音乐格式 MD汽车音响、随身听,五、音频文件的读取,工具： UltraEdit Debug 其他反汇编软件,WAVE文件作为多媒体中使用的声波文件格式之一，它是以RIFF格式为标准的。 RIFF是英文Resource Interchange File Format（资源互换文件格式）的缩写，每个WAVE文件的头四个字节便是“RIFF”。对应的十六进制是52 49 46 46。,五、音频文件的读取,五、音频文件的读取,WAV文件结构,五、音频文件的读取,五、音频文件的读取,例：sound.wav,44.1kHz 16位双声道 12.68秒 2236752字节数据量,五、音频文件的读取,六、声音质量的度量,1、客观质量度量：信噪比,信噪比SNR（Signal to Noise Ratio）是有用信号与噪声之比的简称。噪音可分为环境噪音和设备噪音。信噪比越大，声音质量越好。,2、客观质量度量：带宽,六、声音质量的度量,2、客观质量度量：带宽,六、声音质量的度量,音频信号的频带越宽，所包含的音频信号分量越丰富，音质越好,六、声音质量的度量,3、客观质量度量：动态范围,声音的动态范围即声音从最弱变到最强的范围。声音的动态范围还与频率有关。动态范围最大的频率区间是1000-6000HZ，计量单位是分贝(dB)。动态范围越大，信号强度的相对变化范围越大，音响效果越好,六、声音质量的度量,3、客观质量度量：动态范围,动态范围20log(信号的最大强度/信号的最小强度)(dB),六、声音质量的度量,4、主观质量度量：MOS分数Mean Opinian Score,作业,1、你认为多媒体技术发展的八大技术基础中哪一个是最重要的技术基础？并说明原因。 2、请简述音频数字化过程。 3、计算：三分钟的采样频率为22.05kHz，量化位数为16位的立体声音频数据量为多少？,第二节语音编码,一、人耳的听觉特性,人耳对各频率的灵敏度是不同的频域掩蔽效应一种频率的声音阻碍听觉系统感受另一种频率的声音的现象。时域掩蔽效应在时间上相邻的声音之间也有掩蔽现象,二、脉冲编码调制(PCM),二、脉冲编码调制(PCM),1、均匀量化的PCM,二、脉冲编码调制(PCM),2、非均匀量化的PCM,CCITT国际电话电报咨询委员会 Consulative Committee for International Telephone and Telegraph）,原始信号 F=8khz B=14bit,F=8khz B=8bit,压缩,采用的方法：对数PCM编码,律压扩（北美、日本） A 律压扩（西欧、中国）,64Kbps,112Kbps,三、 G.711标准,三、 G.711标准,律压扩,x为输入信号幅度，规格化成-1=x=1 F(x)为量化输出数据 Sgn(x)为x的极性反映最大量化间隔与最小量化间隔之比，100= =500 具体取值为255,三、 G.711标准,A律压扩,0=|x|=1/A,1 /A =|x|=1,x为输入信号幅度，规格化成-1=x=1 Sgn(x)为x的极性 A 反映最大量化间隔与最小量化间隔之比，具体取值87.56,四、G.721标准,原始信号 F=8khz B=14bit,F=8khz B=8bit,或A律,F=8khz B=4bit,112Kbps,64Kbps,32Kbps,ADPCM,APCM (自适应脉冲编码调制),DPCM (差分脉冲编码调制),ADPCM (自适应差分脉冲调制),四、G.721标准,四、G.721标准,APCM (自适应脉冲编码调制),能随信号幅度的大小自动地改变量化阶距的编码制式。,改变量化阶距的方法：,前向自适应APCM （Forward Adaptation）后向自适应APCM （Backward Adaptation）,四、G.721标准,改变量化阶距的方法一：前向自适应APCM,根据未量化的样本值的均方根值来估算输入信号的电平，以此来确定量化阶距的大小，并对其电平进行编码作为边信息（Side Information）传送到接收端。,逆量化器,四、G.721标准,改变量化阶距的方法二：后向自适应APCM,根据从量化器刚输出的过去样本中来提取量化阶信息。这种自适应能在发收两端自动生成量化阶，所以不需要传送边信息。,四、G.721标准,DPCM (差分脉冲编码调制),根据过去的样本去估算(estimate)下一个要量化编码的样本信号幅度有多大，这个值称为预测值，编码器仅对实际信号值与预测值之差进行量化编码。,四、G.721标准,+,逆量化器,S r(k),S(k)输入信号 Se(k-1) 是对S(k)的预测值 S r(k)译码的输出信号 dq(k)是量化差分信号 d(k)差分信号,四、G.721标准,ADPCM (自适应差分脉冲编码调制),ADPCM = APCM + DPCM,+,五、 G.722标准（子带编码）,原始信号 F=8khz B=14bit,F=8khz B=8bit,或A律,F=8khz B=4bit,112Kbps,64Kbps,32Kbps,ADPCM,F=16khz B=4bit,64Kbps,SBC(子带编码),分接器,Xn,五、 G.722标准（子带编码）,根据不同频段的重要性来分配位数根据不同频段的能量电平来改变量化阶距,五、 G.722标准（子带编码）,六、 G.728、G.729标准,为了进一步降低压缩的速率，CCITT于1992年制定了G.728标准，使用基于低时延码本激励线性预测编码(LD-CELP)算法，其速率为16kb/s，主要用于公共电话网中。,ITU-T于1996年3月通过了G.729标准，它使用8kb/s的共轭结构代数码激励线性预测(CS-ACELP)算法，此标准将在无线移动网、数字多路复用系统和计算机通信系统中应用。,七、MPEG音频压缩,1、MPEG-1 2、MPEG-2 3、MPEG-3 4、MPEG-4,七、MPEG音频压缩,MPEG-1压缩原理：,