多媒体计算机技术-4-

第四章音频信号和声音卡音频编码基础音频处理涉及的内容音频信号压缩技术音频编码标准声音卡的组成和工作原理语音识别技术及应用思考题音频处理涉及的内容音频传播媒体特征,也即声波的物理特性。音频的记录和产生方式，包括模/数、数/模转换；数据压缩和声音合成。音频数据的编辑处理音频信号的处理方法大致可分为两类：一种是数字音频方式，另一种是分析合成的方式音频编码基础声音是携带信息的极其重要的媒体，是多媒体技术研究中的一个重要内容。声音的种类繁多，如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的声音等。这些声音有许多共同的特性，也有它们各自的特性。在用计算机处理这些声音时，既要考虑它们的共性，又要利用它们的各自的特性。我们将研究声音的基础知识，掌握声音数字化的两个最基本的概念；了解基本的音频信号编码技术。音频编码基础声音信号的特点音频信息的分类音频信号处理的方法音频文件的存储格式声音质量的度量频带宽度音频信号的频带越宽，所包含的音频信号分量越丰富，音质越好动态范围动态范围越大，信号强度的相对变化范围越大，音响效果越好信噪比信噪比SNR（Signal to Noise Ratio）是有用信号与噪声之比的简称。噪音可分为环境噪音和设备噪音。信噪比越大，声音质量越好。主观度量法人的感觉机理对声音的度量最有决定意义。感觉上的、主观上的测试是评价声音质量不可缺少的部分。当然，可靠的主观度量值是较难获得的音频信息的分类规则音频规则音频是一种连续变化的模拟信号,可用一条连续的曲线来表示，称为声波。模拟信号的曲线无论多复杂，在任一时刻t0都可分解成一系列正弦波的线性叠加：声音信号的特点声音是通过空气传播的一种连续的波，这种连续性表现在两个方面，一个是时间上的连续性，另一方面是指它在幅度上是连续的。音频信号的特征: 基频与音调谐波与音色幅度与音强音宽与频带声音信号的特点人的听觉器官能感知的频率范围为 2020000Hz ,能感知的声音幅度范围在0120dB之间，而人的发音器官能够发出的声音频率范围为803,400Hz 。声音是一种弹性波，声音信号可以分成周期信号与非周期信号两类。声音的质量与声音的频率范围有关。基频与音调频率是指信号每秒钟变化的次数。人对声音频率的感觉表现为音调的高低，在音乐中称为音高。音调正是由频率所决定的。音乐中音阶的划分是在频率的对数坐标（ 20log）上取等分而得的：谐波与音色 nO称为O的高次谐波分量，也称为泛音。音色是由混入基音的泛音所决定的，高次谐波越丰富,音色就越有明亮感和穿透力。不同的谐波具有不同的幅值An 和相位偏移n ，由此产生各种音色效果。幅度与音强人耳对于声音细节的分辨只有在强度适中时才最灵敏。人的听觉响应与强度成对数关系。一般的人只能察觉出3 分贝的音强变化，再细分则没有太多意义。我们常用音量来描述音强，以分贝（ dB=20log）为单位。在处理音频信号时，绝对强度可以放大，但其相对强度更有意义，一般用动态范围定义：动态范围20log(信号的最大强度/信号的最小强度)(dB)音宽与频带频带宽度或称为带宽，它是描述组成复合信号的频率范围音频信号处理的方法首先对声音进行在时间轴和幅度两个方面进行离散化。音频文件的存储格式目前比较流行的主要包括以下几种：主要用在PC上的以.wav(waveform) 为扩展名的文件格式；主要用在Unix工作站上的以.au(audio) 为扩展名的文件格式；主要用在苹果机和美国视算科技有限公司的工作站上的以.aiff和snd为扩展名的文件格式 PC机上比较流行的以.rm和.mp3 波形文件格式 .wav为扩展名的文件格式称为波形文件格式由IBM和微软公司于1991 年8月联合开发的部分音频文件的后缀声音质量的度量声音的质量可以用声音信号的带宽和动态范围来衡量，等级由高到低依次是DAT， CD，FM，AM和数字电话。声音质量的度量还有两种基本的方法：一种是客观质量度量，另一种是主观质量度量。声音客观质量的度量主要用信噪比SNR (signal to niose ratio)。主观质量度量最常用的方法有平均意见得分(mean opinion score，MOS)。音频信号压缩技术概述脉冲编码调制增量调制自适应脉冲编码调制差分脉冲编码调制自适应差分脉冲编码调制子带编码概述数据压缩的主要依据是人耳朵的听觉特性，使用“心理声学模型”来达到压缩声音数据的目的: 听觉系统中存在一个听觉阈值电平听觉掩饰特性脉冲编码调制脉冲编码调制PCM（Pulse Code Modulation）是一种模数转换的最基本编码方法模数转换有两个步骤：第一步是采样，就是每隔一段时间间隔读一次声音的幅度；第二步是量化，就是把采样得到的声音信号幅度转换成数字值。采样频率采样频率是指一秒钟内采样的次数。采样频率的选择应该遵循奈奎斯特（Harry Nyquist）采样理论：如果对某一模拟信号进行采样，则采样后可还原的最高信号频率只有采样频率的一半，或者说只要采样频率高于输入信号最高频率的两倍，就能从采样信号系列重构原始信号量化量化位是两化中一个十分重要的参数，它是对模拟音频信号的幅度轴进行数字化，决定了模拟信号数字化以后的动态范围。由于计算机按字节运算，一般的量化位数为8位和16位。量化位越高，信号的动态范围越大，数字化后的音频信号就越可能接近原始信号，但所需要的存贮空间也越大。量化有好几种方法，但可归纳成两类：一类称为均匀量化，另一类称为非均匀量化。如果采用相等的量化间隔对采样得到的信号作量化，那么这种量化称为均匀量化。均匀量化就是采用相同的“等分尺”来度量采样得到的幅度，也称为线性量化，如图所示。这种方法称为脉冲编码调制，用PCM表示非线性量化非线性量化的基本想法是，对输入信号进行量化时，大的输入信号采用大的量化间隔，小的输入信号采用小的量化间隔。在非线性量化中，采样输入信号幅度和量化输出数据之间定义了两种对应关系，一种称为m律压(缩 )扩(展)算法，另一种称为A律压(缩)扩(展)算法。 m律压(缩)扩(展)算法m律压扩用在北美和日本等地区的数字电话通信中，按下面的式子确定量化输入和输出的关系：式中：x为输入信号幅度，规格化成- 1 x 1; sgn(x)为x的极性；m为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比，取100m500。 A律压(缩)扩(展)算法A律(A-Law)压扩用在欧洲和中国大陆等地区的数字电话通信中，按下面的式子确定量化输入和输出的关系：式中：x为输入信号幅度，规格化成- 1x1，sgn(x)为x的极性；A为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比。增量调制增量调制DM(Delta Modulation)是一种预测编码技术。 DM是对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示。 DM波形编码的原理图其中xi表示在i点的编码输出， yi表示输入信号的实际值。增量调制的缺点一是会出现斜率过载，即增量调制器的输出不能保持跟踪输入信号的快速变化二是会产生粒状噪声。反馈回路输出信号的最大变化速率受到量化阶大小的限制，因为量化阶的大小是固定的。自适应脉冲编码调制根据输入信号幅度的均方根值的变化来改变量化增量的一种编码技术。改变量化阶大小的方法有两种：一种称为前向自适应(forward adaptation)，另一种称为后向自适应(backward adaptation)。差分脉冲编码调制利用样本与样本之间存在的信息冗余度来进行编码的一种数据压缩技术。差分脉冲编码调制的思想是，根据过去的样本去估算下一个样本信号的幅度大小，这个值称为预测值，然后对实际信号值与预测值之差进行量化编码，从而就减少了表示每个样本信号的位数。自适应差分脉冲编码调制它的核心想法是：利用自适应的思想改变量化增量的大小；使用过去的样本值估算下一个输入样本的预测值，使实际样本值和预测值之间的差值总是最小。子带编码使用一组带通滤波器(band-pass filter， BPF)把输入音频信号的频带分成若干个连续的频段，每个频段称为子带。对每个子带中的音频信号采用单独的编码方案去编码。在信道上传送时，将每个子带的代码复合起来。在接收端译码时，将每个子带的代码单独译码，然后把它们组合起来，还原成原来的音频信号。子带编码示意图音频编码标准 ITU-T G系列声音压缩标准 MP3压缩技术 MP4压缩技术乐器数字接口MIDI ITU-T G系列声音压缩标准 G.711 G.722 G.723 G.728 G.729 音频编码标准比较 G.711 1972年CCITT为电话质量和语音压缩制定了PCM标准G.711。其速率为 64kb/s，使用律或A律的非线性量化技术，主要用于公共电话网中。 G.722 1988年CCITT为调幅广播质量的音频信号压缩制定了G.722标准，它使用子带编码 (SBC)方案，其滤波器组将输入信号分成高低两个子带信号，然后分别使用ADPCM进行编码。 G.722能将224kb/s的调幅广播质量的音频信号压缩为64kb/s，主要用于视听多媒体和会议电视等。 G.722的主要目标是保持64kb/s的数据率，而音频信号的质量要明显高于G.711的质量。 G.7231996年ITU-T通过了G.723标准“用于多媒体传输的5.3kb/s或6.3kb/s双速率话音编码”。它采用多脉冲激励最大似然量化(MP-MLQ)算法，此标准可应用于可视电话及IP电话等系统中。 G.728为了进一步降低压缩的速率， CCITT于1992年制定了G.728标准，使用基于低时延码本激励线性预测编码 (LD-CELP)算法，其速率为16kb/s，主要用于公共电话网中。 G.729ITU-T于1996年3月通过了G.729标准，它使用8kb/s的共轭结构代数码激励线性预测(CS-ACELP)算法，此标准将在无线移动网、数字多路复用系统和计算机通信系统中应用。音频编码标准比较 MP3压缩技术 MP3(即Motion Picture Experts Group-1 audio layer 3)是近年来发展非常迅速的一种音频文件格式，具有文件小、音质佳的特点，它利用MPEG Audio Layer 3的技术将 WAV文件再加以压缩成为标准音频CD文件的十二分之一。在一张存放16首歌曲的74分钟的CD上，可以存储大约160首歌曲而且能够播放14个小时之多。 MPEG音频编码标准 MPEG音频编码标准具有可伸缩性，根据采用的压缩因子的不同可以获得不同的音质。 MPEG采用分层编码方式，其层次与压缩因子的关系如下表所示 MP3的一些主要性能 MP4压缩技术 MP4采用的是美国电话电报公司(AT T)所研发的、以“知觉编码