资源预览内容
第1页 / 共79页
第2页 / 共79页
第3页 / 共79页
第4页 / 共79页
第5页 / 共79页
第6页 / 共79页
第7页 / 共79页
第8页 / 共79页
第9页 / 共79页
第10页 / 共79页
亲,该文档总共79页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第四章 音频信号和声音卡 音频编码基础 音频处理涉及的内容 音频信号压缩技术 音频编码标准 声音卡的组成和工作原理 语音识别技术及应用 思 考 题音频处理涉及的内容 音频传播媒体特征,也即声波的物理 特性。 音频的记录和产生方式,包括模/数 、数/模转换;数据压缩和声音合成。 音频数据的编辑处理 音频信号的处理方法大致可分为两类 :一种是数字音频方式,另一种是分 析合成的方式音频编码基础 声音是携带信息的极其重要的媒体,是多媒体技 术研究中的一个重要内容。声音的种类繁多,如人 的话音、乐器声、动物发出的声音、机器产生的声 音以及自然界的声音等。 这些声音有许多共同的特性,也有它们各自的特 性。在用计算机处理这些声音时,既要考虑它们的 共性,又要利用它们的各自的特性。 我们将研究声音的基础知识,掌握声音数字化的 两个最基本的概念;了解基本的音频信号编码技术 。音频编码基础 声音信号的特点 音频信息的分类 音频信号处理的方法 音频文件的存储格式 声音质量的度量频带宽度 音频信号的频带越宽,所包含的音 频信号分量越丰富,音质越好动态范围 动态范围越大,信号强度的相对变 化范围越大,音响效果越好信噪比 信噪比SNR(Signal to Noise Ratio)是有用信号与噪声之比的简称 。 噪音可分为环境噪音和设备噪音 。信噪比越大,声音质量越好。主观度量法 人的感觉机理对声音的度量最有决 定意义。感觉上的、主观上的测试是 评价声音质量不可缺少的部分。当然 ,可靠的主观度量值是较难获得的音频信息的分类规则音频 规则音频是一种连续变化的模拟信号,可 用一条连续的曲线来表示,称为声波。模拟 信号的曲线无论多复杂,在任一时刻t0都可 分解成一系列正弦波的线性叠加: 声音信号的特点 声音是通过空 气传播的一种连 续的波,这种连 续性表现在两个 方面,一个是时 间上的连续性, 另一方面是指它 在幅度上是连续 的。 音频信号的特征: 基频与音调 谐波与音色 幅度与音强 音宽与频带声音信号的特点 人的听觉器官能感知的频率范围为 2020000Hz ,能感知的声音幅度范围 在0120dB之间,而人的发音器官能 够发出的声音频率范围为803,400Hz 。 声音是一种弹性波,声音信号可以 分成周期信号与非周期信号两类。 声音的质量与声音的频率范围有关 。基频与音调 频率是指信号每秒钟变化的次数。人对声 音频率的感觉表现为音调的高低,在音乐中 称为音高。音调正是由频率所决定的。音 乐中音阶的划分是在频率的对数坐标( 20log)上取等分而得的:谐波与音色 nO称为O的高次谐波分量,也称 为泛音。音色是由混入基音的泛音所 决定的,高次谐波越丰富,音色就越有 明亮感和穿透力。不同的谐波具有不 同的幅值An 和相位偏移n ,由此产 生各种音色效果。幅度与音强 人耳对于声音细节的分辨只有在强度适中 时才最灵敏。人的听觉响应与强度成对数关 系。一般的人只能察觉出3 分贝的音强变化,再细分则没有太多意义 。我们常用音量来描述音强,以分贝( dB=20log)为单位。在处理音频信号时,绝 对强度可以放大,但其相对强度更有意义, 一般用动态范围定义: 动态范围20log(信号的最大强度/信号 的最小强度)(dB)音宽与频带 频带宽度或称为带宽,它是描述组 成复合信号的频率范围 音频信号处理的方法 首先对声音进行在时间轴和幅度两 个方面进行离散化。 音频文件的存储格式 目前比较流行的主要包括以下几种 : 主要用在PC上的以.wav(waveform) 为 扩展名的文件格式; 主要用在Unix工作站上的以.au(audio) 为扩展名的文件格式; 主要用在苹果机和美国视算科技有限 公司的工作站上的以.aiff和snd为扩展名的 文件格式 PC机上比较流行的以.rm和.mp3 波形文件格式 .wav为扩展 名的文件格式 称为波形文件 格式 由IBM和微 软公司于1991 年8月联合开发 的 部分音频文件的后缀 声音质量的度量 声音的质量可以用声音信号的带宽和动态 范围来衡量,等级由高到低依次是DAT, CD,FM,AM和数字电话。 声音质量的度量还有两种基本的方法:一 种是客观质量度量,另一种是主观质量度量 。 声音客观质量的度量主要用信噪比SNR (signal to niose ratio)。 主观质量度量最常用的方法有平均意见得 分(mean opinion score,MOS)。 音频信号压缩技术 概述 脉冲编码调制 增量调制 自适应脉冲编码调制 差分脉冲编码调制 自适应差分脉冲编码调制 子带编码 概述数据压缩的主要依据是人耳朵的 听觉特性,使用“心理声学模型”来达 到压缩声音数据的目的: 听觉系统中存在一个听觉阈值电平 听觉掩饰特性 脉冲编码调制 脉冲编码调制PCM(Pulse Code Modulation) 是一种模数转换的最基本编码方法 模数转换有两个步骤:第一步是采样,就是每 隔一段时间间隔读一次声音的幅度;第二步是量 化,就是把采样得到的声音信号幅度转换成数字 值。采样频率 采样频率是指一秒钟内采样的次数 。采样频率的选择应该遵循奈奎斯特 (Harry Nyquist)采样理论:如果对 某一模拟信号进行采样,则采样后可 还原的最高信号频率只有采样频率的 一半,或者说只要采样频率高于输入 信号最高频率的两倍,就能从采样信 号系列重构原始信号量化量化位是两化中一个十分重要的参数,它是对模 拟音频信号的幅度轴进行数字化,决定了模拟信号数 字化以后的动态范围。由于计算机按字节运算,一般 的量化位数为8位和16位。量化位越高,信号的动态 范围越大,数字化后的音频信号就越可能接近原始信 号,但所需要的存贮空间也越大。 量化有好几种方法,但可归纳成两类:一类称为 均匀量化,另一类称为非均匀量化。如果采用相等的 量化间隔对采样得到的信号作量化,那么这种量化称 为均匀量化。均匀量化就是采用相同的“等分尺”来 度量采样得到的幅度,也称为线性量化,如图所示。 这种方法称为脉冲编码调 制,用PCM表示 非线性量化 非线性量化的基本想法是,对输入信号进行量化 时,大的输入信号采用大的量化间隔,小的输入信 号采用小的量化间隔。 在非线性量化中,采样输入信号幅度和量化输出 数据之间定义了两种对应关系,一种称为m律压(缩 )扩(展)算法,另一种称为A律压(缩)扩(展)算法。 m律压(缩)扩(展)算法m律压扩用在北美和日本等地区的数 字电话通信中,按下面的式子确定量 化输入和输出的关系:式中:x为输入信号幅度,规格化成- 1 x 1; sgn(x)为x的极性;m为确定压 缩量的参数,它反映最大量化间隔和 最小量化间隔之比,取100m500。 A律压(缩)扩(展)算法A律(A-Law)压扩用在欧洲和中国大陆等地 区的数字电话通信中,按下面的式子确定量 化输入和输出的关系:式中:x为输入信号幅度,规格化成- 1x1,sgn(x)为x的极性;A为确定压缩量的 参数,它反映最大量化间隔和最小量化间隔 之比。 增量调制 增量调制DM(Delta Modulation)是一 种预测编码技术。 DM是对实际的采样信号与预测的采 样信号之差的极性进行编码,将极性 变成“0”和“1”这两种可能的取值之一。 如果实际的采样信号与预测的采样信 号之差的极性为“正”,则用“1”表示; 相反则用“0”表示。 DM波形编码的原理图 其中xi表示在i点的编码输出, yi表示输入信号的实际值。增量调制的缺点 一是会出现斜率过载,即增量调制 器的输出不能保持跟踪输入信号的快 速变化 二是会产生粒状噪声。反馈回路输 出信号的最大变化速率受到量化阶大 小的限制,因为量化阶的大小是固定 的。 自适应脉冲编码调制 根据输入信号幅度的均方根值的变化来改 变量化增量的一种编码技术。 改变量化阶大小的方法有两种:一种称为 前向自适应(forward adaptation),另一种称 为后向自适应(backward adaptation)。 差分脉冲编码调制 利用样本与样本之间存 在的信息冗余度来进行编 码的一种数据压缩技术。 差分脉冲编码调制的思 想是,根据过去的样本去 估算下一个样本信号的幅 度大小,这个值称为预测 值,然后对实际信号值与 预测值之差进行量化编码 ,从而就减少了表示每个 样本信号的位数。 自适应差分 脉冲编码调制它的核心想 法是:利用自 适应的思想改变 量化增量的大小 ;使用过去的 样本值估算下一 个输入样本的预 测值,使实际样 本值和预测值之 间的差值总是最 小。 子带编码 使用一组带通滤波器(band-pass filter, BPF)把输入音频信号的频带分成若干个连续 的频段,每个频段称为子带。对每个子带中 的音频信号采用单独的编码方案去编码。 在信道上传送时,将每个子带的代码复合 起来。在接收端译码时,将每个子带的代码 单独译码,然后把它们组合起来,还原成原 来的音频信号。 子带编码示意图 音频编码标准 ITU-T G系列声音压缩标准 MP3压缩技术 MP4压缩技术 乐器数字接口MIDI ITU-T G系列 声音压缩标准 G.711 G.722 G.723 G.728 G.729 音频编码标准比较 G.711 1972年CCITT为电话质量和语音压 缩制定了PCM标准G.711。其速率为 64kb/s,使用律或A律的非线性量化 技术,主要用于公共电话网中。 G.722 1988年CCITT为调幅广播质量的音频信号 压缩制定了G.722标准,它使用子带编码 (SBC)方案,其滤波器组将输入信号分成高 低两个子带信号,然后分别使用ADPCM进 行编码。 G.722能将224kb/s的调幅广播质量的音频 信号压缩为64kb/s,主要用于视听多媒体和 会议电视等。 G.722的主要目标是保持64kb/s的数据率 ,而音频信号的质量要明显高于G.711的质 量。 G.7231996年ITU-T通过了G.723标准“用 于多媒体传输的5.3kb/s或6.3kb/s双速 率话音编码”。它采用多脉冲激励最大 似然量化(MP-MLQ)算法,此标准可应 用于可视电话及IP电话等系统中。 G.728为了进一步降低压缩的速率, CCITT于1992年制定了G.728标准,使 用基于低时延码本激励线性预测编码 (LD-CELP)算法,其速率为16kb/s,主 要用于公共电话网中。 G.729ITU-T于1996年3月通过了G.729标准 ,它使用8kb/s的共轭结构代数码激励 线性预测(CS-ACELP)算法,此标准将 在无线移动网、数字多路复用系统和 计算机通信系统中应用。 音频编码标准比较 MP3压缩技术 MP3(即Motion Picture Experts Group-1 audio layer 3)是近年来发展非常迅速的一种 音频文件格式,具有文件小、音质佳的特点 ,它利用MPEG Audio Layer 3的技术将 WAV文件再加以压缩成为标准音频CD文件 的十二分之一。 在一张存放16首歌曲的74分钟的CD上, 可以存储大约160首歌曲而且能够播放14个 小时之多。 MPEG音频编码标准 MPEG音频编码标准具有可伸缩性, 根据采用的压缩因子的不同可以获得 不同的音质。 MPEG采用分层编码方式,其层次与 压缩因子的关系如下表所示 MP3的一些主要性能 MP4压缩技术 MP4采用的是美国电话电报公司(AT T)所研发的、以“知觉编码
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号