多媒体技术与应用-第4章.ppt-

公共选修课公共选修课全程课堂讲授约全程课堂讲授约全程课堂讲授约全程课堂讲授约27273030学时学时学时学时考试考试考试考试: : 开卷笔试开卷笔试开卷笔试开卷笔试讨论讨论讨论讨论3 36 6学时学时学时学时, , 穿插于理论讲授中穿插于理论讲授中穿插于理论讲授中穿插于理论讲授中广州中医药大学信息技术学院授课老师：信息学院授课老师：信息学院授课老师：信息学院授课老师：信息学院陈浩陈浩陈浩陈浩副教授副教授副教授副教授1. 什么是声音什么是声音? ?声音的种类声音的种类声音的种类声音的种类声音的种类繁多。人声马嘶、兽鸣鸟叫、风雨声音的种类繁多。人声马嘶、兽鸣鸟叫、风雨雷电、机器轰鸣、悠扬琴声等雷电、机器轰鸣、悠扬琴声等因此，声音根据内容可以分为：天籁之音，因此，声音根据内容可以分为：天籁之音，语音，乐音等；根据频率可分为：高音、低音、重语音，乐音等；根据频率可分为：高音、低音、重低音、超声波与次声波等；根据特性分为乐声和噪低音、超声波与次声波等；根据特性分为乐声和噪声。声。声音的实质声音的实质声音的实质声音的实质从信息处理的角度来看，声音实质上是一种信从信息处理的角度来看，声音实质上是一种信号，称之为号，称之为音频信号音频信号。第四部分第四部分声音和音频信号处理声音和音频信号处理http:/www.q266.com 创点教程网2.2.声音信号的特点声音信号的特点s 声波具有时间和幅度上的连续性；声波具有时间和幅度上的连续性；s声音的传播具有反射、折射、衍射等形式；（声速和声音的传播具有反射、折射、衍射等形式；（声速和多普勒效应）多普勒效应）振幅振幅A反映了信号的强度；就反映了信号的强度；就是声音的大小。是声音的大小。频率频率F反映了音调的高低；也反映了音调的高低；也即尖细或是低粗。即尖细或是低粗。 3.3.声波的应用声波的应用声纳，声纳，B超。超。4.4.声音的三要素声音的三要素音调：指声音的基音频率；（音阶的划分）音调：指声音的基音频率；（音阶的划分）音色：指声音的泛音频率；（音频带宽）音色：指声音的泛音频率；（音频带宽）音强：指声音的声音幅度；（音量的计量分贝音强：指声音的声音幅度；（音量的计量分贝dB)dB)。5. 5. 声音质量的度量声音质量的度量声品质可定义为听觉事件对个人各方面需求的满足声品质可定义为听觉事件对个人各方面需求的满足程度，影响声品质的因素包括物理程度，影响声品质的因素包括物理( (声场声场) )、心理声、心理声学学( (听觉感知听觉感知) )、心理、心理( (听觉评价听觉评价) )等几方面。等几方面。人类的听觉频率范围：人类的听觉频率范围：20202020KHzKHz。n语音质量等级：语音质量等级：根据声音频带，声音质量分根据声音频带，声音质量分5 5个等级，依次为：个等级，依次为：电话、调幅广播电话、调幅广播( (AM)AM)、调频广播调频广播( (FM)FM)、CDCD光盘、数光盘、数字录音带字录音带( ( DATDAT，Digital Audio Tape)Digital Audio Tape)6.6.音强和响度，听阈和痛阈音强和响度，听阈和痛阈音强音强又称为响度，是表示人的听觉主观判断又称为响度，是表示人的听觉主观判断声音的强弱程度。在心理学上，响度是人耳对音声音的强弱程度。在心理学上，响度是人耳对音量大小、声音强弱的主观感受。响度大，声音显量大小、声音强弱的主观感受。响度大，声音显得丰满；响度小，声音便非常单薄脆弱。在物理得丰满；响度小，声音便非常单薄脆弱。在物理上，响度用上，响度用声压声压或或声强声强来描述声音的强弱。来描述声音的强弱。响度级为以响度级为以10001000HzHz为基准。定义为基准。定义10001000HzHz、40dB40dB纯音时，响度为纯音时，响度为1 1宋。宋。当声音弱到人耳刚刚能听到的时候，此时的当声音弱到人耳刚刚能听到的时候，此时的音强称之为：音强称之为：听阈听阈。当音强达到人耳感觉疼痛的时候，此时的音当音强达到人耳感觉疼痛的时候，此时的音强称为强称为痛阈痛阈。听阈和痛阈是随频率变化的。听阈和痛阈是随频率变化的。人耳的听觉音强范围为人耳的听觉音强范围为0-1200-120dBdB。人的听觉声强范围人的听觉声强范围7.7.人类的听觉特性人类的听觉特性1) 人耳只能察觉出人耳只能察觉出3dB以上音强变化以上音强变化2) 人耳对不同频段的声音敏感度不同人耳对不同频段的声音敏感度不同人耳对人耳对13KHZ的声音最为灵敏的声音最为灵敏3) 人的听觉具有掩蔽效应人的听觉具有掩蔽效应听觉的掩蔽效应问题：问题：音频信号有什么特点？音频信号有什么特点？如何用计算机处理音频信号？如何用计算机处理音频信号？如何获得高质量的音频信号？如何获得高质量的音频信号？模拟信号的数字化处理模拟信号的数字化处理模拟到数字的转换模拟到数字的转换A/D转换（转换（Analog to Digital Conversion）模拟信号数字化的步骤模拟信号数字化的步骤模拟信号数字化的步骤模拟信号数字化的步骤：1.1.采样采样采样采样在连续信号中每隔一定时间取一个值；在连续信号中每隔一定时间取一个值；在连续信号中每隔一定时间取一个值；在连续信号中每隔一定时间取一个值；2.2.量化量化量化量化把其大小取整为把其大小取整为把其大小取整为把其大小取整为n n位二进制数所能表示的数；位二进制数所能表示的数；位二进制数所能表示的数；位二进制数所能表示的数；例如例如例如例如: : n=4n=4，即有即有即有即有2 24 4=16=16个级别可用于表示一个采样，个级别可用于表示一个采样，个级别可用于表示一个采样，个级别可用于表示一个采样，量化后只能以量化后只能以量化后只能以量化后只能以0 0，1 1，215215这这这这1616个数之一来表示个数之一来表示个数之一来表示个数之一来表示3.3.编码编码编码编码按一定的规律产生二进制位数据。按一定的规律产生二进制位数据。按一定的规律产生二进制位数据。按一定的规律产生二进制位数据。模拟信号数字化的原理模拟信号数字化的原理将检测到的电压值转换成数字信息模拟信号的数字化4bit 采样定理采样定理采样频率要高于被采样信号最高频率的两倍，信号才可能完采样频率要高于被采样信号最高频率的两倍，信号才可能完全复原。全复原。话音最高频率为话音最高频率为4000Hz，则需每秒采样则需每秒采样8000次；声音的最高频率为次；声音的最高频率为20kHz，所以在多媒体计算机中使用的多是所以在多媒体计算机中使用的多是44.1 kHz的采样频率。的采样频率。量化精度量化精度取决于表示一个采样值的二进制位数。位数越多，精度也越取决于表示一个采样值的二进制位数。位数越多，精度也越高。高。用用16个二进制位（个二进制位（bit）表示声音，可将声音分为表示声音，可将声音分为216=65536级，而若级，而若用用8位则仅能区分出位则仅能区分出28=256级。级。用用16位表示的声音比用位表示的声音比用8位的声音质量高得多。位的声音质量高得多。音频数据压缩处理音频数据压缩处理1. 音频压缩的理论基础是人的听觉特性。音频压缩的理论基础是人的听觉特性。2. 音频压缩算法的分类：音频压缩算法的分类： 1) 有损压缩和无损压缩有损压缩和无损压缩 2) 时域压缩，子带压缩和变换压缩时域压缩，子带压缩和变换压缩三种语音编码器：三种语音编码器：波形编码器波形编码器音源编码器音源编码器(声码器声码器) 混合编码器混合编码器3. 最基本的音频压缩处理方法最基本的音频压缩处理方法PCM编码编码脉冲编码调制的概念是脉冲编码调制的概念是1937年，由法国工程师年，由法国工程师Alec Reeres 最早出来的。最早出来的。1946年美国年美国Bell实验室实现了实验室实现了第一台第一台PCM数字电话终端机。数字电话终端机。1962年，晶体管年，晶体管PCM终端机大量应用于市话网中局终端机大量应用于市话网中局间间中继线，使市话电缆传输电话路数扩大中继线，使市话电缆传输电话路数扩大2430倍。倍。70年代后期，超大规模集成电路的年代后期，超大规模集成电路的PCM编、解码器编、解码器的出现，使光纤通信、数字微波通信、卫星通信获的出现，使光纤通信、数字微波通信、卫星通信获得了更广泛的应用。得了更广泛的应用。此外，此外，CD唱机和唱机和DAT录音机，均采用线性录音机，均采用线性PCM编码编码来存储音乐信号，为非压缩方式。来存储音乐信号，为非压缩方式。脉冲编码调制脉冲编码调制(Pulse Coding Modulation) PCM算法是最简单、最完善、最常见也是压算法是最简单、最完善、最常见也是压缩效率最低的编码方法。它用一组二进制数缩效率最低的编码方法。它用一组二进制数码来代替连续信号的抽样值，具有极强的抗码来代替连续信号的抽样值，具有极强的抗干扰能力。干扰能力。步骤：步骤：仅对输入信号进行采样量化编码。仅对输入信号进行采样量化编码。PCMPCM系统原理框系统原理框几个关于几个关于量化量化的概念：的概念：均匀量化与非均匀量化均匀量化与非均匀量化量化噪声（误差）量化噪声（误差）量量化化信信噪噪比比：随随量量化化电电平平阶阶数数M的的增增加加而而提提高，信号的逼真度越好。高，信号的逼真度越好。均均匀匀量量化化的的不不足足：量量化化信信噪噪比比随随信信号号电电平平的的减小而下降。减小而下降。在在民民用用电电话话中中，一一种种简简单单而而又又稳稳定定的的非非均均匀匀量量化化器器为为对对数数量量化化器器。该该量量化化器器在在出出现现频频率率高高的的低低幅幅语语音音信信号号处处，运运用用小小的的量量化化间间隔隔，在在出出现现概概率率低低的的高高幅幅语语音音信信号号处处，运运用大的量化间隔。用大的量化间隔。幅度大的信号被压缩，幅度小的信号被扩张。幅度大的信号被压缩，幅度小的信号被扩张。压缩与扩张的示意图压缩与扩张的示意图两种常见两种常见PCM体制：体制：1)律压扩算法律压扩算法 2) A律压扩算法律压扩算法 A律压缩特性律压缩特性律压缩特性律压缩特性MP3MP3压缩标准压缩标准MP3是一种有损数字音频压缩格式，其全称是是一种有损数字音频压缩格式，其全称是MPEG-1 Audio Layer3。 MPEG-1音频压缩标准是第一个高保真音频数音频压缩标准是第一个高保真音频数据压缩标准。据压缩标准。除除AC-3之外，其他的音频压缩算法只适用于之外，其他的音频压缩算法只适用于语言语言(如码激励线性预测如码激励线性预测CELP)或只有中等压缩质量或只有中等压缩质量(如自适应差分脉冲编码调制如自适应差分脉冲编码调制ADPCM)。MPEG1音频压缩标准虽然是音频压缩标准虽然是MPEG-1标准标准的一部分，但它完全可独立应用。的一部分，但它完全可独立应用。在在MPEG-1标准中，按复杂程度划分了三种音频压缩模式即标准中，按复杂程度划分了三种音频压缩模式即层层，层，层，层，层。目前广泛使用的目前广泛使用的VCD音频压缩方案为层音频压缩方案为层，其典型码率为，其典型码率为每通道每通道192Kbps，共共2通道。通道。层层即称掩蔽模式，采用通用子带集成编码与多路复用，即称掩蔽模式，采用通用子带集成编码与多路复用，典型码率为每通道典型码率为每通道128 Kbps，广泛应用于数字音频广播、广泛应用于数字音频广播、数字演播室、数字演播室、CD-I等数字音频专业的制作、交流、存储和等数字音频专业的制作、交流、存储和传送。传送。层层是综合层是综合层和自适应谱感知熵编码和自适应谱感知熵编码 (ASPEC)的优点提的优点提出的混合压缩技术，出的混合压缩技术，MP3的复杂度相对较高，不利于实时的复杂度相对较高，不利于实时编码，典型码率为编码，典型码率为64 Kbps，在低码率下有高品质的音质。在低码率下有高品质的音质。用于用于ISDN语音通话。语音通话。MPEG-1音频压缩模式的比较音频压缩模式的比较MP3MP3产品简介产品简介1. 1. 组成结构组成结构PHILIPS芯片方案芯片方案PHILIPS解码芯片属于高端产品。其系列芯片解码芯片属于高端产品。其系列芯片SAA7750,SAA7751, PNX0101ET本身仅是解码芯本身仅是解码芯片，必须搭配控制芯片才能使用。片，必须搭配控制芯片才能使用。代表产品：代表产品： iRiver的的IFP-100、300、500系列和系列和MPIO的的FD100、FL100、FY200、FG100等。等。SIGMATEL芯片方案芯片方案美国美国SIGMATEL的的STMP 34和和35系列芯片是目前市系列芯片是目前市场占有率较大的芯片，采用独立控制方式，成本较场占有率较大的芯片，采用独立控制方式，成本较低。低。代表产品：爱国者月光宝盒系列、三星代表产品：爱国者月光宝盒系列、三星 YP-55H，JNC SSF-800等等TELECHIPS芯片方案芯片方案韩国韩国TELECHIPS的的TCC730、TCC731也是性能较也是性能较好的好的MP3解码芯片之一，同样需要外围元件的配合，解码芯片之一，同样需要外围元件的配合，成本比飞利浦较低。成本比飞利浦较低。代表产品：丹丁代表产品：丹丁328系列、系列、DEC街舞系列，朝华魔音街舞系列，朝华魔音系列系列。对三款主流芯片来说，音质排列顺序为：对三款主流芯片来说，音质排列顺序为：Philips Sigmatel Telchips 乐器数字接口乐器数字接口MIDI乐器数字接口规范乐器数字接口规范MIDI (Musical Instrument Digital Interface)于于1983年提出。年提出。MIDI是一种利用合成器产生的音乐技术。是一种利用合成器产生的音乐技术。MIDI由三个部分组成，分别是：由三个部分组成，分别是：通信协议通信协议Communication Protocol；连接器连接器 Connector（硬件接口）；硬件接口）；传播规范，称为标准传播规范，称为标准MIDI文件文件Standard MIDI Files。通信协议通信协议 MIDI协议是乐谱的数字化描述语言。每一个描述乐器协议是乐谱的数字化描述语言。每一个描述乐器演播的动作的字都赋给一个特定的二进制代码。演播的动作的字都赋给一个特定的二进制代码。例如：音色编号为例如：音色编号为00；音符；音符C3编号为编号为00；8分音符编分音符编号为号为60。如果钢琴。如果钢琴8分音符的分音符的C3音，它的音，它的MIDI编码是编码是“00 00 60连接器连接器根据根据MIDI 1.0规范，规范，MIDI连接器是一个连接器是一个5针针DIN接头。接头。由于由于PC机未为机未为MIDI预留接口，故采用串行口或游戏杆预留接口，故采用串行口或游戏杆端口来连接端口来连接MIDI乐器。乐器。标准标准MIDI文件文件一个一个MIDI文件不需要捕捉和存储实际的声音，仅是一文件不需要捕捉和存储实际的声音，仅是一个事件的列表，描述了一个声音卡或其他播放设备要个事件的列表，描述了一个声音卡或其他播放设备要产生某种声音的特定的步骤。因此，产生某种声音的特定的步骤。因此，MIDI文件比数字文件比数字音频文件小得多，并且事件是可以编辑的，音乐可以音频文件小得多，并且事件是可以编辑的，音乐可以重排，编辑，甚至交互式作曲。重排，编辑，甚至交互式作曲。4.4 声卡简介声卡简介声卡的基本功能：将来自话筒、磁带、光盘的原始声音信号进行转换，声卡的基本功能：将来自话筒、磁带、光盘的原始声音信号进行转换，输出到耳机、扬声器、扩音机、录音机等声响设备，或通过音乐设备输出到耳机、扬声器、扩音机、录音机等声响设备，或通过音乐设备数字接口数字接口(MIDI)使乐器发出美妙的声音。使乐器发出美妙的声音。4.1 声卡的发展历史声卡的发展历史1984年，英国年，英国ADLIB AUDIO公司推出第一款声卡。公司推出第一款声卡。 1995年，创新推出年，创新推出AWE32系列，具有硬件波表合成能力，而以往的声系列，具有硬件波表合成能力，而以往的声卡仅具备卡仅具备FM合成能力，具有一个合成能力，具有一个32复音的波表引擎，并集成了复音的波表引擎，并集成了1MB容量的音色库，容量的音色库，MIDI的表现力获得大大提升，硬件波表合成能力成为的表现力获得大大提升，硬件波表合成能力成为高档声卡的象征。高档声卡的象征。1996年，创新推出年，创新推出AWE64系列，具有系列，具有64复音的波表合成能力，成为复音的波表合成能力，成为当时当时MIDI表现力最佳的声卡，这个系列中的表现力最佳的声卡，这个系列中的AWE64 Gold，是公认最是公认最优秀的声卡之一优秀的声卡之一。声卡主要由以下几个部分组成：声卡主要由以下几个部分组成：声音的合成与处理声音的合成与处理是声卡的核心部分。由数字声音处理器、调频是声卡的核心部分。由数字声音处理器、调频( (FM)FM)音乐合成器及音乐合成器及MIDIMIDI控制器组成。完成声波信号的控制器组成。完成声波信号的A/DA/D和和D/AD/A转换，利用调频技术控制声音的音调、音色和幅度等。转换，利用调频技术控制声音的音调、音色和幅度等。混合信号处理器混合信号处理器其中内置数字其中内置数字/ /模拟混音器，混音器的声源由以下模拟混音器，混音器的声源由以下几种信号几种信号: : MIDIMIDI信号、信号、CDCD音频、线路输入、麦克风等可以音频、线路输入、麦克风等可以选择一个声源或几个不同的声源进行混合录音。选择一个声源或几个不同的声源进行混合录音。功率放大器功率放大器由于混合信号处理器输出的信号功率不足，需要一个功率由于混合信号处理器输出的信号功率不足，需要一个功率放大器作为功率放大使得输出的音频信号有足够的功率。放大器作为功率放大使得输出的音频信号有足够的功率。总线接口和控制器总线接口和控制器总线接口和控制器是由数据总线双向驱动器、总线接口总线接口和控制器是由数据总线双向驱动器、总线接口控制逻辑、总线中断逻辑及直接存储器访问（控制逻辑、总线中断逻辑及直接存储器访问（DMADMA）控制控制逻辑组成。逻辑组成。