《多媒体音频系统》ppt课件-

多媒体音频系统,声音信息的处理,声音的输出：波形声音数模转换频谱合成样本合成（语音合成）,声音的表示与存储,声音的采集：波形声音数字化乐器声（MIDI）话音（语音识别）,声音的处理：压缩和编码,音频处理技术,音频采集文语转换声音编码/解码语音识别音乐合成,声音,声音：携带信息的极其重要的媒体，是多媒体技术研究中的一个重要内容。 2. 种类：人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的雷声、风声、雨声和闪电声等。频率范围：声音信号是由许多频率不同的信号组成，这类信号称为复合信号，而对单一频率的信号称为分量信号。声音信号的一个重要参数就是带宽，它用来描述组成复合信号的频率范围。如高保真声音的频率范围为1020000Hz，而视频信号的带宽是6MHz。基本参数：声音信号的两个基本参数是频率和幅度。人的听觉器官能感知的声音频率大约在2020000Hz之间，在这种频率范围里感知的声音幅度大约在0120dB之间。多媒体音频系统,声音的分类,声音采集波形声音语音 803400Hz 音乐声音的听觉特性音调、音强、音色为声音的三要素。音强（响度）取决于声音的幅度。音调取决于声音的频率。音色是由混入基音的泛音所决定的。声音的方向感,声音的基本特征,声音是由空气中分子的振动而产生的。自然界的声音是一个随时间而变化的连续信号，可近似地看成是一种周期性的函数。通常用模拟的连续波形描述声波的形状，单一频率的声波可用一条正弦波表示，如下图所示。,振幅,周期,基线,基线是测量模拟信号的基准点。声波的振幅表示声音信号的强弱程度。声波的频率反映出声音的音调，声音细尖表示频率高，声音粗低表示频率低。振幅和频率不变的声音信号，称为单音。单音一般只能由专用电子设备产生。在日常生活中，我们听到的自然界的声音一般都属于复音，其声音信号由不同的振幅与频率合成而得到。复音中的最低频率称为复音的基频（基音），是决定声调的基本要素，它通常是个常数。复音中还存在一些其它频率，是复音中的次要成分，通常称为谐音。基频和谐音合成复音，决定了特定的声音音质和音色。,声音信号数字化,采样：奈奎斯特理论（Nyquist theory）：采样频率不应低于声音信号的最高频率的两倍，这样就能把以数字表达的声音还原成原来的声音，叫做无损数字化。量化精度和信噪比：量化精度：采样精度的一种表示方法,每个声音样本的位数（bit per sample，bps）应该是多少。信噪比：采样精度的一种表示方法,叫做信号噪声比，简称信噪比。 (signal-to-noise-ration,SNR），并用下式计算： SNR= 10 lg （Vsignal) /(Vnoise) = 20 lg （Vsignal/Vnoise）其中，Vsignal表示信号电压，Vnoise表示噪声电压；SNR的单位为分贝（dB)。多媒体音频系统,2,2,声音的采样和量化,0101,0100,0011,0010,0001,0000,1001,1010,1011,1100,1101,影响数字音频质量的技术参数,对模拟音频信号进行采样量化编码后，得到数字音频。数字音频的质量取决于采样频率、量化位数和声道数三个因素。,1). 采样频率采样频率是指一秒钟时间内采样的次数。在计算机多媒体音频处理中，采样频率通常采用三种：11.025KHz(语音效果)、22.05KHz(音乐效果)、44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.1KHz。,2). 量化位数量化位数也称“量化精度”，是描述每个采样点样值的二进制位数。例如，8位量化位数表示每个采样值可以用28即256个不同的量化值之一来表示，而16位量化位数表示每个采样值可以用216即 65536个不同的量化值之一来表示。常用的量化位数为8位、12位、16位。,3). 声道数声音通道的个数称为声道数，是指一次采样所记录产生的声音波形个数。记录声音时，如果每次生成一个声波数据，称为单声道；每次生成两个声波数据，称为双声道（立体声）。随着声道数的增加，所占用的存储容量也成倍增加。,数字音频文件的存储量,以字节为单位，模拟波形声音被数字化后音频文件的存储量(假定未经压缩)为：存储量=采样频率量化位数/8声道数时间例如，用44.1KHz的采样频率进行采样，量化位数选用16位，则录制1秒的立体声节目，其波形文件所需的存储量为： 4410016821=176400(字节),声音质量和数据率,质量采样频率/kHz 样本精度/b/s 单道声/立体声数据率（未压缩）/kb/s 频率范围/Hz,电话* AM FM CD DAT,8 11.025 22.050 44.1 48,8 8 16 16 16,单道声单道声立体声立体声立体声,64.0 88.2 705.6 1411.2 1536.0,2003400 507000 2015000 2020000 2020000,说明：*电话使用律编码，动态范围为13位，而不是8位。,多媒体音频系统,声音文件的基本格式,声音的存储格式,格式标准：数据规范1.0（Multimedia Programming Interface and Data Specification 1.0）。该标准是由IBM和微软公司于1991年8月联合开发的资源交换文件格式（resource interchange file format，RIFF）。,group ID =RIFF Riff Type=WAVE,Format at Chunk ck ID=fmt,Sound Data Chunk ckID=data,左图为WAVE 文件结构,WAV 文件,MIDI,常见的声音文件扩展名,文件的扩展名说明,au Sun和NeXT公司的声音文件存储格式（8位律编码或者16位线性编码） aif(Audio Interchange) Apple计算机上的声音文件存储格式 cmf(Creative Music Format) 声霸（SB）卡带的MIDI文件存储格式 mct MIDI文件存储格式 mff(MIDI File Format) MIDI文件存储格式1/2 mid(MIDI) Windows的MIDI文件存储格式 mp2 MPEG Layer ， mp3 MPEG Layer mod(Module) MIDI文件的存储格式 rm(RealMedia) RealNetworks公司的流放式声音文件格式 ra(RealAudio) RealNetworks 公司的流放式声音文件格式,续：常见的声音文件扩展名,rol Adlib 声音卡文件存储格式 snd(sound) Apple 计算机上的声音文件存储格式 seq MIDI文件存储格式 sng MIDI文件存储格式 voc(Creative Voice) 声霸卡存储的声音文件存储格式 wav(Waveform)* Windows采用的波形声音文件存储格式 wrk Cakewalk Pro 软件采用的MIDI文件存储格式,说明：*支持PCM，ADPCM，率和A率波形,多媒体音频系统,声音处理软件,声音处理软件：即声音工具，是用来录放、编辑俄分析声音文件的。常见的声音工具有： 1、Window 95/98 本身带的“Sound Recorder” 当你在英文版的Windows 95/98的界面上点击： Start Programs Accessories Multimedia/Entertainment 单击Sound Recorder 2、买声卡时带的工具 3、网络上下载的工具,多媒体音频系统,声音质量,评价声音质量的方法：平均判分法（mean opinion score，MOS），召集若干实验者，由他们对声音质量的好坏进行评分，求出平均值作为对声音质量的评价。所得分数为MOS。声音质量的评分标准,分数质量级别失真级别,5 优无察觉 4 良（刚）察觉但不讨厌 3 中（察觉）有点讨厌 2 差讨厌但不反感 1 劣极讨厌（令人反感）,多媒体音频系统,音乐,音乐起初是与巫术和宗教活动联系在一起的，舜作“韶”、禹作“大夏”、武王作“大武”，“乐”被孔夫子列为“六艺”之一。后来，音乐从宗教中渐渐脱离出来，成为一种独立的艺术。以小提琴为例，当它的A弦振动时，并不仅仅是整根弦在振动，这根弦的二分之一、三分之一、四分之一、五分之一处都在振动着。于是，整根弦的振动产生了最主要的频率，我们称之为基音，而弦长的二分之一、三分之一、四分之一等处的振动则产生了一些次要的频率，我们称之为泛音。如果一个物体振动所发出的泛音为基音的整数倍，这个音就会具有清晰可辨的音高，我们称之为乐音，如钢琴，小提琴等发出的都是乐音；如果泛音是基音的非整数倍，这个音就不具备清晰可辨的音高，我们称之为噪音，如汽车发动机、计算机风扇等发出的都是噪音。,音乐的四要素,音高：由基音的频率决定。即“哆”“唻”“咪”等音符。响度：由声波的振幅决定。音色：由基音与泛音的比例、泛音的分布、泛音随时间的衰减变化决定。不同发音源（乐器）的材质、形状不同，其泛音的排列组合也不同，也就构成了这一物体特殊的音色。时值：乐音振动的持续时间，即节奏。,电子音乐合成,使用电子元器件（计算机）生成音乐的技术称为电子音乐合成。电子音乐合成器又称为“魔音琴”。电子音乐合成方法分为两大类：,模拟合成法：减法合成加法合成,数字合成法： FM频率调制合成音乐样本合成,频率调制（FM）合成法,数字式频率调制合成法，简称为FM合成法。 FM电子合成器先由震荡器产生一个载波作为基音，然后再产生若干个调制波带着许多泛音加在载波之上，您可以对这个组合加以任意调整，然后加上典型的声音包络线（ADSR），再通过数控滤波器和数控放大器送往数字/模拟转换器，从而形成最后的音响。由于一个物体不可能总是一成不变的振动，所以它的频率和振幅都会随着时间的改变而改变，并最终趋于静止。我们把一声音的发展过程分为四个阶段，分别是触发、衰减、保持和消失。这四个阶段我们统称为“包络” 。包络的发生时间，也决定了一个乐音的时值。,由以下五部分组成：数字载波器调制器声音包络发生器数字运算器模数转换器,频率调制（FM）合成法,FM声音合成器的工作原理,从理论上讲，FM合成方法可以产生任何乐音，但是，这种“物理课式”的合成方法合成出来的声音不够真实。,乐音样本合成法,乐音样本合成法是把真实乐器发出的声音以数字的形式记录下来，播放时再加以调整、修饰和放大，生成各种音阶的音符。乐音样本通常放在RO