资源预览内容
第1页 / 共87页
第2页 / 共87页
第3页 / 共87页
第4页 / 共87页
第5页 / 共87页
第6页 / 共87页
第7页 / 共87页
第8页 / 共87页
第9页 / 共87页
第10页 / 共87页
亲,该文档总共87页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
多媒体音频系统,声音信息的处理,声音的输出: 波形声音数模转换 频谱合成 样本合成(语音合成),声音的表示 与存储,声音的采集: 波形声音数字化 乐器声(MIDI) 话音(语音识别),声音的处理: 压缩和编码,音频处理技术,音频采集 文语转换 声音编码/解码 语音识别 音乐合成,声音,声音:携带信息的极其重要的媒体,是多媒体技术研究中的一个重要内容。 2. 种类:人的话音、乐器声、动物发出的声音、机器产生的声音以及自然 界的 雷声、风声、雨声和闪电声等。 频率范围:声音信号是由许多频率不同的信号组成,这类信号称为复合信 号,而对单一频率的信号称为分量信号。声音信号的一个重要参数就是 带宽,它用来描述组成复合信号的频率范围。如高保真声音的频率范围 为1020000Hz,而视频信号的带宽是6MHz。 基本参数:声音信号的两个基本参数是频率和幅度。人的听觉器官能感知的 声音频率大约在2020000Hz之间,在这种频率范围里感知的声 音幅度大约在0120dB之间。 多媒体音频系统,声音的分类,声音采集 波形声音 语音 803400Hz 音乐 声音的听觉特性 音调、音强、音色为声音的三要素。 音强(响度)取决于声音的幅度。 音调取决于声音的频率。 音色是由混入基音的泛音所决定的。 声音的方向感,声音的基本特征,声音是由空气中分子的振动而产生的。自 然界的声音是一个随时间而变化的连续信号,可 近似地看成是一种周期性的函数。通常用模拟的 连续波形描述声波的形状,单一频率的声波可用 一条正弦波表示,如下图所示。,振幅,周期,基线,基线是测量模拟信号的基准点。声波的振 幅表示声音信号的强弱程度。声波的频率反映出 声音的音调,声音细尖表示频率高,声音粗低表 示频率低。 振幅和频率不变的声音信号,称为单音。 单音一般只能由专用电子设备产生。在日常生活 中,我们听到的自然界的声音一般都属于复音, 其声音信号由不同的振幅与频率合成而得到。复 音中的最低频率称为复音的基频(基音),是决 定声调的基本要素,它通常是个常数。复音中还 存在一些其它频率,是复音中的次要成分,通常 称为谐音。基频和谐音合成复音,决定了特定的 声音音质和音色。,声音信号数字化,采样: 奈奎斯特理论(Nyquist theory):采样频率不应低于声音信号的最高频率的两倍,这样就能把以数字表达的声音还原成原来的声音,叫做无损数字化。 量化精度和信噪比: 量化精度:采样精度的一种表示方法,每个声音样本的位数(bit per sample,bps)应该是多少。 信噪比:采样精度的一种表示方法,叫做信号噪声比,简称信噪比。 (signal-to-noise-ration,SNR),并用下式计算: SNR= 10 lg (Vsignal) /(Vnoise) = 20 lg (Vsignal/Vnoise) 其中,Vsignal表示信号电压,Vnoise表示噪声电压;SNR的单位为分贝(dB)。 多媒体音频系统,2,2,声音的采样和量化,0101,0100,0011,0010,0001,0000,1001,1010,1011,1100,1101,影响数字音频质量的技术参数,对模拟音频信号进行采样量化编码后,得 到数字音频。数字音频的质量取决于采样频率、 量化位数和声道数三个因素。,1). 采样频率 采样频率是指一秒钟时间内采样的次数。 在计算机多媒体音频处理中,采样频率通常采 用三种:11.025KHz(语音效果)、22.05KHz(音 乐效果)、44.1KHz(高保真效果)。常见的CD唱 盘的采样频率即为44.1KHz。,2). 量化位数 量化位数也称“量化精度”,是描述每个采样 点样值的二进制位数。例如,8位量化位数表示每 个采样值可以用28即256个不同的量化值之一来表 示,而16位量化位数表示每个采样值可以用216即 65536个不同的量化值之一来表示。常用的量化位 数为8位、12位、16位。,3). 声道数 声音通道的个数称为声道数,是指一次采 样所记录产生的声音波形个数。记录声音时,如 果每次生成一个声波数据,称为单声道;每次生 成两个声波数据,称为双声道(立体声)。随着 声道数的增加,所占用的存储容量也成倍增加。,数字音频文件的存储量,以字节为单位,模拟波形声音被数字化后 音频文件的存储量(假定未经压缩)为: 存储量=采样频率量化位数/8声道数时间 例如,用44.1KHz的采样频率进行采样,量 化位数选用16位,则录制1秒的立体声节目,其 波形文件所需的存储量为: 4410016821=176400(字节),声音质量和数据率,质量 采样频率/kHz 样本精度/b/s 单道声/立体声 数据率(未压缩)/kb/s 频率范围/Hz,电话* AM FM CD DAT,8 11.025 22.050 44.1 48,8 8 16 16 16,单道声 单道声 立体声 立体声 立体声,64.0 88.2 705.6 1411.2 1536.0,2003400 507000 2015000 2020000 2020000,说明:*电话使用 律编码,动态范围为13位,而不是8位。,多媒体音频系统,声音文件的基本格式,声音的存储格式,格式标准:数据规范1.0(Multimedia Programming Interface and Data Specification 1.0)。该标准是由IBM和微软公司于1991年8月联合开发 的资源交换文件格式(resource interchange file format,RIFF)。,group ID =RIFF Riff Type=WAVE,Format at Chunk ck ID=fmt,Sound Data Chunk ckID=data,左图为WAVE 文件结构,WAV 文件,MIDI,常见的声音文件扩展名,文件的扩展名 说明,au Sun和NeXT公司的声音文件存储格式(8位律编码或者16位线性编码) aif(Audio Interchange) Apple计算机上的声音文件存储格式 cmf(Creative Music Format) 声霸(SB)卡带的MIDI文件存储格式 mct MIDI文件存储格式 mff(MIDI File Format) MIDI文件存储格式1/2 mid(MIDI) Windows的MIDI文件存储格式 mp2 MPEG Layer , mp3 MPEG Layer mod(Module) MIDI文件的存储格式 rm(RealMedia) RealNetworks公司的流放式声音文件格式 ra(RealAudio) RealNetworks 公司的流放式声音文件格式,续:常见的声音文件扩展名,rol Adlib 声音卡文件存储格式 snd(sound) Apple 计算机上的声音文件存储格式 seq MIDI文件存储格式 sng MIDI文件存储格式 voc(Creative Voice) 声霸卡存储的声音文件存储格式 wav(Waveform)* Windows采用的波形声音文件存储格式 wrk Cakewalk Pro 软件采用的MIDI文件存储格式,说明:*支持PCM,ADPCM, 率和A率波形,多媒体音频系统,声音处理软件,声音处理软件:即声音工具,是用来录放、编辑俄分析声音文件的。 常见的声音工具有: 1、Window 95/98 本身带的“Sound Recorder” 当你在英文版的Windows 95/98的界面上点击: Start Programs Accessories Multimedia/Entertainment 单击Sound Recorder 2、买声卡时带的工具 3、网络上下载的工具,多媒体音频系统,声音质量,评价声音质量的方法:平均判分法(mean opinion score,MOS),召集若干实验者,由他们对声音质量的好坏进行评分,求出平均值作为对声音质量的评价。所得分数为MOS。 声音质量的评分标准,分数 质量级别 失真级别,5 优 无察觉 4 良 (刚)察觉但不讨厌 3 中 (察觉)有点讨厌 2 差 讨厌但不反感 1 劣 极讨厌(令人反感),多媒体音频系统,音乐,音乐起初是与巫术和宗教活动联系在一起的,舜作“韶”、禹作“大夏”、武王作“大武”,“乐”被孔夫子列为“六艺”之一 。后来,音乐从宗教中渐渐脱离出来,成为一种独立的艺术。 以小提琴为例,当它的A弦振动时,并不仅仅是整根弦在振动,这根弦的二分之一、三分之一、四分之一、五分之一处都在振动着。于是,整根弦的振动产生了最主要的频率,我们称之为基音,而弦长的二分之一、三分之一、四分之一等处的振动则产生了一些次要的频率,我们称之为泛音。 如果一个物体振动所发出的泛音为基音的整数倍,这个音就会具有清晰可辨的音高,我们称之为乐音,如钢琴,小提琴等发出的都是乐音;如果泛音是基音的非整数倍,这个音就不具备清晰可辨的音高,我们称之为噪音,如汽车发动机、计算机风扇等发出的都是噪音。,音乐的四要素,音高:由基音的频率决定。即“哆”“唻”“咪”等音符。 响度:由声波的振幅决定。 音色:由基音与泛音的比例、泛音的分布、泛音随时间的衰减变化决定。不同发音源(乐器)的材质、形状不同,其泛音的排列组合也不同,也就构成了这一物体特殊的音色。 时值:乐音振动的持续时间,即节奏。,电子音乐合成,使用电子元器件(计算机)生成音乐的技术称为电子音乐合成。电子音乐合成器又称为“魔音琴”。 电子音乐合成方法分为两大类:,模拟合成法: 减法合成 加法合成,数字合成法: FM频率调制合成 音乐样本合成,频率调制(FM)合成法,数字式频率调制合成法,简称为FM合成法。 FM电子合成器先由震荡器产生一个载波作为基音,然后再产生若干个调制波带着许多泛音加在载波之上,您可以对这个组合加以任意调整,然后加上典型的声音包络线(ADSR),再通过数控滤波器和数控放大器送往数字/模拟转换器,从而形成最后的音响。 由于一个物体不可能总是一成不变的振动,所以它的频率和振幅都会随着时间的改变而改变,并最终趋于静止。我们把一声音的发展过程分为四个阶段,分别是触发、衰减、保持和消失。这四个阶段我们统称为“包络” 。包络的发生时间,也决定了一个乐音的时值。,由以下五部分组成: 数字载波器 调制器 声音包络发生器 数字运算器 模数转换器,频率调制(FM)合成法,FM声音合成器的工作原理,从理论上讲,FM合成方法可以产生任何乐音,但是,这种“物理课式”的合成方法合成出来的声音不够真实。,乐音样本合成法,乐音样本合成法是把真实乐器发出的声音以数字的形式记录下来,播放时再加以调整、修饰和放大,生成各种音阶的音符。 乐音样本通常放在RO
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号