多媒体数字压缩技术-

多媒体数据压多媒体数据压缩技术缩技术1多媒体数字压缩技术什么是数据压缩数据压缩就是在一定的精度损失条件下，以最少的数码表示信源所发出的信号信源编码信道编码信道信道译码信源译码信源信宿2多媒体数字压缩技术分钟分钟数字音频信号需要的存储空间数字音频信号需要的存储空间1 13多媒体数字压缩技术分钟分钟数字视频信号需要的存储空间数字视频信号需要的存储空间1 14多媒体数字压缩技术压缩编码技术基础压缩编码技术基础l多媒体数据压缩的必要性多媒体数据压缩的必要性多媒体信息是海量信息：彩色电视信号信息量多媒体信息是海量信息：彩色电视信号信息量100Mb/S、图象、声音、图象、声音多媒体海量信息的数据存储、处理、传输是软、硬件技术难题多媒体海量信息的数据存储、处理、传输是软、硬件技术难题l数据压缩的可行性数据压缩的可行性信息论观点：信源数据是信息量（信源熵）和信息冗余量之和信息论观点：信源数据是信息量（信源熵）和信息冗余量之和信息冗余：空间冗余、时间冗余、结构冗余、知识冗余、视觉冗余等信息冗余：空间冗余、时间冗余、结构冗余、知识冗余、视觉冗余等数据压缩通过减少冗余量而尽可能保留信源信息量数据压缩通过减少冗余量而尽可能保留信源信息量l压缩编码方法分类压缩编码方法分类冗余度压缩：无损压缩，信息保持编码或熵编码，可逆运算冗余度压缩：无损压缩，信息保持编码或熵编码，可逆运算信息量压缩：有损压缩，失真度编码或熵压缩编码，不可逆，允许失真信息量压缩：有损压缩，失真度编码或熵压缩编码，不可逆，允许失真5多媒体数字压缩技术空间冗余一幅图像表面上各采样点的颜色之间往往存在着空间连贯性，基于离散像素采样来表示物体表面颜色的像素存储方式可利用空间连贯性，达到减少数据量的目的。例如，在静态图像中有一块表面颜色均匀的区域，在此区域中所有点的光强和色彩以及饱和度都是相同的，因此数据有很大的空间冗余。6多媒体数字压缩技术时间冗余运动图像一般为位于一时间轴区间的一组连续画面，其中的相邻帧往往包含相同的背景和移动物体，只不过移动物体所在的空间位置略有不同，所以后一帧的数据与前一帧的数据有许多共同的地方，这种共同性是由于相邻帧记录了相邻时刻的同一场景画面，所以称为时间冗余。同理，语音数据中也存在着时间冗余。7多媒体数字压缩技术视觉冗余人类的视觉系统对图像场的敏感度是非均匀的。但是，在记录原始的图像数据时，通常假定视觉系统近似线性的和均匀的，对视觉敏感和不敏感的部分同等对待，从而产生比理想编码（即把视觉敏感和不敏感的部分区分开来的编码）更多的数据，这就是视觉冗余。8多媒体数字压缩技术时间域压缩时间域压缩迅速传输媒体信源迅速传输媒体信源频率域压缩频率域压缩并行开通更多业务并行开通更多业务空间域压缩空间域压缩降低存储费用降低存储费用能量域压缩能量域压缩降低发射功率降低发射功率数据压缩的好处9多媒体数字压缩技术压缩编码的衡量指标压缩编码的衡量指标l压缩比要大压缩比要大l恢复后的失真小恢复后的失真小l压缩算法要简单、速度快压缩算法要简单、速度快l压缩能否用硬件实现压缩能否用硬件实现10多媒体数字压缩技术经典数据压缩理论信息论中的信源编码理论解决的主要问题：（1）数据压缩的理论极限（2）数据压缩的基本途径11多媒体数字压缩技术信源n信源被抽象为一个随机变量序列（随机过程）。n如果信源输出的随机变量取值于某一连续区间，就叫做连续信源。比如语音信号X(t)。n如果信源输出的随机变量取值于某一离散符号集合，就叫做离散信源。比如平面图像X(x，y)和电报。信源 X1, X2, X3, X412多媒体数字压缩技术离散信源n如果随机序列中各个变量具有相同的概率分布，则称为离散平稳信源。n如果离散平稳信源的输出序列中各个变量是相互独立的，即前一个符号的出现不影响以后任何一个符号出现的概率，则称为离散无记忆平稳信源，否则称为离散有记忆平稳信源。信源 X1, X2, X3, X4 a1, a2, a3, am13多媒体数字压缩技术信息量和熵信息量和熵l信息量的度量信息量的度量l信源信源S熵的定义熵的定义l信源熵举例信源熵举例一幅用一幅用256级灰度表示的图象，每个像素点灰度的概率均等，编码每个像素级灰度表示的图象，每个像素点灰度的概率均等，编码每个像素需需8位位40个像素组成的灰度图象，灰度为个像素组成的灰度图象，灰度为5级，级，ABCDE，出现每个灰度的像素个，出现每个灰度的像素个数不同，为：数不同，为：15、7、7、6、5，该图象的熵为，该图象的熵为H（s）=2.196，40个像素个像素需需40*2.196=87.84位位14多媒体数字压缩技术信息量和熵n仙农信息论把一个事件（字符a1）所携带的信息量定义为： I(a1) = log2 (1/p) = -log2 p (bit) 其中p为事件发生（字符出现）的概率nI(a1)即随机变量X取值为a1时所携带的信息量n因为X的信息量也是一个随机变量，所以我们要研究它的统计特性。其数学期望为：n称H(X)为一阶信息熵或者简称为熵(Entropy)15多媒体数字压缩技术熵（Entropy）n在符号出现之前，熵表示符号集中的符号出现的平均不确定性；在符号出现之后，熵代表接收一个符号所获得的平均信息量。n根据直觉，信源编码的数据输出速率（平均码长）与信源熵之间应该有某种对应关系。16多媒体数字压缩技术信源的概率分布与熵的关系n熵的大小与信源的概率模型有着密切的关系。n最大离散熵定理：当与信源对应的字符集中的各个字符为等概率分布时，熵具有极大值log2m。m为字符集中字符个数。17多媒体数字压缩技术二进制信源的熵n二进制信源输出一个二进制数码所携带的平均信息量最大为1bit。pH10.50118多媒体数字压缩技术最大离散熵定理的应用n对于同一个信源其总的信息量是不变的，如果能够通过某种变换（编码），使信源尽量等概率分布，则每个输出符号所独立携带的信息量增大，那么传送相同信息量所需要的序列长度就越短。n离散无记忆信源的冗余度隐含在信源符号的非等概率分布之中。只要H（X）小于log2m，就存在数据压缩的可能。19多媒体数字压缩技术编码信源 X1, X2, X3, X4 a1, a2, a3, am信源 X1, X2, X3, X4 b1, b2, b3, bn0,120多媒体数字压缩技术平均码长与熵n如果对字符aj的编码长度为Lj，则X的平均码长为：n根据前面对二进制信源的分析，有：在Lj log2pj时，平均码长取得极小值H(X)21多媒体数字压缩技术关于离散无记忆平稳信源的结论n一阶熵即为离散无记忆平稳信源的压缩极限。（基本极限）n只要信源不是等概率分布，就存在着数据压缩的可能性。n数据压缩的基本途径之一：使各字符的编码长度尽量等于字符的信息量。22多媒体数字压缩技术联合熵与条件熵n设随机变量X和Y分别取值于符号表a1, a2, am和b1, b2, b3, bnn定义X与Y的联合熵为：n定义X关于Y的条件熵为：23多媒体数字压缩技术离散有记忆信源的冗余联合熵与其可能达到的最大值之间的差值反映了该有记忆信源所含的冗余度，这种冗余是由于随机变量序列之间的相关性造成的。24多媒体数字压缩技术关于离散有记忆平稳信源的结论n离散有记忆平稳信源的压缩极限为：n压缩的基本途径之二：尽量去除各分量之间的相关性，再对各分量进行独立编码。n压缩的基本途径之三：可利用条件概率进行编码，阶越高越有利。n压缩的基本途径之四：可将多个分量合并成向量，利用其联合概率进行编码，联合的分量越多越有利。25多媒体数字压缩技术多媒体数据压缩编码分类多媒体数据压缩编码分类l无损压缩无损压缩香农香农-范诺编码范诺编码哈夫曼编码哈夫曼编码算术编码算术编码（前三个为统计编码）（前三个为统计编码）RLE编码（行程编码）编码（行程编码）增量调制编码增量调制编码词典编码词典编码l有损压缩有损压缩预测编码：预测编码：DPCM，运动补偿等，运动补偿等面向频率域方法：正交变换（面向频率域方法：正交变换（DCT）、子带）、子带编码等编码等面向空间域方法：统计分块编码等面向空间域方法：统计分块编码等基于重要性方法：滤波、子采样、比特分配、基于重要性方法：滤波、子采样、比特分配、矢量量化等矢量量化等模型方法：分形编码、模型基编码等模型方法：分形编码、模型基编码等l混合压缩编码混合压缩编码JBIG、JPEG、MPEG、H.261等技术标准等技术标准26多媒体数字压缩技术熵编码熵编码n熵编码包括香农范诺编码、霍夫曼编码和算术编码，其宗旨在于找到一种编码使得平均码长到达熵极限，基本思想就是对出现概率较大的符号取较短的码长，而对出现概率较小的符号取较大的码长。27多媒体数字压缩技术无损压缩编码算法无损压缩编码算法l香农香农-范诺编码与哈夫曼编码范诺编码与哈夫曼编码哈夫曼编码：根据统计频率生成哈夫曼编码：根据统计频率生成Huffman树，然后编码树，然后编码前缀码：编解码简单前缀码：编解码简单实际使用时，对文件进行两遍扫描，第一遍统计频率，第二遍编码实际使用时，对文件进行两遍扫描，第一遍统计频率，第二遍编码压缩比不高压缩比不高对错误敏感，没有错误保护功能，形成错误传播对错误敏感，没有错误保护功能，形成错误传播28多媒体数字压缩技术霍夫曼编码n具体步骤：（1）初始化（2）合并概率最小的两个事件（3）排序（4）如果事件个数大于2则重复（2）和（3）（5）赋值（6）编码29多媒体数字压缩技术霍夫曼编码举例符号S1S2S3S4出现概率1/21/41/81/8等长编码00011011霍夫曼010110111H(X) = 1.75 L1=2 L2=1.75源S1S2S1S3S2S1S1S4等0001001001000011霍0100110100011130多媒体数字压缩技术霍夫曼编码的局限性n利用霍夫曼编码，每个符号的编码长度只能为整数，所以如果源符号集的概率分布不是2负n次方的形式，则无法达到熵极限。n输入符号数受限于可实现的码表尺寸n译码复杂n需要实现知道输入符号集的概率分布n没有错误保护功能31多媒体数字压缩技术香农范诺编码n香农范诺编码与Huffman编码相反，采用从上到下的方法。n具体步骤为：（1）首先将编码字符集中的字符按照出现频度和概率进行排序。（2）用递归的方法分成两部分，使两个部分的概率和接近于相等。直至不可再分，即每一个叶子对应一个字符。（3）编码。32多媒体数字压缩技术香农范诺编码举例A BC D EABCD EDE符号符号ABCDE次数次数1577650101001133多媒体数字压缩技术无损压缩编码算法无损压缩编码算法l算术编码算术编码消息用消息用0到到1之间的实数进行编码之间的实数进行编码两个参数：符号的概率和它的编码间隔两个参数：符号的概率和它的编码间隔信源符号的概率决定压缩编码的效率，也决定编码过程中信源符号的间隔信源符号的概率决定压缩编码的效率，也决定编码过程中信源符号的间隔对错误敏感，容易形成错误传播对错误敏感，容易形成错误传播34多媒体数字压缩技术算术编码nHuffman 编码的局限性： Huffman 编码使用整数个二进制位对符号进行编码，这种方法在许多情况下无法得到最优的压缩效果。假设某个字符的出现概率为 80%，该字符事实上只需要 -log2(0.8) = 0.322 位编码，但 Huffman 编码一定会为其分配一位 0 或一位 1 的编码。可以想象，整个信息的 80% 在压缩后都几乎相当于理想长度的 3 倍左右。35多媒体数字压缩技术算术编码n基本思想：算术编码不是将单个信源符号映射成一个码字，而是把真个信源表示为实数线上的0到1之间的一个区间，其长度等于该序列的概率，再在该区间内选择一个代表性的小数，转化为二进制作为实际的编码输出。消息序列中的每个元素都要用来缩短这个区间。消息序列中元素越多，所得到的区间就越小，当区间变小时，就需要更多的数位来表示这个区间。n采用算术编码每个符号的平均编码长度可以为小数。36多媒体数字压缩技术算术编码举例（一）符号00011011概率0.10.40.20.3初始区间0, 0.1)0.1, 0.5)0.5, 0.7)0.7, 1)37多媒体数字压缩技术算术编码举例（二）n最后的子区间起始位置 85/256 = 0.01010101n 子区间长度 27/256 = 0.00011011n 子区间尾 7/16 = 0.0111n取编码区间中的一个值，最后编码为：011符号01频度1/43/4消息序列1011区间起始1/41/419/6485/256区间长度3/43/169/6427/256信源分布：信源分布：38多媒体数字压缩技术算术编码的具体实现n因为实际只能用有限长的寄存器，这就要求将已编码的高位码字及时输出，但又不能输出过早，以免后续运算还要调整已输出的码位。（请看参考书上给出的算法）n算术编码每次递推都要做乘法，所以效率比较低。二进制算术编码是一种实用的编码算法，用移位代替了乘法，使效率大大提高。n自适应算术编码可以在编码过程中根据符号出现的频繁程度动态的修改分布概率，这样可以避免在编码之前必须精确求出信源概率的难题。39多媒体数字压缩技术自适应算术编码举例cba1.00000.66670.33330.00000.66670.58340.41670.33330.66670.63340.60010.58340.66670.65010.63900.6334c1/31/42/53/6b1/32/42/52/6a1/31/41/51/6输入序列为：输入序列为：bcc.40多媒体数字压缩技术行程编码（RLE）n行程编码（Run-Length Encoding）：它通过将信源中相同符号序列转换成一个计数字段再加上一个重复字符标志实现压缩。n例如：RTTTTTTTTABBCDG被转换为：R#8TABBCDG，其中“”作为转义字符，表明其后所跟的字符表示长度。n行程编码多用于黑白二值图像的压缩中。例如00000000111111111111000001111111被转化为一系列黑串和白串长度的编码：81257。因为串长度并非等概率分布，所以一般要配合以统计编码（Huffman编码）。41多媒体数字压缩技术无损压缩编码算法无损压缩编码算法lRLE行程编码行程编码一系列重复值有一个单独值和计数值代替一系列重复值有一个单独值和计数值代替当一行中有连续当一行中有连续n（n= MIN_LENGTH），则进行步骤 2，否则进行步骤 3。2、输出指针二元组 ( off, len)。其中 off 为窗口中匹配字符串相对窗口边界的偏移，len 为匹配串的长度，然后将窗口向后滑动 len 个字符，继续步骤 1。3、输出当前字符c，然后将窗口向后滑动 1 个字符，继续步骤 1。51多媒体数字压缩技术LZSS编码举例位置位置1234567891011字符字符AABBCBBAABC步骤步骤位置位置匹配串匹配串输出输出11A22AA33B44BB55C66BB（3，2）78AAB（7，3）811CC输入数据流：输入数据流：编码过程编码过程MIN_LEN =252多媒体数字压缩技术LZSS算法n在相同的计算机环境下，LZSS算法比LZ77可获得比较高的压缩比，而译码同样简单。这也就是为什么这种算法成为开发新算法的基础，许多后来开发的文档压缩程序都使用了LZSS的思想。例如，PKZip, GZip, ARJ, LHArc和ZOO等等，其差别仅仅是指针的长短和窗口的大小等有所不同。nLZSS同样可以和熵编码联合使用，例如ARJ就与霍夫曼编码联用，而PKZip则与Shannon-Fano联用，它的后续版本也采用霍夫曼编码。53多媒体数字压缩技术第二类词典编码n第二类算法的想法是企图从输入的数据中创建一个“短语词典 (dictionary of the phrases)”，这种短语可以是任意字符的组合。编码数据过程中当遇到已经在词典中出现的“短语”时，编码器就输出这个词典中的短语的“索引号”，而不是短语本身。54多媒体数字压缩技术LZ78算法nLZ78的编码思想是不断地从字符流中提取新的字符串(String)，通俗地理解为新“词条”，然后用“代号”也就是码字(Code word)表示这个“词条”。这样一来，对字符流的编码就变成了用码字(Code word)去替换字符流(Char stream)，生成码字流(Code stream)，从而达到压缩数据的目的。nLZ78编码器的输出是码字-字符(W,C)对，每次输出一对到码字流中，与码字W相对应的字符串(String)用字符C进行扩展生成新的字符串(String)，然后添加到词典中。55多媒体数字压缩技术LZ78编码算法步骤1：将词典和当前前缀P都初始化为空。步骤2：当前字符C:=字符流中的下一个字符。步骤3：判断PC是否在词典中（1）如果“是”，则用C扩展P，即让P:=PC，返回到步骤2。（2）如果“否”，则输出与当前前缀P相对应的码字W和当前字符C，即（W，C）；将PC添加到词典中；令P:=空值，并返回到步骤256多媒体数字压缩技术LZ78编码举例位置位置123456789字符字符ABBCBCABA步骤步骤位置位置词典词典输出输出11A(0, A)22B(0, B)33BC(2, C)45BCA(3, A)58BA(2, A)输入数据流：输入数据流：编码过程：编码过程：57多媒体数字压缩技术LZW算法 J.Ziv和A.Lempel在1978年首次发表了介绍第二类词典编码算法的文章。在他们的研究基础上，Terry A.Welch在1984年发表了改进这种编码算法的文章，因此把这种编码方法称为LZW(Lempel-Ziv Walch)压缩编码。在编码原理上，LZW与LZ78相比有如下差别： LZW只输出代表词典中的字符串(String)的码字(code word)。这就意味在开始时词典不能是空的，它必须包含可能在字符流出现中的所有单个字符。即在编码匹配时，至少可以在词典中找到长度为1的匹配串。 LZW编码是围绕称为词典的转换表来完成的。58多媒体数字压缩技术LZW算法的词典 LZW编码器(软件编码器或硬件编码器)就是通过管理这个词典完成输入与输出之间的转换。LZW编码器的输入是字符流(Char stream)，字符流可以是用8位ASCII字符组成的字符串，而输出是用n位(例如12位)表示的码字流 (Code stream)，码字代表单个字符或多个字符组成的字符串(String)。59多媒体数字压缩技术LZW编码算法步骤1：将词典初始化为包含所有可能的单字符，当前前缀P初始化为空。步骤2：当前字符C:=字符流中的下一个字符。步骤3：判断PC是否在词典中（1）如果“是”，则用C扩展P，即让P:=PC，返回到步骤2。（2）如果“否”，则输出与当前前缀P相对应的码字W；将PC添加到词典中；令P:=C，并返回到步骤260多媒体数字压缩技术LZW编码举例位置位置123456789字符字符ABBABABAC步骤步骤位置位置码字码字词典词典输出输出1A2B3C114AB1225BB2336BA2447ABA4568ABAC7输入数据流：输入数据流：编码过程：编码过程：61多媒体数字压缩技术LZW算法 LZW算法得到普遍采用，它的速度比使用LZ77算法的速度快，因为它不需要执行那么多的缀-符串比较操作。对LZW算法进一步的改进是增加可变的码字长度，以及在词典中删除老的缀-符串。在GIF图像格式和UNIX的压缩程序中已经采用了这些改进措施之后的LZW算法。 LZW算法取得了专利，专利权的所有者是美国的一个大型计算机公司Unisys(优利系统公司)，除了商业软件生产公司之外，可以免费使用LZW算法。62多媒体数字压缩技术预测编码预测编码l基本原理基本原理根据某种模型，利用以前的一个或多个样本值，对当前的样本进行预测根据某种模型，利用以前的一个或多个样本值，对当前的样本进行预测对当前样本实际值和预测值之差进行编码对当前样本实际值和预测值之差进行编码若模型选取足够好，图象或声音样本时间相关性很强，压缩比高若模型选取足够好，图象或声音样本时间相关性很强，压缩比高l特点特点算法简单，速度快，易于硬件实现算法简单，速度快，易于硬件实现编码压缩比不太高编码压缩比不太高误码易于扩散，抗干扰性差误码易于扩散，抗干扰性差63多媒体数字压缩技术预测编码n预测编码是数据压缩理论的一个重要分支。它根据离散信号之间存在一定相关性的特点，利用前面的一个或多个信号对下一个信号进行预测，然后对实际值和预测值的差（预测误差）进行编码。如果预测比较准确，那么误差信号就会很小，就可以用较少的码位进行编码，以达到数据压缩的目的。n第n个符号Xn的熵满足：所以参与预测的符号越多，预测就越准确，该信源的不确定性就越小，数码率就可以降低。64多媒体数字压缩技术预测编码预测编码l分类分类线性预测编码和非线性预测编码线性预测编码和非线性预测编码帧内预测编码和帧间预测编码帧内预测编码和帧间预测编码量化器量化器编码器编码器预测器预测器解码器解码器预测器预测器信信道道输入输入XN输出输出XN发送端发送端接收端接收端+ eNXN eN + +XNeNXNDPCM是有损型是有损型还是无损型关键还是无损型关键看对预测误差看对预测误差ek如何编码。如何编码。65多媒体数字压缩技术预测方程式线性预测：如果ai是常数，则为时不变线性预测，否则为自适应线性预测（ADPCM）最简单的预测方程：66多媒体数字压缩技术最佳线性预测使误差函数达到最小值的预测方程式叫做最佳线性预测。求最佳线性预测的各个参数ai，列方程组：代入得到联立方程组：如果为一阶线性预测，则可求得：67多媒体数字压缩技术图像信号的预测编码n一副数字图像可以看成一个空间点阵，图像信号不仅在水平方向是相关的，在垂直方向也是相关的。根据已知样值与待预测样值间的位置关系，可以分为：（1）一维预测（行内预测）：利用同一行上相邻的样值进行预测。（2）二维预测（帧内预测）：利用同一行和前面几行的数据进行预测。（3）三维预测（帧间预测）：利用相邻几帧（或不同波段）上的取样值进行预测68多媒体数字压缩技术静止图像的二维预测编码n这种压缩算法被应用到JPEG标准的无损压缩模式之中，中等复杂程度的图像压缩比可达到2:1。cabx选择值预测值0非预测1a2b3c4a+b-c5a+(b-c)/26b+(a-c)/27(a+b)/2d三邻域预测法三邻域预测法69多媒体数字压缩技术活动图像的帧间预测编码n视频信号的冗余度主要体现在空间相关性（帧内）、时间相关性（帧间）和色度空间表示上的相关性。n对于每秒25帧（30）的电视信号，其相继帧之间存在极强的相关性。据统计256级灰度的黑白图像序列，帧间差值超过3的象素数不超过4。所以在活动图像序列中可以利用前面的帧来预测后面的帧，以实现数据压缩。n帧间预测编码技术被广泛应用到H.261、H.263、MPEG-1和MPEG-2等视频压缩标准之中。70多媒体数字压缩技术具有运动补偿的帧间预测n活动图像序列中的一个画面可以大致划分为3个区域：（1）背景区：相邻两个画面的背景区基本相同。（2）运动物体区：可以视为由前一个画面的某一区域的像素平移而成。（位移矢量）（3）暴露区：指物体运动后而显露出来的曾被遮盖的背景区域。n运动补偿预测就是将前一个画面的背景区平移后的运动物体区作为后一个画面的预测值。71多媒体数字压缩技术运动补偿帧间预测编码运动补偿帧间预测从原理上包括如下几个基本步骤：（1）图像分割：把图像划分为静止的背景和若干运动的物体，各个物体可能有不同的位移，但构成同一物体的所有像素的位移相同。（2）运动矢量估值：考察前后两个画面，利用运动估值算法得到每个物体的位移矢量。（3）运动补偿：用运动矢量补偿物体的运动效果再进行预测。（4）编码：除了对实测值与预测值之间的差值进行编码传送外，还要传送位移矢量以及区域分割信息。72多媒体数字压缩技术运动补偿帧间预测编码编码器运动补偿图像输入图像输入运动矢量输出运动矢量输出-译码器帧缓存运动估值预测误差输出预测误差输出73多媒体数字压缩技术变换编码n预测编码希望通过对信源建模来尽可能的预测源数据；而变换编码则考虑将原始数据变换到另一个表示空间，使数据在新的空间上尽可能相互独立，而能量更集中。XYXY74多媒体数字压缩技术变换编码变换编码l基本思路基本思路先将空间域图象通过某种正交变换，获得一系列变换系数先将空间域图象通过某种正交变换，获得一系列变换系数在变换过程中，使图象变换系数能量相对集中在变换过程中，使图象变换系数能量相对集中再对其变换系数进行区域量化，按其所含能量大小，分配不同数据量再对其变换系数进行区域量化，按其所含能量大小，分配不同数据量l分类分类傅立叶变换、哈尔变换、沃尔西傅立叶变换、哈尔变换、沃尔西哈达玛变换、斜变换等哈达玛变换、斜变换等图象图象分块变换分块变换区域采样区域采样量化编码量化编码图象再现图象再现反变换反变换填零填零译码译码存储存储或或传输传输75多媒体数字压缩技术混合编码技术与国际标准混合编码技术与国际标准nJPEG编码标准nH.261标准简介nMPEG标准概述nMPEG1标准nMPEG2标准nMPEG4标准76多媒体数字压缩技术算法概要 JPEG(Joint Photographic Experts Group) 是一个由 ISO和CCITT两个组织机构联合组成的一个图像专家小组，负责制定静态的数字图像数据压缩编码标准，这个专家组开发的算法称为JPEG算法，并且成为国际上通用的标准。JPEG是一个适用范围很广的静态图像数据压缩标准，既可用于灰度图像又可用于彩色图像。JPEG不仅适于静止图像的压缩，电视图像的帧内图像的压缩编码，也常采用此算法。JPEG标准还可以大范围地调节图像压缩率及其保真度。标准主要采用了两种基本的压缩算法，一种是采用以离散余弦变换(DCT)为基础的有损压缩算法，另一种是采用以预测技术为基础的DPCM无损压缩算法。JPEG编码标准77多媒体数字压缩技术JPEG编码标准n基于DPCM的无损编码模式：压缩比可以达到2:1。n基于DCT的有损顺序编码模式：压缩比可以达到10:1以上。n基于DCT的递增编码模式n基于DCT的分层编码模式JPEG规定了4种运行模式，以满足不同需要：78多媒体数字压缩技术JPEG有损顺序编码算法的主要计算步骤如下：1. 将源图像分成几个颜色平面（分量图像）。2. 分成88数据块进行正向离散余弦变换(FDCT)。 2. 量化(quantization)。 3. Z字形排列量化结果(zigzag scan)。 4. 使用差分脉冲编码调制(differential pulse code modulation，DPCM)对直流系数(DC)进行编码。 5. 使用行程长度编码(run-length encoding，RLE)对交流系数(AC)进行编码。 6. 熵编码(entropy coding)。JPEG编码标准79多媒体数字压缩技术JPEG编码标准80多媒体数字压缩技术译码或者叫做解压缩的过程与压缩编码过程正好相反。IDCTIDCTJPEG编码标准81多媒体数字压缩技术正向离散余弦变换对每个单独的彩色图像分量，把整个分量图像分成88的图像块，如图所示，并作为两维离散余弦变换DCT的输入。通过DCT变换，把能量集中在少数几个系数上。DCT变换使用下式计算逆变换使用下式计算JPEG编码标准82多媒体数字压缩技术量化对于有损压缩算法，JPEG算法使用如图所示的均匀量化器进行量化，量化步距是按照系数所在的位置和每种颜色分量的色调值来确定。 JPEG编码标准83多媒体数字压缩技术量化因为人眼对亮度信号比对色差信号更敏感，因此使用了两种量化表：亮度量化值和色差量化值。此外，由于人眼对低频分量的图像比对高频分量的图像更敏感，因此图中的左上角的量化步距要比右下角的量化步距小。JPEG编码标准84多媒体数字压缩技术DC系数DPCM编码和AC系数Z形排列之后采用RLE编码JPEG编码标准85多媒体数字压缩技术熵编码使用熵编码还可以对DPCM编码后的直流DC系数和RLE编码后的交流AC系数作进一步的压缩。 JPEG标准规定了两种熵编码算法：哈夫曼编码和自适应算术编码。哈夫曼编码采用的一般是固定的哈夫曼编码表，而不是临时统计出来的，并且对亮度分量和色度分量采用了不同的哈夫曼表。JPEG编码标准86多媒体数字压缩技术基于DPCM的无损编码模式：主要采用了三邻域二维预测编码和熵编码。无失真编码器源图像数据压缩的图像数据预测器熵编码器表说明DPCM预测编码框图JPEG编码标准87多媒体数字压缩技术JPEG编码标准基于DCT的递增编码模式：此模式与顺序模式编码步骤基本一致，不同之处在于递增模式每个图像分量的编码要经过多次扫描才完成。第一次扫描只进行一次粗糙的压缩，然后根据此数据先重建一幅质量低的图像，以后的扫描再作较细的扫描，使重建图像质量不断提高，直到满意为止。递增模式分为两种：（1）按频段累进。（2）按位累进。88多媒体数字压缩技术JPEG编码标准基于DCT的分层编码模式：（1）降低原始图像的空间分辨率。（2）对已经降低分辨率的图像按照顺序编码模式进行压缩并存储或传输。（3）对低分辨率图像进行解码，然后用插值法提高图像的分辨率。（4）将分辨率已经升高的图像作为原图像的预测值，并把它与原图像的差值进行基于DCT的编码。（5）重复步骤3、4直到图像达到完整的分辨率。89多媒体数字压缩技术H.261概述nH.261也称P64，这是ITU-T（前身为CCITT）最早制定的关于视频编码的国际标准。考虑到ISDN的传输码率以64kbps为单位，因此以p64kbps（p130）作为为H.261的标准码率。H.261标准主要用于电视电话和电视会议。它支持QCIF（p=1、2）、CIF（p2）两种图像输入格式。90多媒体数字压缩技术H.261解决的问题n第一是编码算法问题。第一是编码算法问题。确立了一种合理的、保证图像质量且为各国图像编码专家所公认的统一的算法。算法必须能够实时操作，解码延时要短。n第二是与第二是与PCM标准兼容的问题。标准兼容的问题。编解码器以641920kbs的工作速率去覆盖N-ISDN或PCM一次群的通道。n第三，解决电视制式不同的问题。第三，解决电视制式不同的问题。为了使同一标准既能用于PAL（625）和NTSC（525）两种电视制式系统，源编码基于中间格式CIF格式，所以输入输必须经转换到CIF或QCIF格式再进行源编码。91多媒体数字压缩技术视频编码图像格式一览表92多媒体数字压缩技术H.261的信源编码算法n信源编码算法的一般形式如下图所示，主要由帧间预测、帧内分块和量化组成。93多媒体数字压缩技术H.261的信源编码算法n一、将预测误差或输入图像划分成为8*8的象素块。进一步，将4个亮度像块和两个在空间位置上与之重叠的色差像块符合成一个16*16的宏块（MB）。n二、对于帧序列中的第一副图像或景物变换后的第一副图像，采用帧内变换编码：利用8*8的DCT实现。各DCT系数经过线性量化、变长编码后进入缓冲器，根据缓冲器的上溢和下溢，来反馈调节量化器的量化步长，以控制视频编码位流使之与信倒速率相匹配。94多媒体数字压缩技术H.261的信源编码算法n帧间预测采用混合方法：利用运动补偿预测，当预测误差超过某个门限后，对误差做DCT、视觉加权量化及熵编码。运动矢量信息编码后也送到缓冲器中。DCT去除空间冗余度，而使用有运动补偿的帧间预测来去除时间上的冗余。这是一个典型的帧内帧间自适应预测加DCT变换的混合算法。95多媒体数字压缩技术H.261的图像复用编码nH.261源编码后进行图像复用编码，实际上是把比特流分成图像(Picture)，像块组 (GOB：Group of blocks)，宏块(MB：Macroblock)和像块(Block)，并附加相应的信息。按照CIF格式，每帧CIF图像包含12个GOB，每个GOB包含33个MB，每个MB包含4个亮度数据块和各1个Cb 、Cr色度块，每个B包含8*8象素。96多媒体数字压缩技术H.261的图像复用编码H.261 数据流结构97多媒体数字压缩技术H.261视频压缩算法利用二维DCT减少图像的空间域的冗余度；利用运动补偿预测减少图像的时间域冗余度；利用视觉加权量化减少图像灰度域的冗余度；利用熵编码来减少图像的频率域的冗余度。98多媒体数字压缩技术H.26标准系列nITU-T 于1990年成立了“ATM视频编码专家组”，负责制定适用于B-ISDN信道ATM编码传输标准。该专家组于1993年11月与ISO的MPEG专家组联合提出了H.262建议草案（MPEG-2），用于数字存储介质和数字视频通信中图像信息的编码表示和解码规定。该标准向下兼容，能够在很宽的范围内对不同分辨率和不同输出比特的图像信号有效的进行压缩。nH.263是ITU制定的低比特率视频信号压缩标准，可以应用于PSTN和移动通信网。（30Kb/s）99多媒体数字压缩技术MPEG标准概述nMPEG(Moving Picture Expert Group)是在1988年由国际标准化组织(ISO)和国际电工委员会(IEC)联合成立的专家组，负责开发电视图像数据和声音数据的编码、解码和它们的同步等标准。这个专家组开发的标准称为MPEG标准。nMPEG技术是近10年国际图像压缩编码技术的结晶，也是伴随信息时代应运而生的热门技术。MPEG主要包括MPEG视频、MPEG音频和MPEG系统（视音频同步）三个部分。 MPEG压缩标准是针对运动图像而设计的，其平均压缩比可达50：1，压缩率比较高，且又有统一的格式，兼容性好。100多媒体数字压缩技术MPEG标准概述nMPEG标准阐明了声音和电视图像的编码和解码过程，严格规定了声音和图像数据编码后组成比特数据流的句法，提供了解码器的测试方法等，但没有对所有内容都作严格规定，尤其是对压缩和解压缩的算法，这样既保证了解码器能对符合MPEG标准的声音数据和电视图像数据进行正确解码，又给MPEG标准的具体实现留有很大余地。人们可以不断改进编码和解码算法，提高声音和电视图像的质量以及编码效率。101多媒体数字压缩技术MPEG标准概述nMPEG1：数字电视标准，1992年正式发布。是针对具有1.5Mbps以下数据传输率的数字存储或传输媒体的视频及其伴音编码、解码的国际标准。nMPEG1主要用于在CDROM上存储视频和音频信号。视频编码采用标准交换格式（SIF，类似于CIF 352288），411的采样方式，压缩率约261，图像质量接近于家用录像系统（VHS）。nMPEG音频编码器的输入为线性PCM信号，双声道，采样频率为32kHz，44.1kHz或者48kHz，输出为32kb/s384kb/s，可以达到CD质量。102多媒体数字压缩技术MPEG标准概述MPEG2：数字电视标准，1994年制定。制定MPEG2的初衷是得到一个针对广播电视质量（CCIR601格式，720576）的视频信号的压缩标准。但实际上得到是一个通用的标准，它能够在很宽范围内对不同分辨率和不同输出比特率的图像信号进行压缩。MPEG2针对广播电视质量的视频的输出速率为49Mb/s，最高达15Mb/s。MPGE2音频标准与MPEG1兼容，但支持更多的声道（5.1、7.1），多样化的采样频率，更宽的数据输出速率范围（8640kb/s）。MPGE2主要用于高画质的动画、DVD、数字卫星通信及数字电视广播。 103多媒体数字压缩技术MPEG标准概述nMPEG4：多媒体应用标准，1999年正式发布。nMPEG4的第一个目标是制定一个通用的低码率（64kb/s以下）压缩标准，并采用第二代压缩算法，以有效的支持甚低码率（very low bit rate）应用，比如移动通信中的声像业务，和窄带多媒体通信等等。nMPEG4的第二个目标是实现基于内容的压缩编码，以提高可靠性，支持多媒体数据的集成，和交互式多媒体业务等等。nMPEG4的音频标准不仅支持自然声音，而且支持合成声音。 104多媒体数字压缩技术MPEG标准概述nMPEG7：多媒体内容描述接口标准，正处于研究阶段。n随着多媒体时代的到来而产生一个重大问题：那就是如何在多如繁星的影音资料中找到用户需要的资料。MPEG-7的出现就是要解决这种问题。MPEG-7标准重点在于影音内容的描述和定义，以明确的结构和语法来定义影音资料的内容。通过MPEG-7格式定义的信息，使用者可以有效率地搜寻、过滤和定义想要的影音资料。 nMPEG-7的应用领域包括：数字图书馆，图像目录、音乐词典等；多媒体目录服务、多媒体编辑、多媒体创作等等。105多媒体数字压缩技术MPEG标准概述106多媒体数字压缩技术