视频压缩技术-－金锄头文库

2.1.1 视频信号压缩的可能性,视频数据中存在着大量的冗余，即图像的各像素数据之间存在极强的相关性。利用这些相关性，一部分像素的数据可以由另一部分像素的数据推导出来，结果视频数据量能极大地压缩，有利于传输和存储。视频数据主要存在以下形式的冗余:,1. 空间冗余视频图像在水平方向相邻像素之间、垂直方向相邻像素之间的变化一般都很小，存在着极强的空间相关性。特别是同一景物各点的灰度和颜色之间往往存在着空间连贯性，从而产生了空间冗余，常称为帧内相关性。,2. 时间冗余在相邻场或相邻帧的对应像素之间，亮度和色度信息存在着极强的相关性。当前帧图像往往具有与前、后两帧图像相同的背景和移动物体，只不过移动物体所在的空间位置略有不同，对大多数像素来说，亮度和色度信息是基本相同的，称为帧间相关性或时间相关性。,3. 结构冗余在有些图像的纹理区，图像的像素值存在着明显的分布模式。如方格状的地板图案等。已知分布模式，可以通过某一过程生成图像，称为结构冗余。,4. 知识冗余有些图像与某些知识有相当大的相关性。如人脸的图像有固定的结构，嘴的上方有鼻子，鼻子的上方有眼睛，鼻子位于脸部图像的中线上。这类规律性的结构可由先验知识得到，此类冗余称为知识冗余。,5. 视觉冗余人眼具有视觉非均匀特性，对视觉不敏感的信息可以适当地舍弃。在记录原始的图像数据时，通常假定视觉系统是线性的和均匀的，对视觉敏感和不敏感的部分同等对待，从而产生了比理想编码(即把视觉敏感和不敏感的部分区分开来编码)更多的数据，这就是视觉冗余。,2.1.2 视频信号的数字化,A/D变换 D/A变换,1. 取样,理想取样时，只要取样频率大于或等于模拟信号中最高频率的两倍，就可以不失真地恢复模拟信号，称为奈奎斯特取样定理。模拟信号中最高频率的两倍称为折叠频率。,2. 量化,（1）均匀量化在输入信号的动态范围内，量化间隔幅度都相等的量化称为均匀量化或线性量化。（2）非均匀量化为改善弱信号时的信噪比，量化间距应随输入信号幅度而变化，大信号时进行粗量化，小信号时进行细量化，这就是非均匀量化(或称非线性量化)。,3. PCM编码,全信号编码分量编码,4. ITU-R BT.601分量数字系统,1982年10月, 国际无线电咨询委员会(CCIR)通过了第一个关于演播室彩色电视信号数字编码的建议， 1993年变更为ITU-R(国际电联无线电通信部分)BT.601分量数字系统建议。,采用分量编码方式，对不同制式的信号采用相同的取样频率，亮度信号Y为13.5 MHz，色度信号U和V为6.75 MHz。每个数字有效行分别有720个亮度取样点和3602个色差信号取样点。对每个分量的取样点都是均匀量化，对每个取样进行8比特精度的PCM编码。,色度信号的取样率是亮度信号取样率的一半，常称作422格式。对于PAL制，传输所有的样点数据，大约需要200 Mbs的传输速率，传输有效样点只需要160 Mbs左右的速率。,2.1.3 熵编码(Entropy Coding),熵编码(Entropy Coding)是一类无损编码，因编码后的平均码长接近信源的熵而得名。熵编码多用可变字长编码(VLC， Variable Length Coding)实现。其基本原理是对信源中出现概率大的符号赋以短码，对出现概率小的符号赋以长码，从而在统计上获得较短的平均码长。,2.1.4 预测编码和变换编码,DPCM基于图像的统计特性进行数据压缩的基本方法就是预测编码。它是利用图像信号的空间或时间相关性，用已传输的像素对当前的像素进行预测，然后对预测值与真实值的差预测误差进行编码处理和传输。目前用得较多的是线性预测方法，全称为差值脉冲编码调制(DPCM， Differential Pulse Code Modulation)，简称为DPCM。,(a) DPCM编码器 (b) DPCM解码器,变换编码原理,图像变换编码是将空间域里描述的图像，经过某种变换在变换域中进行描述。这样可以将图像能量在空间域的分散分布变为在变换域的相对集中分布，完成对图像信息的有效压缩。,变换编码的物理意义 (a) 子图像在阴影区的概率较大； (b) 旋转变换后,混合编码,混合编码是近年来广泛采用的方法，这种方法充分利用各种单一压缩方法的长处，以期在压缩比和效率之间取得最佳的平衡。如广泛流行的JPEG和MPEG压缩方法都是典型的混合编码方案。,静止图像是指内容不变的图像，也可能是不活动场景图像或活动场景图像在某一瞬时的“冻结”图像。静止图像编码有以下要求： (1) 清晰度(2) 逐渐浮现的显示方式(3) 抗干扰,2.1.5 静止图像压缩,静止图像数字传输系统,JPEG标准,JPEG是国际标准化组织(ISO， International Organization for Standardization）国际电工技术委员会(IEC， International Electrotechnical Commission)和ITU-T的联合图片专家小组(Joint Photographic Experts Group)的缩写。,JPEG算法步骤,(1) 标准数字电视：图像分辨率720576(2)会议电视：图像分辨率352288(3)数字影碟机：图像分辨率352288(4)可视电话：图像分辨率176144(5)高清晰度电视：图像分辨率19201080,2.1.6 活动图像编码 1. 概述,2. 帧间预测编码,帧间预测将画面分为三种区域：(1) 背景区(2) 运动物体区(3) 暴露区,空间分辨率和时间分辨率的交换,在传输静止图像或图像的静止部分时，要有较高的分辨率，但可以减少传输帧数；在传输图像中的运动部分时，可以降低这部分图像的分辨率。,帧内帧间自适应编码,对于变化缓慢的图像，帧间相关性强，宜采用帧间预测；对于快速运动的物体，图像的高频成分减弱，帧内相关性反而有所增加，应采用帧内编码，编码器应进行帧内帧间自适应编码。,运动补偿预测编码,对于运动的物体，估计出物体在相邻帧内的相对位移，用上一帧中物体的图像对当前帧的物体进行预测，将预测的差值部分编码传输，就可以压缩这部分图像的码率。,块匹配运动补偿预测,把一幅图像分为互相不重叠的NN个像素子块，对每个子块估计位移矢量，并将它们编码后传送到接收端。,混合编码,将变换编码和预测编码组合在一起，用变换编码进行空间冗余度的压缩，用预测编码进行时间冗余度的压缩。,3. MPEG-1标准,ISOIEC的联合技术委员会自20世纪90年代以来先后颁布的一系列图像和视频编码的国际标准促进了多媒体与图像业务的发展。其中， MPEG-1建议用于VCD之类的视频家电设备和视频点播（VoD， Video on Demand）系统； MPEG-2的主要应用范围是数字电视广播和DVD系统。,MPEG-1是MPEG工作组制定的第一个标准（ISOIEC11172），标题是：信息技术具有1.5 Mbs数据传输率的数字存储媒体活动图像及其伴音的编码。,(1)图像格式SIF,MPEG-1处理逐行扫描的图像时，对隔行扫描的图像源应先转换为逐行扫描格式再编码；输入的视频信号必须是数字化的一个亮度信号和两个色差信号(Y， CB， CR)，要使码率为11.5 Mbs，应该选择图像速率在每秒24、 25或30帧，水平分辨率在250400像素，垂直分辨率在200300像素。,(2)图像组,MPEG-1提出了图像组(GoP， Group of Picture)的概念，从视频编码算法的角度而言， MPEG-1(以及MPEG-2)将视频图像帧划分为三大类：I帧(Intra-coded picture帧内编码图像帧)：不参考其他图像帧而只利用本帧的信息进行编码；,P帧(Predictive-coded Picture预测编码图像帧)：由一个过去的I帧或P帧采用有运动补偿的帧间预测进行更有效的编码；通常用于进一步预测之参考。B帧(Bidirectionally predicted picture双向预测编码图像帧)：提供最高的压缩，它既需要过去的图像帧(I帧或P帧)，也需要后来的图像帧(P帧)进行有运动补偿的双向预测。,还有一种D帧（DC Coded Picture，直流编码帧）仅用于快进或退回显示低分辨率图像。,(3)算法概述,对I帧的编码类似JPEG。 P帧编码利用过去的I帧或P帧进行运动补偿预测，可得到更有效的编码。 B帧编码能提供最大限度的压缩，它需要参考过去和将来的I帧、 P帧进行运动补偿，但B帧不能用作预测参考。,4. MPEG-2标准,MPEG-2标准是MPEG工作组制定的第二个国际标准，标准号是ISOIEC13818，题目是：通用的活动图像及其伴音的编码。作为一个通用的编码标准，应用范围更广，包括标准数字电视、高清晰度电视和MPEG-1的工作范围。,