基于内容的视频检索.ppt-

基于内容的视频检索主要内容n问题的引入n国内外研究现状n基于内容的视频检索简介n视频结构的分析n关键技术n视频检索和浏览n当前研究中存在的问题及未来的发展趋势2一、问题的引入n近年来，数字视频信息出现了飞速膨胀，新的视频应用，如数字图书馆、视频点播、数字电视等，已经为越来越多的人所接受和熟悉。n面对海量的视频数据，如何找到所需的视频信息就成为了一个急需解决的问题。3n人们总是希望可以直接检索到一段包含特定信息的视频片段。n足球比赛中的射门镜头、含有日出景色的片段4n二十世纪九十年代以来，出现了基于内容的视频分析和检索研究，其目的就是通过对视频内容进行计算机处理、分析和理解，建立结构和索引，以实现方便有效的视频信息获取n基于内容的视频分析与检索研究从一开始就得到了广泛的重视并取得了丰硕的研究成果。5二、国内外研究现状：国外n已经研发出多个基于内容的视频检索系统。nIBM公司的QBIC系统n意大利Plermo大学开发的JAKOBn美国哥伦比亚大学研究实现VideoQ系统nVirage公司的Virage Search Enginen美国哥伦比亚大学图像和高级电视实验室开发的VisualSeek系统n由UIUC开发的MARS6国内外研究现状：国内n微软亚洲研究院的张宏江博士所带领的小组研制出Ifind信息检索系统n国防科技大学多媒体研究开发中心研制开发的NewVideoCARn国防科技大学系统工程系研制开发的MIRCn清华大学开发TV-FI系统7n值得一提的是MPEG- 7，即“多媒体内容描述接口”（Multimedia Content Description Interface），作为MPEG组织提出的新标准，其目标就是制定一组标准的描述符及其描述模式（定义描述子的结构和相互关系），内容描述与媒体内容结合，使用户能够快速准确地进行检索，这也注定了其在未来通用的视频检索中将扮演主要角色、发挥重要的桥梁作用。8三、基于内容的视频检索简介n我们需要研究的是，信息检索系统如何适当地表达用户所要求的内容，并在视频数据库中找出符合这个查询要求的信息返回给用户。nContent-Based Video Retrieval,CBVRn根据视频的内容和上下文关系，对大规模视频数据库中的视频数据进行检索n提供这样一种算法：在没有人工参与的情况下，自动提取并描述视频的特征和内容 9n目前，基于内容的视频检索研究，除了识别和描述图像的颜色、纹理、形状和空间关系外，主要的研究集中在视频分割、特征提取和描述（包括视觉特征、颜色、纹理和形状及运动信息和对象信息等）、关键帧提取和结构分析等方面10四、视频结构的分析n帧/镜头/场景/视频序列n帧（Frame）：视频数据的最小单元，是一副静止的单幅影像画面，相当于电影胶片上的每一格镜头。在时间轴上帧表现为一格或一个标记。n视频可以看做是一个连续静态图像的序列，其中的每一幅静态图像称为一帧。11n镜头（Shot）：代表一个场景中在时间上和空间上连续的动作，是摄像机的一次操作所记录下来的一段连续的帧序列，只能拍摄相邻地点连续发生的事情。n任何一段视频数据流都是由许多镜头组成的，镜头是视频数据的基本组成单元12n关键帧：相当于二维动画中的原画。指角色或者物体运动或变化中的关键动作所处的那一帧。n一幅能描述镜头主要内容的帧。根据内容复杂度，一个镜头可以有一个或多个关键帧n关键帧与关键帧之间的帧称为过渡帧或者中间帧。13n场景（Scene）：由一些内容相近的镜头组成，不一定在时间上连续。n从不同的角度描述同一个事件。n场景描述了一个独立的故事单元，它是一段视频的语义组成单元。14n视频序列（Video）：由许多场景组成，叙述一个完整的故事结构n相同的场景经过聚类后形成视频序列n视频的最高语义就是视频序列15n非结构化：除了存在时间上的先后关系外，其本身并不具有任何结构信息n为了实现基于内容的视频检索，必须为视频建立不同层次的结构索引，并进一步为视频的检索和浏览提供基本访问单元16n视频数据从结构上自顶向下可分为视频序列、视频场景、镜头和帧n一段视频的典型结构如图1所示1718n层中每一个视频层次的数据都可以用一定的属性加以描述。n如：视频序列的属性，主要包括场景的个数和持续时间；场景的属性，包括标题、持续时间、镜头数目、开始镜头、结束镜头等；镜头的属性，包括持续时间、开始帧号、结束帧号、代表帧集合、特征空间向量等；帧的属性，帧有大量的属性，包括直方图、轮廓图、DC及AC分量图等。19基于内容的视频处理n从所有的帧中提取主要内容，并从下至上地对视频内容进行结构化描述。n为了实现这个目标，我们须对视频进行如下处理：视频切分、特征提取和视频内容组织等。n处理过程如下:20图2 基于内容的视频处理过程动态特征静态特征21n基于内容的视频检索步骤： 1.将视频序列分割为镜头 2.在镜头内选择关键帧 3.提取镜头的特征及关键帧的视觉特征存入视频数据库22五、关键技术n视频镜头检测技术n关键帧提取技术n视频特征提取技术n镜头聚类和场景提取n视频浏览和检索235.1视频镜头检测技术n对视频建立索引，首先要将视频分割为镜头n镜头检测的关键是确定从镜头到镜头的转换处，并利用镜头之间的转换方式找到镜头图像之间的差别n镜头的切换方式有两种：突变和渐变24镜头切换方式：突变切换突变是指从一个镜头直接切变到另一个镜头突变是指从一个镜头直接切变到另一个镜头25镜头切换方式：渐变切换渐变是指从一个镜头慢慢切变到另一个镜头渐变是指从一个镜头慢慢切变到另一个镜头26n常用的镜头检测方法主要有以下几种：n基于像素的镜头检测方法n1.模板匹配法（对应像素法）n2.直方图法n基于边缘的方法n基于模型的方法27模板匹配法（对应像素法）n将两帧图像对应象素差的绝对值之和作为帧间差，如果前后两帧的帧间差变化超出某个阈值，则认为有镜头的切换。n优缺点:对检测突变镜头很有效，但对摄像机和物体的运动非常敏感，当运动较大时，相邻两帧的差异往往会超过预定的阈值，从而产生误检。28当主体运动较大时，常发生误检29直方图法n该方法利用帧与帧的直方图比较来检测镜头，是使用得较多的计算帧间差的方法。n基本原理：将颜色空间分为一个个离散的颜色小区间，然后计算落人每个小区间的象素数目，得到图像的直方图统计，通过比较两帧图像的直方图统计得到帧间差。n优缺点:不考虑像素的位置信息，抗噪声能力比模板匹配法强。当具有不同目标的场景有近似的灰度或颜色直方图时容易造成漏检。3031基于边缘的检测方法n该方法将两幅图的边缘提取，利用镜头切换时出现的新边缘与消失的旧边缘的像素比例，若两者最大值大于某阈值，则认为有镜头切换。n缺点：这种方法在图像较暗或边缘不明显时往往会造成误检和漏检。32基于模型的方法n利用对镜头编辑的先验知识，对各种镜头切换建立一定的数学模型，自顶向下地进行镜头切换的检测，对特定领域视频可通过数学模型加上一定的限制条件来提高方法有效性。因此这种方法对镜头渐变的检测往往能取得好的效果。n建立数学模型过程较复杂，适用于专业领域33n模板匹配法、直方图法、基于边缘的方法都是利用帧间差自下而上来进行镜头边界的检测，它对于突变检测可以取得较好的效果，但是对于渐变检测则有一定的困难，因为它在很大程度上忽略了渐变切换中帧之间结构上的相关性345.2关键帧提取技术n关键帧的作用类似于文本检索中的关键词。用关键帧来代表镜头，使得对视频镜头可用图像的技术进行检索n关键帧的选取的条件: 1.必须能够反映镜头中的主要事件，因而描述应尽可能准确完全. 2.为便于管理，数据量应尽量小，且计算不宜太复杂。35关键帧提取的基本方法n特定帧法n帧平均法和直方图平均法n基于光流的运动分析36特定帧法n一段视频被分割成若干镜头后，一种最直接、最简单的关键帧提取方法就是将每个镜头的首帧、中间帧以及末帧作为镜头的关键帧。n特定帧法思路、实现都很简单，但这种方法不能反映镜头内视频内容的变化，不适于用在视频内容变化较多的镜头内提取代表帧37帧平均法和直方图平均法n帧平均法是取一个镜头中所有帧的某个位置上的像素值的平均值，将镜头中该点位置的像素值等于平均值的帧作为关键帧n直方图平均法则是将镜头中所有帧的统计直方图取平均，然后选择与该平均直方图最接近的帧作为关键帧38n优缺点：使用帧平均法和直方图平均法能在一定程度上反映视频内容，计算量也不大，所选取的帧具有平均代表意义，但是由于需要记录每一帧每个像素的值或直方图，所以要实现动态选取，所需的存储量较大。无法描述有多个物体运动的镜头。39基于光流的运动分析n上述方法都没有考虑运动特征。n通过光流分析来计算镜头中的运动量，在运动量取局部最小值处选取关键帧，它反映了视频数据中的一个“静止”特点，视频中通过摄像机在一个新的位置上停留或通过人物的某一运动的短暂停留来强调其重要性。n光流光流场40n首先通过Horn-Schunck法计算光流，对每个像素光流分量的模求和，作为第k帧的运动量M(k)，即其中 Ox(i,j,k)是k帧内(i ,j)像素光流的X分量，Oy(i,j,k)是k帧内像素(i,j)光流的Y分量。41n然后寻找M (k)的局部最小值:n从k=0开始，扫描曲线M (k) ，找到两个局部最小值 M(K1)和M(K2), M(K2) 的值与M(K1)的值至少相差p%(由经验设定)，如果M(Kj)=min(M(K),K1 Kj K2 则把 Kj选为关键帧。然后把K2作为当前的K1，继续寻找下一个KjnWolf的这种基于运动的方法可以根据镜头的结构选择相应数目的关键帧。如果先把图像中的运动对象从背景中取出，再计算对象所在位置的光流，可以取得更好的效果。42n存在问题：n1.由于算法依赖于局部信息，所以鲁棒性不强；n2.算法没有足够地总是由动态累加带来的内容变化435.3视频特征提取技术n视频分割成镜头后就要对各个镜头进行特征提取，得到一个尽可能充分反映镜头内容的特征空间，这个特征空间将作为视频聚类和检索依据n颜色特征n纹理特征n运动特征44颜色特征n颜色是图像最显著的特征，与其它特征相比，颜色特征计算简单、性质稳定，对于旋转、平移、尺度变化都不敏感，表现出很强的鲁棒性。n颜色特征包括颜色直方图、主要颜色、平均亮度等。45n其中利用主要颜色和平均亮度进行图像的相似匹配是很粗略的，但是它们可以作为层次检索方法的粗查，对粗查的结果再利用子块划分的颜色直方图匹配进行进一步的细查。46纹理特征n20世纪70年代初Haralick等人提出了纹理特征的共生矩阵表示法，即利用纹理在灰度级的空间相关性，先根据图像像素间的方向和距离构造一个共生矩阵，再从中提出有意义的统计数据作为纹理的特征表示。n缺点：这些统计特征没有和人在视觉上对纹理特征的感知之间建立对应。47nTamura提出的纹理特征集可以很好地与人类视觉感知相对应，这些特征包括：粗糙度、对比度、方向性、线向度、规则性、粗略度。其中最重要的特征是纹理粗糙度、对比度和方向性。n因为人对纹理的视觉特征的认识非常主观，目前还没有一个统一的标准来精确地表示纹理的特征48运动特征n视频除了具有一般静态图像的特征外，更具有动态特征。而动态特征往往也是视频检索时用户给出的主要内容n运动特征反映了视频的时域变化。运动分析的方法有基于光流方程的方法、基于块的方法、像素递归方法和贝叶斯方法等，但这些方法计算量大。nTonomura等人提出了视频X光图像分析方法，可以用来检测类似的运动。49运动特征n将整个视频序列沿时间轴进行切片，从切片图像中分析运动情况。视频的运动变化在切片上将变现为一系列有序的条纹变化。n通过对视频的研究发现，当目标运动时，其北京往往变化迅速，而目标在大小上的不断变化表现为像素色彩的扩张。因此，可采用视频切片技术，通过追踪某一位置线上图像目标的色彩变化来得到运动目标的大小变化50n张宏江等人用计算镜头内各帧平均亮度和主要颜色的均值和方差作为镜头运动量大小的度量，在新闻视频中取得了较好的效果。515.4镜头聚类和场景提取n场景可以通过对镜头的聚类来生成。n在镜头聚类及场景生成过程中，镜头不仅在时间上是连续的，更重要的是它们在内容含义上是一致的，这是镜头聚类的关键n可按时间顺序和关键帧的相似度进行聚类，最简单的方法可以用内容上相关的镜头中的关键帧来代表情节52n把镜头聚类为故事单元后，其数量明显减少。例如对于一部典型的连续剧，半小时的节目中约有300个镜头，经过聚类后可形成约20个故事单元。53n根据镜头的重复程度，视频一般可分2类 1. 对话型 2. 动作型对话型视频: 是指一段实际的对话或者象对话一样由两个或多个镜头重复交替出现的视频。动作型视频: 反应故事的展开，镜头不是固定在一个地点或跟随一个事件，因而很少发生镜头的重复。54n一个有13个镜头的视频序列，各镜头分别标记为： A B A B A B A B C D E F Gn其中，前8个镜头可认为是对话型的，而后5个则是动作型的。n通过视频聚类可以缩小检索的范围，提高检索的效率。55六、视频检索和浏览n在对视频流中各镜头提取关键帧并进行特征提取后，还要建立基于视频特征的索引。通过索引，就可利用基于关键帧特征，或是基于镜头动态特征，或是将二者相结合进行对视频进行检索和浏览了。n基于内容的检索是一个近似匹配，逐步求精的循环过程，主要包括初始查询说明、相似性匹配、返回结果、特征调整、人机交互、检索反馈等步骤，直至获得用户满意的查询结果。56视频检索和浏览n基于关键帧的检索n基于镜头动态的检索n视频浏览n视频的检索反馈576.1基于关键帧的检索n视频被抽象为关键帧后，搜索就变成按照某种相似度来检索数据库中与查询描述相似的关键帧。n通常使用的查询方法是通过目标特征说明（直接）的查询和通过可视实例（示例）的查询。检索时，用户也可以指定使用特定的特征集。如果检索到关键帧，用户就可以利用播放来观看它说代表的视频片段。n浏览可以跟随检索，作为检验检索到的关键帧的上下文边界联系。浏览也可以初始化查询，即当浏览时，用户可以选择一个图像来查询所有与该图像相似的关键帧。586.2基于镜头动态的检索n基于镜头和主体目标的运动特征来检索镜头是视频查询的进一步要求。可以利用摄像机操作的表示来查询镜头，可以利用运动方向和幅度特征来检索运动的主体目标。n在查询中还可以将运动特征和关键帧特征结合起来，检索出具有相似的动态特征但静态特征不同的镜头。596.3视频浏览n对于视频来说，浏览与有明确目的的检索同样重要。为了有效的浏览，视频文档的内容应表示成用户易于理解的静态画面的形式，并且必须提供非线性的访问。通常每个镜头的关键帧被用来作为“浓缩”了的视频序列。n这种表现方式大大减轻了用户需要从头到尾观看整部影片的负担。60n然而，在许多影片中，常常有几百个镜头。另外仅用静态的画面常常不足以表示动态的信息。因此仅将代表帧排列起来的方法无法满足用户有效的浏览要求。n这对于头一次看这部影片的用户尤其如此，他们面对没有组织的一堆画面往往不知所云。616.4视频的检索反馈n在检索的实现中除利用图像的视觉特征进行检索外，还应根据用户的反馈信息不断学习改变阈值重新检索，实现人机交互，直到达到用户的检索要求。n如何定义是否两个视频相似，仍然是尚未解决的问题，限制了检索系统的应用范围。而且由于视频内容的复杂性，不同用户在检索过程中，即使对同一部视频，其注重的角度也有可能不同，因此接受用户的反馈意见，当用户对查询结果不满意时可以优化查询结果，突出用户的需要。62七、当前研究存在的问题及未来的发展趋势n视频的结构化问题n有效的特征提取问题n视频的底层特征和高层语义的结合问题n未来发展趋势637.1视频的结构化问题n视频具有非结构化的特点，这就要求在基于内容的检索系统的设计过程中首先解决视频的结构化问题。n合理的结构化表示将有助于后续的特征和内容分析及用户检索，但是怎样划分具体的结构仍然是值得探讨的问题。64n阈值的选择：阈值选择是利用帧间差的镜头分割算法的一个重要问题。n阈值过大会漏掉镜头转换，阈值太小会引起误检测，则把镜头内摄像机或物体的运动（此时帧间差值增大）误检为镜头转换。n当前的研究中大多数算法都采用依靠经验人工选择阈值的方法，这不利于镜头分割的实现。65n渐变与镜头运动的区别：渐变与镜头运动都会造成帧间差连续的增大，从本质上说利用帧间差的方法无法从根本上区别渐变和镜头运动n基于模型的方法是一种可能的途径，但是为各种渐变建立起模型也非常困难66n闪光灯及光照条件的变化引起的误检测：闪光灯及光照条件的变化都会造成视频帧亮度的变化，引起各种视频特征的变化，从而容易导致误检测为镜头边界677.2有效的特征提取问题n传统的文本数据库的检索可以用关键字，是因为其形式单一，信息量小。而对于结构复杂、含有大量信息的视频数据，需要从多方面提取其客观低级特征，并从低层次的视觉听觉特征中提取高层次的语义信息687.3视频的底层特征和高层语义的结合问题n从视频数据中获得的低层视觉特征与用户自身对数据理解的不一致而出现的“语义鸿沟”（semantic gap）是目前基于内容的视频检索系统难以被普遍用户所接受的根本原因，如何建立这些底层的特征与高层语义概念的关联，从而使计算机自动抽取视频语义是当前研究中的难点所在。697.4未来发展趋势n检索技术的多特征融合化n视频高层语义和底层特征的结合化n多维话索引技术n视频检索反馈的交互化nCBVR的网络化70 参考文献：n刘翔.多媒体信息综合检索的关键技术研究.浙江大学硕士论文，2004n周洞汝.视频数据库管理系统导论.科学出版社，2000n庄越挺，潘云鹤，吴飞.网上多媒体信息分析与检索.北京：清华大学出版社，2002n金红，周源华.基于内容检索的视频处理技术.中国图像图形学报,2000.47172光流光流场n空间中，运动可以用运动场描述，而在一个图像平面上，物体的运动往往是通过图像序列中不同图像灰度分布的不同体现的。n光流：图像灰度模式的表面运动，可以看做是带有灰度的像素点在图像平面运动产生的瞬时速度常场73n光流场：反映了图像上每一点灰度的变化趋势图一图二图三图一、图二为缓慢逆时针旋转的绿色纹理球序列图片，图三为光流场74