华中科技大学 博士学位论文 视觉信息处理中注意机制计算模型研究 姓名:魏龙生 申请学位级别:博士 专业:控制科学与工程 指导教师:桑农 2011-05-24 I 华华 中 科中 科 技技 大 学 博 士 学 位 论大 学 博 士 学 位 论 文文 摘摘 要要 视觉注意机制是计算机视觉领域一个重要的研究课题。由于视觉注意机制的过 程非常复杂,几乎涵盖了认知科学、神经科学、生物学以及计算机科学等各门学科, 到目前为止人们对视觉注意的过程还没有完全了解。现有的视觉注意模型主要集中 于自底向上的模型,这种模型是由数据驱动的,虽然取得了一定的成功,但在很多 方面还存在着不足,比如在很多情况下,人们的注意往往受到先验知识的引导,即 自顶向下的视觉注意模型;在静态场景中人们的注意力更易于被移动的刺激所吸引, 即动态和静态的视觉注意模型;在图像压缩中,显著性的区域比其他区域更重要, 压缩时应给予较高的分辨率,即可变分辨率的图像压缩模型。因此,研究这些视觉 注意机制计算模型具有十分重要的意义。 在目标背景对比度的模型中,将所有的训练目标融合成一个目标类,将所有的 训练背景融合成一个背景类,对于每一个特征,目标类的显著性均值与背景类的显 著性均值的比值得到一个权重,所有特征的权重构成一个权重向量;对于一个待注 意场景,所有的特征图通过权重向量联合生成自顶向下的显著性图;自顶向下和自 底向上的显著性图融合生成全局显著性图,此图向导了视觉注意。 在目标自身特性的模型中,在训练阶段,使用初级水平的视觉特征如颜色、亮 度、方位和纹理,每一个特征被分成不同的部分如颜色特征被分成红、绿、蓝三个 部分,根据目标自身而不依靠背景信息提取这些特征,并且这些特征被表示成均值 和标准差被存储在长期记忆库中。在注意阶段,待注意图中相应的特征被提取出来, 对于每一个特征,通过比较训练的特征图和待注意的特征图得到相似性图,这两种 特征图越相似,则得到的相似图的响应越强烈,然后所有的相似性图被联合形成自 顶向下的显著性图,与此同时,通过待注意图本身的对比度得到自底向上的显著性 图,这两个显著性图被融合成全局显著性图。 在动态和静态的模型中,主要介绍了基于最大化熵的时空显著性视觉注意计算 II 华华 中 科中 科 技技 大 学 博 士 学 位 论大 学 博 士 学 位 论 文文 模型。模型的输入是一个短的视频,从该视频的中截取连续几帧,对于每一帧,提 取颜色对比度特征,亮度对比度特征,方位特征和纹理特征,对于特征图中的每一 点,计算熵值图,这些熵值图逐步融合形成了动态显著性图;与此同时,按照自底 向上的方法计算当前帧的静态显著性图,动态和静态显著性图融合生成了全局显著 性图,该图决定了显著性的区域。 在可变分辨率的图像压缩的模型中,对于一幅给定的图像,使用自底向上的视 觉注意方法找到显著性的区域,通过压缩编码的方法获得压缩图像。一般而言,第 一个显著性区域不被压缩,保持原有的分辨率;最不显著的部分给出了最高的压缩 率;显著性值在中间的部分,显著性越低,压缩率越高。通过这种方法,得到了一 个基于视觉注意区域可变分辨率的图像压缩模型。该模型不仅对整个图像可以达到 一个高的压缩率,而且还可以保持显著性区域高分辨率的效果。 最后,本文对所做的工作进行了归纳总结,并且结合本文的不足之处,分析和 讨论了进一步的研究计划。 关键词:关键词:视觉注意 生物激励 自顶向下 注意选择 显著性图 时空显著性模型 最大化熵 可变分辨率 III 华华 中 科中 科 技技 大 学 博 士 学 位 论大 学 博 士 学 位 论 文文 Abstract Visual attention mechanism is one of the important problems in computer vision community, and it almost includes perceive science, nerve science, biology and all the subject of computer science. The process of visual attention mechanism is so complex that people dont understand all the process until now. Most of current visual attention models are data-driven bottom-up models. Although those models are successful in some ways, there are some shortages in many applications. For instance, the attention is often affected by prior knowledge which is a top-down visual attention model; peoples attention is more easily directed to a motive stimulus in a static scene, which is dynamic and static visual attention; saliency region is so important that it should adopt higher resolution in image compression, which is variable resolution image compression. Therefore, it is important to research for those computation models of visual attention mechanism. In the model of target and background contrast, we fuse all training targets into a target class and fuse all training backgrounds into a background class. Weight vector is computed as the ratio of the mean target class saliency and the mean background class saliency for each feature; for an attended scene, all feature maps are combined into a top-down saliency map with the weight vector by a hierarchy method. Then, the top-down and bottom-up saliency map are fused into a global saliency map which guides the visual attention. In the model of target itself character, low-level visual objects features such as color, intensity, orientation and texture are used and each feature is divided into some different parties (e.g., red, green and blue for color feature) in the training phase. All the features are extracted from object itself and do not depend on the background information. These features are represented by mean and standard deviation stored in long-term memory. In the attention phase, corresponding features are extracted in the attended image. For each IV 华华 中 科中 科 技技 大 学 博 士 学 位 论大 学 博 士 学 位 论 文文 feature, the similarity map is obtained by comparing training feature map and attended feature map. The more similarly, the stronger of the similarity map. Then all the similarity maps are combined into a top-down saliency map. In the same time, a bottom-up saliency map is acquired by the contrast of attended image itself. Then, the top-down and bottom-up saliency map are fused into a global saliency map. In the model of dynamic and static salience, we propose a spatiotemporal saliency attention model based on entropy value. The input video is divided into some continuous frames. For each frame, low-level visual features such as color contrast, intensity contrast, orientation and texture are used. The entropy value map is obtained by calculating the entropy value of each point. All the entropy maps are normalized and are fused into a dynamic saliency map. The static saliency map is acquired according to bottom-up method. Then, the dynamic and static saliency map are fused into a global saliency map. In the model of variable resolution image compression, we use bottom-up model to obtain salience regions. Original resolution is retained in the first salient region; the lowest resolution is applied in the unapparent salient regions and the middle resolution is decided by the saliency order from high to low. By this method, we achieve variable resolution image compression
