基于中层特征的精细图像分类-论文-

基于中层特征的精细图像分类摘要现如今，图像处理中目标分类与检测越来越多的得到了人们的关注与研究。目标分类一般分为两种，一种是基础图像分类，另一种是越来越受到人们关注的精细图像分类。基础图像分类是为了区分具有不同形状以及视觉特征的物体（例如给出一个鸟的图片，基础图像分类就是为了要区分出这张图片是鸟的图片还是狗的图片）。精细图像分类则是要区分具有相似形状以及外貌特征的物体（例如给出一副鸟的图片，精细分类就是要判断出这只鸟究竟属于哪一类鸟）。在这篇文章中，我们主要研究了图像的精细分类问题，在现实生活中它比图像的基础分类更加具有实用性。我们所使用的数据库是目前比较有挑战性的CUB-200以及Stanford_Dogs数据库。我们结合了高效匹配核函数（EMK）与带有权重的空间金字塔以达到最优的分类表现。实验用EMK与词包（BoW）作对比，其中，BoW也可以看做是一种核函数匹配方法，EMK是找出词表主要成分的相互关系，并且在核函数的框架中找到一种新的映射。EMK是通过映射，将局部特征映射到一个低维的特征空间并且将结果向量平均化以形成一个特征层集合。实验结果表明，这可以很好的改进系统的性能。关键词：高效匹配核函数（EMK）；词包（BoW）；细粒度图像分类ABSTRACTIn recent days, object classification and detection in image processing are getting more and more attention and research. Object classification include two sides, one is basic classification, another is fine-grained classification which attract more and more people to study. basic classification is to classify the object which have the different shapes and visual appearance(e.g.: for a picture of bird,the basic classification is to identify the object in the picture is a bird or dog ). Fine-grained classification is to classification the object with the similar shapes and visual appearance(e.g.: for a picture of bird,the fine-grained classification is to identify which kind of birds it belongs to). In this paper, we study the problem of fine-grained image categorization, which is much more useful in real applications than basic image classification. Based on the most challenge dataset, CUB-200, Stanford_Dogs_Dataset.We combine Efficient match kernel (EMK) with the weighted spatial pyramid to achieve state-of-art performance. Comparison with BoW, which can also be viewed as kernel matching approach, EMK digs the relations among vocabulary bases and finds a new mapping in kernel framework. By it, local features are mapped to a low dimensional feature space and average the resulting vectors to form a set level feature in EMK. It is proved that it is helpful to improve the system performance.第1章绪论1.1精细图像分类的研究背景及意义伴随着网络和多媒体技术的飞速发展，越来越多的声音、图形、图像、视频和动画等数字信息越来越多的出现在人们的工作、学习和生活当中。而图像作为一种内容丰富、表现生动的媒体信息，也越来越受到了人们的关注。在现实生活中，时时刻刻都会有大量的图像产生，对于如何从这些给定的图像信息中找出符合人们所需求的图像就是研究者们需要解决的问题。图像分类其实就是模式识别的过程，它是利用计算机来对图像进行定量分析，把图像中的每个像素元或区域转化成一种计算机识别的特征类别，用来代替人的视觉判读。现如今百度、google等网络公司使用的都是传统的图像分类方法，为了能够实现图像更精确的分类也都有做图像精细分类方面的研究，如果可以实现图像的精细分类，那么在网络搜索中，我们可以快速的实现图像的匹配，以此来实现精确图像的搜索。而不会像在传统的图像分类中那样，在图像匹配方面只能实现粗略的匹配而使得图像搜索结果多而不精。随着智能机器的不断发展进步，人们对于图像分类的要求越来越高，它要求我们对于图像能够实现越来越精细的分类。而传统的图像分类只能进行粗略的图像分类，它一般都是利用图像的纹理、灰度、形状位置等底层特征对图像进行分类，而在图像的搜索查找方面一般都是选用关键词来进行查找。而在本文中，我们所要实现的是图像分类能够根据图像的底层特征以及利用中层特征思想的方法来实现图像的精细分类，并且可以根据未知图片来搜索相关信息。1.2国内外研究现状基于精细图像分类的研究是从11年以后才开始有相关研究的，且只有斯坦福大学、加利福尼亚大学等少数的学校在做。其中以斯坦福大学Li Fei-Fei等人在2011年、2012年在CVPR上发表的Combining Randomization and Discrimination for Fine-Grained Image Categorization以及A Codebook-Free and Annotation-Free Approach for Fine-Grained Image Categorization最为突出。下面我们介绍几种图像分类的方法。1、基于编码簿（code book）的编码方法现如今大多数的最优的图像分类系统是基于局部图像块编码的视觉代码，但是这种视觉代码是经常导致图像块详细信息丢失的粗糙编码。现如今，一些最新的研究开始使用稀疏编码SC（Sparce Code）来获得更准确的图像块编码，并且这种方法已被证明在许多的图像分类的任务中使得分类性能得到了改进。但是在这种方法中，图像信息的丢失也是没有办法避免的。2、基于注释的方法图像分类中，为了在细粒度分类问题中说明重要目标的特性以及与其它的相似目标的细微区别，越来越多的工作都试图从人类方面来吸收更多的输入信息，包括要求人们点击目标区域、回答关于目标特性问题的人类循环方法。它是一个关于鸟类识别的改进的postlet-like算法，并且在Caltech-UCSD鸟类数据库中获得了良好的性能。但是这种方法需要人们对于目标特性或者关键点位置的冗长的注释，这对那些需要全自动学习来进行区分图像信息的情况构成了严峻的考验。而且将这种方法使用到新的细粒度目标层中所需要付出的代价是很昂贵的，因为特征查询和目标关键点通常需要由领域的专家仔细设计，尤其是那些没有明显关键区域或者直接特性的目标，例如树、水、食物等等。3、基于模板的方法基于模板的算法是一个需要获得带有大量随机生成的映像模板来匹配图像特征响应的映射。这种方法在思想上类似于最近大量使用的各种预定义滤波器来生成图像响应特征的研究，例如目标检测，人体部分探测器以及图像区域的聚类中心。虽然这些方法在基础层目标和场景分类任务中已经展现了很好的结果，但是它们仍然面临着粗糙编码或者冗长的人类注释的问题，而且这些代表方法目前还没有一个用在细粒度图像分类上。4、细粒度图像分类方法细粒度图像分类方法是用各种数据库来进行细粒度图像分类，它是最近研究比较多的。这种方法可以识别数据中的具有相似外表的图像。这也是我们这次设计的主要思想，具体详见下文。5、其它图像分类方法这些超出了我们这篇文章的讨论大型目标分类工作的范畴，例如一些基于局部模型工作在最小范围的分类目标或从背景中局部化目标可以完成的很好。然而，在怎样使用这些方法来区分那些有相似视觉外表的细粒度目标并且展示这些目标的的重要部分还不清楚。1.3文章框架精细图像分类是解决限制人类视觉效能以达到区分相似目标的有效方法。例如当人看到一种自己并不认识的花或鸟时，很想知道这种花或鸟的具体名称以及其相关信息，但是人的视觉以及学识可能会不能帮助人们区分这种花或鸟，这时，细粒度图像分类就会帮助人们来解决这个问题。而在文章中，我们主要想做的也是细粒度图像分类，这种方法亦可以广泛扩展到其它领域中，并且其分类范围也可以广泛运用到任何的数据库中。在文章中，为了实现图像的细粒度图像分类，整个实验步骤如图1-1：BoWSVM空间金字塔特征提取使用包围盒截取图片图片RFEMK图1-1 细粒度图像分类实验过程文章我们采用了以下框架：1、特征提取在文章的第二章中我们介绍了整个程序中的特征提取，而在特征提取的过程中，我们采用了两种特征描述子来提取图片的特征信息以作后续分类结果的对比。而这两个特征我们采取了尺度不变特征转换（SIFT）特征以及方向梯度直方图（HOG）特征。对全文的精细图像分类起到基础作用。2、使用中层特征在文章的第三章中，我们介绍了将第二章中所提取的特征进一步处理以达到我们的精细图像分类要求。在这一章中，我们介绍了我们在实验过程中所用到过的词包（BoW，Bag of Word），高效匹配核函数（EMK，Efficient Match Kernel）以及空间金字塔（SP，Spatial Pyramid）。对比了相互之间的关系以及差别，对全文的精细图像分类起到很重要的作用。3、分类器介绍在文章的第四章中，我们介绍了本实验的最后一步匹配环节，在这一环节中，我们使用了支持向量机（SVM，Support Vector Machine）以及随机森林（RF，Random Forest）这两种方法。在第四章中，我们重点介绍了每种分类器的特点、结构以及优缺点。4、实验环节在文章的第五章中，我们介绍了整个文章的实验环节。首先介绍了我们实验中所使用的数据库，之后介绍了实验结果以及实验结果分析。第2章底层特征文章中对于底层特征的描述，我们采用了局部描述子SIFT特征以及HOG特征，对于这两种基本特征的详细描述如下。2.1 SIFT算法介绍尺度不变特征转换(Scale-invariantfeaturetransform或SIFT)是David Lowe在1999年提出的一种局部特征描述子算法，并且在2004年进行了更深入的发展和完善。SIFT算法是一种电脑视觉的算法，它可以用来检测与描述图像中的局部性特征。该算法通过求一幅图片中的特征点（interest points,or corner points），包括这些特征点的尺度（scale