大脑皮层视觉通路计算模型的物体识别【优质材料】-

题目: Robust Object Recognition with Cortex-Like Mechanisms作者：Thomas Serre , Tomaso Poggio 讲解人：Su Yu1参考课件作者的相关信息 Thomas Serre2005年获得博士学位computational neuroscienceMIT, Brain and Cognitive Science Dept, Cambridge, MA.Advisor: Tomaso Poggio 所在机构Postdoctoral associate at the Center for Biological and Computational Learning (CBCL) at MIT 主要研究方向Biological vision, machine vision, object recognition, computational neuroscience, learning in cortex 主要的学术贡献点提出了一个关于视觉皮层腹部通路(ventral stream of visual cortex)中回路和计算的定量模型。提出了一个component-based的人脸检测/识别模型。2参考课件作者的相关信息 Tomaso Poggio所在机构Department of Brain & Cognitive Sciences and Artificial Intelligence Laboratory, Massachusetts Institute of Technology 主要研究方向the processes by which the brain learns to recognize and categorize visual objects http:/cbcl.mit.edu/cbcl/web-pis/poggio/index.htm3参考课件文章的相关信息PAMI2007.3相关文献M. Riesenhuber and T. Poggio, “Hierarchical Models of Object Recognition in Cortex,” Nature Neuroscience, vol. 2, no. 11, pp. 1019-1025, 1999.T. Serre, M. Kouh, C. Cadieu, U. Knoblich, G. Kreiman, and T. Poggio, “A Theory of Object Recognition: Computations and Circuits in the Feedforward Path of the Ventral Stream in Primate Visual Cortex,” AI Memo 2005-036/CBCL Memo 259, Massachusetts Inst. of Technology, Cambridge, 2005.4参考课件文章摘要受生物学的启发，我们提出了一种识别复杂视觉场景的新的通用框架。在这个框架中，我们描述了一个与视觉皮层组织结构非常相似的一个层次化模型，并且通过交替进行模板匹配(template matching)和最大化操作(maximum pooling operation)，得到复杂性和不变性越来越高的特征表示。我们在多个识别任务上验证了这种方法的正确性，包括复杂场景中单类或多类物体的识别，以及依赖于识别shape-based和texture-based物体的复杂场景理解。在满足一些生物学限制条件的情况下，这种方法的性能非常好：它可以从少量训练样本中进行学习，并且与目前最好的系统旗鼓相当。除了与计算机视觉的相关性，这种方法的成功证明了大脑皮层中物体识别前馈模型的正确性。5参考课件研究背景和研究意义研究背景研究大脑视觉皮层中物体识别的过程对于神经科学（Neuroscience）来说是一个关键的问题。计算机视觉中神经科学的应用局限在推导立体视(stereo)算法和验证DoG以及Gabor的正确性。一些基于仿生的高层次特征没有在实际的图像数据库上验证。研究意义人类和哺乳动物的视觉系统优于目前的机器视觉的系统，因此模仿大脑皮层中物体识别的过程就变得非常有吸引力。6参考课件前人相关工作的介绍相关工作层次化结构Constellation modelMultilayered convolutional networks。物体表示方法Appearance-based 区分性强但缺乏不变性。Histogram-based 不变性强但缺乏区分性。7参考课件本文所研究问题的提出问题的提出不变性（Invariance）和区分性（Selective）对于物体识别来说都是很重要的。本文提出一种新的物体描述方式，能够很好地平衡不变性和区分性。8参考课件本文解决思路的基本思想模拟大脑视觉皮层的处理过程通过一种层次结构定量地模拟了大脑视觉皮层腹部通路前100-200毫秒的处理过程。系统共分4个层次，包括两个simple S units和两个complex C units。兼顾可分性(S units)和不变性(C units)9参考课件文章的组织结构IntroductionDetailed ImplementationEmpirical EvaluationDiscussion10参考课件基础知识相关学科神经科学 (Neuroscience)脑研究的综合学科。应用生命科学和物理科学，信息科学的综合途径，从分子、细胞到计算网络、心理多个水平，对神经系统的形成，正常功能和异常病变进行研究。认知科学 (Cognitive Science)是研究人、动物和机器的智能的本质和规律的科学，目标是揭示人脑认知过程的机制，用计算机程序实现这一机制并加以验证。11参考课件基础知识人类视觉感知系统视觉信息在大脑中按照一定的通路传输视网膜接受外界信号信号通过视神经交叉和视束传到中枢的侧膝体信息到达大脑皮层细胞大脑皮层由简单到复杂，由低级到高级Simple Cell - Complex Cell - Hypercomplex Cell - .12参考课件基础知识视觉信息处理特点两条通路腹部通路 (ventral stream) ，又称what通路背部通路 (dorsal stream)，又称where通路层次结构视网膜 - 侧膝体 - 视皮层反馈连接高层区域 - 视觉初级皮层区高级行为也会对低层神经元活动产生影响感受野等级特性神经细胞越复杂，对应视网膜上区域越大。注意选择机制学习机制13参考课件系统框架14参考课件S1 unitsGabor - 模拟简单视觉细胞的感受野。多方向，多尺度。提取具有区分能力的底层特征。15参考课件C1 units较大的感受野 - 对感受野内不同位置，不同尺寸的边缘都会有响应。通过尺度和空间邻域的局部最大值操作（Local Maximum）来实现。体现了平移和尺度不变性。16参考课件C1 unitsC1maxmax17参考课件C1 unitsC1S118参考课件S1和C1具体参数19参考课件S2 units与从训练集中学到的patch进行模板匹配。Patch 20参考课件S2 unitsrRBFXPi=21参考课件C2 units在所有尺度，所有位置上取最大值。22参考课件The Learning Stage选择若干具有代表性的patch从训练图像(C1 level)中随机采样每类物体有自己的代表patch23参考课件The Classification Stage特征Standard model features (SMFs) : C1 or C2分类器SVM Boosting24参考课件实验Object Recognition in ClutterObject Recognition without Clutter25参考课件Object Recognition in Clutter测试条件目标物体没有分割，位置和尺度也不同采用的特征scale and position-invariant C2 SMFs测试数据库CalTech5, CalTech101, and MIT-CBCL26参考课件Object Recognition in ClutterComparison with benchmark systems19，20 ：constellation models17 ：hierarchical SVM18 ：fragments + gentleBoost27参考课件Object Recognition in ClutterComparison with SIFT features28参考课件Object Recognition in ClutterNumber of features and training examples29参考课件Object Recognition without Clutter测试条件和滑动窗结合从图像的不同位置和不同尺度提取图像窗，resize到同样大小。没有位置和尺度的变化没有clutter采用的特征C1和C2均可，但C1优于C2测试数据库StreetScenes scene-understanding data set30参考课件Object Recognition without Clutter31参考课件Object Recognition without Clutter32参考课件Object Recognition without Clutter33参考课件总结本文提出了一种基于大脑皮层视觉通路计算模型的物体识别方法，并应用到多种不同的识别任务中，取得了不错的效果。 34参考课件最后可以改进之处增加层数，比如S3 , C3 , S4等等融合多个层次的特征学习过程中采用特征选择调整模型参数增加反馈的过程提高速度能否应用到人脸识别?35参考课件36参考课件37参考课件