计算机视觉发展史-－金锄头文库

*1计算机视觉发展History of Computer Vision主讲教师：种衍文 apollobest126.com武汉大学测绘遥感国家重点实验室资料来源：北京邮电大学*2参考教材：贾云得机器视觉科学出版社，2000参考书目：1、图像处理、分析与机器视觉（第二版）M.Sonka,V.Hlavac,R.Boyle著，艾海舟等译，人民邮电出版社，20032、机器视觉教程W.E.Snyder,H.Qi著林学訚等译，机械工业出版社，20053、计算机视觉马颂德著，科学出版社，1999课程教材*31. 引言智能机器: 能模拟人类的功能，能感知外部世界并有效地解决人所能解决问题感知系统：人类感知外部世界主要是通过视觉、触觉、听觉和嗅觉等感觉器官，其中约80%的信息是由视觉获取的因此,对于智能机器来说，赋予机器以人类视觉功能对发展智能机器是及其重要的，也由此形成了一门新的学科计算机视觉(也称机器视觉或图像分析与理解等)计算机视觉的发展不仅将大大推动智能系统的发展，也将拓宽计算机与各种智能机器的研究范围和应用领域计算机视觉：研究用计算机来模拟生物视觉功能的科学和技术计算机视觉系统的首要目标是用图像创建或恢复现实世界模型，然后认知现实世界*4 20世纪50年代归入模式识别-主要集中在二维图像分析和识别上，如，光学字符识别，工件表面、显微图片和航空图片的分析和解释等 60年代MIT 的Roberts通过计算机程序从数字图像中提取出诸如立方体、楔形体、棱柱体等多面体的三维结构，并对物体形状及物体的空间关系进行描述Roberts 的研究工作开创了以理解三维场景为目的的三维计算机视觉的研究Roberts对积木世界的创造性研究给人们以极大的启发，许多人相信，一旦由白色积木玩具组成的三维世界可以被理解，则可以推广到理解更复杂的三维场景 70年代，已经出现了一些视觉应用系统70年代中期，麻省理工学院(MIT)人工智能(AI)实验室正式开设“计算机视觉” ( Machine Vision) 课程，由BKPHorn教授讲授2. 计算机视觉发展*5MIT AI 实验室吸引了国际上许多知名学者参与计算机视觉的理论、算法、系统设计的研究，David Marr教授就是其中的一位他于1973年应邀在MIT AI 实验室领导一个以博士生为主体的研究小组，1977年提出了不同于“积木世界”分析方法的计算视觉理论 (computational vision)，该理论在80年代成为计算机视觉研究领域中的一个十分重要的理论框架*6研究热潮是从 20世纪80年代开始的，到了80 年代中期，计算机视觉获得了蓬勃发展，新概念、新方法、新理论不断涌现，比如，基于感知特征群的物体识别理论框架，主动视觉理论框架，视觉集成理论框架等Marr的计算理论*7许多会议论文集都反应了该领域的最新进展，比如： Int. Conf. on Computer Vision and Pattern Recognition (CVPR); Int. Conf. on Computer Vision(ICCV); Int. Conf. on Pattern Recognition(ICPR); Int. Conf. on Robotics and Automation(ICRA); Workshop on Computer Vision, SPIE还有许多学术期刊也包含了这一领域的最新研究成果, 如： IEEE Trans. on Pattern Analysis and Machine Intelligence(PAMI); Computer Vision, Graphics, and Image Processing(CVGIP); IEEE Trans. on Image Processing; IEEE Trans. on Systems, Man, and Cybernetics(SMC); Machine Vision and Applications; Int. J on Computer Vision(IJCV); Image and Vision Computing; Pattern Recognition*83. Marr的视觉计算理论Marr 的视觉计算理论Marr1982立足于计算机科学，系统地概括了心理生理学、神经生理学等方面取得的所有重要成果，是视觉研究中迄今为止最为完善的视觉理论 Marr 建立的视觉计算理论，使计算机视觉研究有了一个比较明确的体系，并大大推动了计算机视觉研究的发展人们普遍认为，计算机视觉这门学科的形成与Marr的视觉理论有着密切的关系*93.1 信息处理三个层次*103.2 视觉表示框架第一阶段(也称为早期阶段)是将输入的原始图像进行处理，抽取图像中诸如角点、边缘、纹理、线条、边界等基本特征，这些特征的集合称为基元图(primitive sketch)；第二阶段(中期阶段)是指在以观测者为中心的坐标系中，由输入图像和基元图恢复场景可见部分的深度、法线方向、轮廓等，这些信息的包含了深度信息，但不是真正的物体三维表示，因此，称为二维半图(25 dimensional sketch)；第三阶段(后期阶段)是在以物体为中心的坐标系中，由输入图像、基元图、二维半图来恢复、表示和识别三维物体。*11表1-2 由图像恢复形状信息的表示框架名称目的基元图像光强表示图像中每一点的强度值基元图表示二维图像中的重要信息，主要是图像中的强度变化位置及其几何分布和组织结构零交叉，斑点，端点和不连续点，边缘片断，有效线段，组合群，曲线组织，边界 25维图在以观测者为中心的坐标系中，表示可见表面的方向、深度值和不连续的轮廓局部表面朝向(“针”基元) 离观测者的距离深度上的不连续点表面朝向的不连续点 3维模型表示在以物体为中心的坐标系中，用由体积基元和面积基元构成的模块化多层次表示，描述形状及其空间组织形式分层次组成若干三维模型，每个三维模型都是在几个轴线空间的基础上构成的，所有体积基元或面积形状基元都附着在轴线上*12Marr理论是计算机视觉研究领域的划时代成就，但该理论不是十分完善的，许多方面还有争议比如:视觉处理框架基本上是自下而上，没有反馈;没有足够地重视知识的应用Marr理论给了我们研究计算机视觉许多珍贵的哲学思想和研究方法，同时也给计算机视觉研究领域创造了许多研究起点。3.3 Marr 视觉理论的不足*13*144. 计算机视觉的应用零件识别与定位（工业生产线）产品检验（纺织工业棉花质量检验）移动机器人导航（星球机器人）遥感图像分析（植被分析）医学图像分析（骨骼定位）安全鉴别、监视与跟踪（门禁系统）国防系统（目标自动识别ATR与目标跟踪）其它（动画、体育、考古）*15Sojourner 火星车前部图，中部的两个小突出是两个黑白 CCD摄像机*16*17Rocky 7 火星机器人*18*19Rocky7视觉系统获取的立体图象对障碍物探测示意图 Rocky7 视觉系统对场景的深度恢复 *20CMU月球探测实验车Nomad漫游者*21月球探测实验车Nomad漫游者*22昆虫机器人足球机器人足球机器人*23日本 Honda 仿人机器人*24具有立体视觉的机器人*25人头部跟踪演示*26MIT Media Lab ，与虚拟生物交互演示*27基于恢复图象序列的五角大楼三维重建*28基于图象序列的三维人脸恢复*29视觉系统坐标系n像素坐标：表示图像阵列中图像像素的位置； n图像平面坐标：表示场景点在图像平面上的投影； n摄象机坐标：即以观察者为中心的坐标，将场景点表示成以观察者为中心的数据形式 n场景坐标：也称作绝对坐标(或世界坐标)，用于表示场景点的绝对坐标；*305. 计算机视觉的研究内容一、输入设备(input device) 包括成像设备和数字化设备成象设备是指通过光学摄像机或红外、激光、超声、X射线对周围场景或物体进行探测成象，得到关于场景或物体的二维或三维数字化图像二、低层视觉(low level) 主要是对输入的原始图像进行处理这一过程借用了大量的图像处理技术和算法，如图像滤波、图像增强、边缘检测等，以便从图像中抽取诸如角点、边缘、线条、边界以及色彩等关于场景的基本特征；这一过程还包含了各种图像变换（如校正）、图像纹理检测、图像运动检测等*31三、中层视觉（middle level）主要任务是恢复场景的深度、表面法线方向、轮廓等有关场景的25维信息，实现的途径有立体视觉（stereo vision）、测距成像（ rangefinder）运动估计（motion estimation）、明暗特征、纹理特征等. 系统标定、系统成像模型等研究内容一般也是在这个层次上进行的四、高层视觉（high level）主要任务是在以物体为中心的坐标系中，在原始输入图像、图像基本特征、2 5维图的基础上，恢复物体的完整三维图，建立物体三维描述，识别三维物体并确定物体的位置和方向*326. 计算机视觉研究面临的困难（1）图像多义性：三维场景被投影为二维图像，深度和不可见部分的信息被丢失，因而会出现不同形状的三维物体投影在图像平面上产生相同图像的问题另外，在不同角度获取同一物体的图像会有很大的差异（2）环境因素影响：场景中的诸多因素，包括照明、物体形状、表面颜色、摄像机以及空间关系变化都会对成像有影响，（3）知识导引：同样的图像在不同的知识导引下，将会产生不同的识别结果（4）大量数据：灰度图像，彩色图像，深度图像的信息量十分巨大，巨大的数据量需要很大的存贮空间，同时不易实现快速处理*337. 计算机视觉与其它学科领域的关系（1）图像处理：图像处理通常是把一幅图像变换成另外一幅图像，也就是说，图像处理系统的输入是图像，输出仍然是图像，信息恢复任务则留给人来完成（2）计算机图形学：通过几何基元，如线、圆和自由曲面，来生成图像，它在可视化（Visualization）和虚拟现实(Virtual Reality）中起着很重要的作用计算机视觉正好是解决相反的问题，即从图像中估计几何基元和其它特征因此，计算机图形学属于图像综合，计算机视觉属于图像分析（3）模式识别：用于识别各种符号、图画等平面图形模式一般指一类事物区别于其它事物所具有的共同特征。模式识别方法有统计方法和句法方法两种，统计方法是指从模式抽取一组特征值，并以划分特征空间的方法来识别每一个模式*34（4）人工智能（AI）：涉及到智能系统的设计和智能计算的研究在经过图像处理和图像特征提取过程后，接下来要用人工智能方法对场景特征进行表示，并分析和理解场景人工智能有三个过程：感知、认知和行动（5）人工神经网络（ANNs）：是一种信息处理系统，它是由大量简单的处理单元（称为神经元）通过具有强度的连接相互联系起来，实现并行分布式处理（PDP）人工神经网络的最大特点是可以通过改变连接强度来调整系统，使之适应复杂的环境，实现类似人的学习、归纳和分类等功能（6）神经物理学与认知科学：将人类视觉作为主要的研究对象计算机视觉中已有的许多方法与人类视觉极为相似许多计算机视觉研究者对研究人类视觉计算模型比研究计算机视觉系统更感兴趣，希望计算机视觉更加自然化，更加接近生物视觉*358. 计算机视觉研究对策研究人员不断寻求新的途径和手段，比如，主动视觉 (active vision)，面向任务的视觉(task-orie