资源预览内容
第1页 / 共72页
第2页 / 共72页
第3页 / 共72页
第4页 / 共72页
第5页 / 共72页
第6页 / 共72页
第7页 / 共72页
第8页 / 共72页
第9页 / 共72页
第10页 / 共72页
亲,该文档总共72页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
浙江大学硕士学位论文基于统计模型的人脸图像理解姓名:周伟华申请学位级别:硕士专业:应用数学指导教师:彭群生20020621A b s t r a c t在本论文中我们详细描述了基于先验知识的人脸图像理解模型A c t i v eA p p e a r a n c eM o d e l ( A A M ) 和D i r e c tA p p e a r a n c eM o d e l ( D A M ) 。这两个模型通过学习事先给定的人脸样本的外形和纹理的变化特征,构建出人脸外形和纹理的统计模型。利用人脸外形和纹理的统计模型,我们可以合成几乎所有的人脸。在统计模型的基础上,A A M 和D A M 继续提出了图像的匹配模型。通过学习合成人脸样本与人脸训练样本之间差异同统计模型参数之问的关系,A A M 和D A M 给可以根据当前合成图像同目标图像之间的差异逐步调整统计模型参数使得合成样本逼近实际样本。论文探讨了A A M 和D A M 学习和匹配的本质,并根据这些探讨提出了几个新的学习匹配流程。最后论文还将独立元分析( i n d e p e n d e n tc o m p o n e n ta n a l y s y s ) 引入到统计模型的建立过程中去。在本论文的第一部分我们详细讨论如何构建人脸外形和纹理的统计模型;在论文的第二部分我们详细描述Y A A M 和D A M 的学习过程和匹配过程,并且分别将A A M 和D A M 用于人脸图像的理解:在第三部分我们给出了有关实现过程的细节并且给出了如何利用A A M 和D A M 自身特性实现自动确 定初始位置的方法船进一步深入探讨了A A M 和D A M 的本质。T h i st h e s i sp r e s e n t sag e n e r a la p p r o a c ht o w a r d sh u m a nf a c ei m a g es e g m e n t a t i o nu s i n gt h el e a r n i n g - b a s e dd e f o r m a b l em o d e lA c t i v eA p p e a r a n c eM o d e l( A A M ) a n dD i r e c tA p p e a r a n c eM o d e l ( D A M ) A A Ma n dD A Mc o n t a i nas t a -t i s t i c a lm o d e lo ft h es h a p ea n dg r e y l e v e la p p e a r a n c eo ft h eh u m a nf a c ew h i c hi sl e a r n e dt h r o u g ho b s e r v a t i o no fb o t hs h a p ea n dt e x t u r ev a r i a t i o ni nat r a i n i n gs e ta n dc a 4 1g e n e r a l i s et oa l m o s ta n yv a l i dh u m a nf a c ee x a m p l e B a s e do n2t h es t a t i s t i c a lm o d e l ,A A Ma n dD A Mb r i n go u tt h e i rs e a r c ha l g o r i t h m D u r i n gat r a i n i n gp h a s eA A Ma n dD A Ml e a r nt h er e l a t i o n s h i pb e t w e e nm o d e lp a r a m e t e r sa n dt h er e s i d u a le r r o r si n d u c e db e t w e e nat r a i n i n gi m a g ea n das y n t h e s i s e dm o d e le x a m p l e T om a t c ht oa ni m a g eA A Ma n dD A Mm e a s u r et h ec u r r e n tr e s i d u a l sa n du s et h em o d e lt op r e d i c tc h a n g e st ot h ec u r r e n tp a -r a m e t e r s ,l e a d i n gt oab e t t e rf i t T h i st h e s i sd i s c u s s e st h eb a s i cp r i n c i p a lo f A A Ma n dD A M ,b a s e do nt h eb a s i cp r i n c i p a lw es e tu pt w on e wm o d e l s A tl a s tt h et h e s i ss u b s t i t u t e st h ep r i n c i p a lc o m p o n e n ta n a l y s y sw i t hi n d e p e n d e n tc o m p o n e n ta n a l y s y si nt h eb u i l d i n gp r o c e d u r eo fs t a t i s t i c a lm o d e l I nt h ef i r s tp a r to ft h et h e s i s ,at h o r o u g ht r e a t m e n ta n dd i s c u s s i o no ft h et h e o r yb e h i n ds t a t i s t i c a lm o d e lo ft h es h a p ea n dg r e y l e v e la p p e a r a n c ei sg i v e n I nt h es e c o n dp a r to ft h et h e s i s ,t h el e a r n i n ga n ds e a r c h i n gp r o c e d u r eo fA A Ma n dD A Mi sd i s c u s s e da n ds o m ee x a m p l e sa b o u th u m a nf a c ei m a g es e g l n e n t a -t i o na r e 百y e n I nt h el a s tp a r to ft h et h e s i s ,s o m ei m p l e m e n t a t i o nd e t a i l sa r eg i v e na n dt h em e t h o dw h i c hc a na u t o m a t i c a l l yd e t e r m i n et h ei n i t i a lp o s i t i o no fs e a r c h i n gi sd i s c u s s e d致谢本文是在尊敬的彭群生导师和鲍虎军教授的悉心指导下完成的。在我三年的硕士生涯中,两位导师给我的悉心指导和关怀使我获益非浅,为我将来的学习和工作打下了坚实的基础。他们渊博的学识,严谨的治学精神和富于创新的学术思想,给我树立了以后治学的典范。在我攻读硕士学位的学习过程行将结束的时候,为两位导师给予的珍贵的学习机会年口学术指导,表示深深的敬意和真诚的感谢。衷心感谢浙江大学C A D & C G 国家重点实验室和应用数学系那些给予我知识和力量的辛勤的园丁,没有他们的帮助,就没有我今天的成绩。特别感谢浙江大学C A D & C G 国家重点实验室的王进博士,他的帮助和支持,对于我顺利完成学业具有非常重要的意义。感谢与我一起走过大学和研究生阶段的同学,感谢他们在学习和生活上对的帮助,我将永远记得他们。最后,谨以此文献给所有教导和关心过我的人们。C h a p t e r1引言目前,计算机视觉的理论已经有了很大的发展,有关像机定标,运动估计,三维重建等闯题都有了一些解决方案。但是至今还没有能付诸使用的系统。从根本上讲,计算机视觉首先是一个对图像理解的问题。而图象理解是一个开放难题。图像理解,从更底层的角度来讲依赖于对图像分割和特征抽耿,匹配和跟踪等。图象中的噪声和信息不足使得处理这些问题很难,至今没有提出一个非常鲁棒的方法。图像处理和计算机视觉的应用一般都需要在图像中处理一些复杂和可变的结构,如人脸。通常我们都是采用“从下往上”或“数据驱动”的方法。在这些方法中,我们首先从底层处理图像数据,在图像中寻找局部的特征,如边或者角,然后将这些特征组合起来判定是否符合我们所感兴趣的物体的特征。但是由于缺乏特征和特征之间的整体匹配的约束条件,我们在寻找局部特征的时候经常不能把所有的特征找出或拽错了特征,使 导这种方法在实际中应用的时候变得极其困难。最近几年,出现了大量基于模型的方法。这是一种“从上往下”的方法。任何物体的结构都有一定的内在规律,如果我们有一些有关这些结构的4C H A P T E R l 引言图1 1 :基于先验知识的图像理解。图中有什么呢?5先验知识,那么将辅助计算机准确地理解包含该物体的图像。例如如果没有先验知识,你可能永远无法理解图11 中存在什么东西。但是如果事先告诉你里面有一只狗,那么你也许就比较容易理解这一图像。基于模型方法首先定义一个先验的模型,然后在图像中搜索最匹配于该模型的图像区域。通过判断匹配成功与否,我们可以判断当前图像中是否存在我们感兴趣的目标。基于模型的方法较好地解决了“从下往上”方法的困难。根据先验知识所提供的有关物体外形结构,物体表面灰度分布的规律,我们可以从全局的角度去指导模型同图像的匹配,这样可以解决由于物体复杂的结构引起的无法正确寻找到局部特征的问题,提高对噪声的抵抗能力。通常我们希望一个模型能比较全面的反映它所描述的物体。例如,我们希望一个人脸模型能产生或逼近任意一个人的脸。这样我们对人脸图像的匹配就相当于通过调整人脸模型的参数来生成一张最接近于具体人脸的人脸图像。由于每个具体物体的外形和表现都存在一定变化,所以我们的模型必须C H A P T E R l 引言6是可变形的。对于模型的要求有两个,第一,它必须能体现它所表示物体的特征,确保它所生成的物体具有同类物体的特征;第二,它必须有足够的可变性,使得它可以表示所有这一类的物体。近几年来,人们提出了很多基于模型的方法。这些工作都采用了基于统计学习的方法来建立模型。通过对事先建立的大量已经标记好的训练样本进行统计分析,这些方法能够建立体现这一类物体特征和这些特征的变化范围的统计模型。这样人们就可利用这个统计模型来合成物体以及匹配目标物体。最简单的基于模型方法是金像( g o l di m a g e ) 的方法,它利用一张最典型的样本图作为模型。然后根据这张金像在新的图像中进行搜索。如果金像中的有关结构已予标记,那么就可以大致确定匹配后新图像中有关结构的位置但是由于只采用一张图像作为匹配原型,这种方法不可能进行精确的匹配。s t a i b 和D u n c a n 1 采用闭曲线的傅立叶描述( f o u r i e rd e s c r i p t o r s ) 来描述物体的外形。它所表示的曲线的复杂性同它选择的系数相关。通过对这些系数的控制,可以调整物体的外形。但是对于不封闭的外形,这种方法有些力不从心。K a s s 等2 1 提出一种名n q A c t i
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号