基于视频的人脸识别研究进展（精）-

基于视频的人脸识别研究进展*严严1）工）章毓晋1），2）（清华大学信息科学与技术国家实验室北京100084）2（清华大学电子工程系北京100084）摘要近年来基于视频的人脸识别已成为人脸识别领域最为活跃的研究方向之一.如何充分利用视频中人脸的时间和空间信息克服视频中人脸分辨率低，尺度变化范围大，光照、姿态变化比较剧烈以及时常发生遮挡等困难是研究的重点.该文对近期（主要近5年）基于视频的人脸识别研究进行了详细的介绍和讨论，在对相关方法分类的基础上，分析了各类方法中典型技术的优缺点，并概况介绍了常用的视频人脸数据库和实验结果，最后展望了基于视频人脸识别未来的发展方向和趋势.关键词模式识别；人脸识别；基于视频的人脸识别；进展；综述中图法分类号TP39I1引言人脸识别具有巨大的理论意义和应用价值.人脸识别的研究对于图象处理、模式识别、计算机视觉、计算机图形学等领域的发展具有巨大的推动作用，同时在生物特征认证、视频监控、安全等各个领域也有者广泛的应用.经过多年研究，人脸识别技术己取得了长足的进步和发展.随着视频监控、信息安全、访问控制等应用领域的发展需求，基于视频的人脸识别已成为人脸识别领域最为活跃的研究方向之一Z】. 如何充分利用视频中人脸的时间和空间信息克服视频中人脸分辨率低，尺度变化范围大，光照、姿态变化剧烈以及时常发生遮挡等困难是研究的重点.国内外众多的大学和研究机构，如美国的 MIT、CMU】、UIUC8,9、Maryland大学*、英国的剑桥大学日本的Toshiba公司四和国内的中科院自动化所F都对基于视频的人脸识别进行了广泛而深入的研究.鉴于目前现有的人脸识别国内外综述文献主要针对基于静止图像的人脸识别研究心】，因此有必要对现阶段基于视频的人脸识别研究情况进行分析和总结，期望能够更好地指导未来的研究工作.2人脸识别概述一个日动的基于视频的人脸识别系统包括了人脸检测模块、人脸跟踪模块、人脸特征提取模块和人脸识别模块22.关于人脸检测、人脸跟踪和人脸特征提取的研究进展可以参考综述文献13. 本文重点介绍基于视频的人脸识别研究进展.人脸识别问题可以定义成：输入（杏询）场景中的静止图像或者视频，使用人脸数据库识别或验证场景中的一个人或者多个人14.基于静止图像的人脸识别通常是指输入（查询）一幅静止的图像, 使用人脸数据库进行识别或验证图像中的人脸.而基于视频的人脸识别是指输入（杳询）一段视频, 使用人脸数据库进行识别或验证视频中的人脸.如不考虑视频的时间连续信息，问题也可以变成采用多幅图像（时间上不一定连续）作为输入（查询）进行识别或验证.因此按照上面的分析，根据输入（查询）和人脸数据库的不同，人脸识别可以分成如表1所示的四种情况：:本课题得到国家自然科学基金（60872084）和教育部高等学校博士学科点专项科研基金（SRFDP-20060003102）资助. 严严，男，1984年生，博士，主要研究领域为人脸识别等.章就晋，男，1954年生，博士，教授，博士生导师，主要研究领域为图像工程（图像处理、图像分析、图像理解及其技术应用）.主页：表1输入（查询）和数据库不同情况下的人脸识别图像（多幅图像）视频图像图像一图像（多幅图像）图像一视频视频视频一图像（多幅图像）视频一视频其中“图像一图像（多幅图像）”人脸识别就是传统的基于静止图像的人脸识别S】.而“图像一视频，人脸识别是指利用人脸图像作为输入采用视频人脸数据库进行识别或验证.通常的应用领域是基于人脸的视频信息检索.本文重点介绍的基于视频的人脸识别主要是指后面两种情况，即“视频一图像（多幅图像）”人脸识别种视频一视频”人脸识别.“视频一图像（多幅图像）”人脸识别是指输入（查询）一段人脸视频，利用静止图像人脸数据库进行识别或验证.“视频一视频”人脸识别是指输入和数据库都利用视频进行人脸识别或验证.相对于前面三种情况，“视频一视频”人脸识别可以利用的信息最多.视频中可以利用的信息包括怛多幅同一个人的人脸图像，视频中人脸在时间和空间上的连续性，利用视频生成的三维（3D）人脸模型等.需要强调的是本文这样分类的目的是为了能够对整个人脸识别领域的研究现状有一个宏观上的认识，并区分不同情况下的人脸识别.事实上不同情况下人脸识别采用的技术可以是相同的，例如对所有人脸视频序列的处理是按照某种规则（如大小、姿态、清晰度等）提取一张人脸图像，则上面的情况都可以采用基于静止图像的人脸识别技术.本文首先对现阶段基于视频的人脸识别研究现状进行了详细的分析和讨论，接着介绍了常用的视频人脸数据库和实验结果，最后展望了未来的发展方向.本文假设己经得到图像或者视频中需识别人脸的位置.对静止图像中人脸的定位可参见文献23-24,对视频中人脸的定位和分割可参见文献25.3基于视频的人脸识别根据上一节的讨论，下面把基于视频的人脸识别分成“视频一图像（多幅图像）”人脸识别和“视频视频”人脸识别两种情况分别给予综述.3.1 “视频一图像（多幅图像）”人脸识别“视频一图像（多幅图像）”人脸识别是指采用人脸视频作为输入（查询）利用静止图像人脸数据库进行识别或验证.由于现有的大部分人脸数据库都是静止图像人脸数据库，如何充分利用视频中的人脸信息更好地进行人脸识别是现阶段迫切需要解决的问题.解决这类问题的传统做法26Z可以分成两大类：一类方法对输入视频中的人脸进行跟踪，寻找满足一定规则（如大小、姿态、清晰度等）的人脸图像，然后利用基于静止图像的人脸识别方法.这类方法的缺点是规则很难定义，并且没有最大限度地利用人脸视频中的时间和空间连续信息.另一类方法利用视频中的空间信息进行人脸识别.通过对输入视频中每一幅人脸或者若干幅人脸采用基于静止图像的人脸识别方法g】，利用各种联合规则列（如多数投票或者概率/距离累加等方法）再进行最终的识别.这类方法的缺点是联合规则常有相当的随机性凶.近年来，一些研究者开始利用视频中人脸的时间和空间连续信息进行识别.文献10讨论了在贝叶斯理论的框架下统一解决人脸识别和跟踪问题.采用时间序列模型刻画人脸的动态变化，把身份变量和运动矢量作为状态变量从而引进时间和空间的信息.利用序贯重要度采样（Sequential Importance Sampling, SIS）的方法有效估计出身份变量和运动矢量的联合后验概率分布，通过边缘化提取出身份变量的概率分布.实验结果表明该算法的有效性.不过当姿态变化时识别率只有57%. 之所以出现姿态变化时识别率低的原因是对时间连续性的利用体现在人脸外观一致上，而随着光照或姿态的变化会导致外观的明显不同.因此文献in进一步提出了日适应外观变化模型并且采用a 适应运动模型更准确地处理姿态的变化.并且对运动模型中噪声的方差和采样算法中的粒子数根据计算得到外观模型的误差进行更新.采用鲁棒统计学(robust statistics)处理脸部遮挡问题.利用基于贝叶斯人脸识别方法的似然函数进行权重更新使得整个算法更加有效.文献31, 32通过对输入视频中人脸的脸部特征或外观的跟踪进行人脸验证.基本思想是，如果是正确的输入(对应数据库中要验证的人脸)，则跟踪的轨迹基本一致；而如果是不正确的输入，则跟踪轨迹没有规律性.相应的数学模型就是考虑所得到的运动矢量分布，如果呈现尖峰(一致的运动参数)则认为是正确的人脸.如果没有呈现尖峰，而是类似均匀分布，则认为是错误的人脸.上述方法中都采用贝叶斯理论引进了时间信息，极大的提高了识别率.并且采用序贯重要度采样克服非高斯分布和非线性系统带来的难以估计概率密度的问题.但是估计概率密度需要大量的粒子，导致其计算量比较大.3.2 “视频一视频”人脸识别“视频一视频”人脸识别是指输入和数据库中的人脸均是以视频的形式存在.大量的文献对如何同时利用输入和数据库中的人脸视频进行了深入的研究.现有文献中对视频中人脸信息的描述方式总结起来有下面儿种：(1) 利用一幅代表性的图像得到的特征(矢量表示)，如主成分分析(PCA)降维后的矢量等；(2) 利用所有图像得到的特征(矩阵表示)，如特征空间，示例(exemplar)等；(3) 利用概率密度函数刻画视频中的人脸分布，如高斯模型等；(4) 利用动态模型刻的视频中人脸随时间的动态变化，如隐马尔可夫模型等；(5) 利用流形(manifold)刻1而视频中的人脸分布，如分段线性PCA子空间等.上述各种描述方式(矢量、矩阵、概率密度、动态模型、流形)之间可能的度量如表2所示：表2描述方式之间的度量据库矢量(X)矩阵(X)概率密度(D动态模型(D)流形W)矢量(X)d(x, x)d(x, X)D(x)M(x)矩阵(X)d(X, x)d(X, X)D(X)M(X)概率密度(/)f(X)动态模型(。)D(x)D(X)d(D, D)d(D, M)流形例M(x)MX)t/(K D)表2中d代表两个模型之间的距离或相似度,g代表概率/距离累加或多数投票,。0)代表各帧后验概率.下面按照对输入描述方式的不同，分成矢量、矩阵、概率、动态模型、流形五个小节分别给予介绍.3.2.1矢量利用矢量作为输入描述方式的基本思想是利用视频得到一个反映输入人脸视频特性(如均值人脸图像，最好的正面图像等)的特征(矢量表示)，和数据库中的人脸视频描述方式进行匹配.数据库中人脸视频的描述方式可以是矢量、矩阵、概率、动态模型、流形等.文献33对数据库中的每类人脸建立一个PCA子空间，利用与各个人脸了空间的距离对输入视频中的所有人脸进行标注.文献34介绍了一种基于视频的人脸验证方法，采用形状和归一化纹理的联合外观模型(Active Appearance Model, AAM)来表示人脸，通过加入类别信息的改进线性鉴别分析(Linear Discriminant Analysis, LDA)分离出身份变量(identity)和其他变化因素(姿态、光照和表情). 采用卡尔曼波波器(Kalman filter)对身份变景进行跟踪得到的稳定值就是身份稳定估计量.人脸验证就可以通过对输入人脸视频进行跟踪得到的估计量和数据库得到的身份估计量进行比较看是否大于某个阈值来实现.与基于静止图像的人脸验证方法相比，采用基于视频的人脸验证能利用更多的信息，效果更好.算法采用ASM(Active Shape Model)进行人脸定位可以避免误配准带来的影响.但是一旦定位不准，则对后继的参数跟踪会产生很大的误差，导致识别率下降.并且对于达到稳定估计值需要的视频长度无法计算和估计.另一个借助视觉约束的人脸跟踪和识别方法可见文献35.3.2.2矩阵采用矩阵作为输入描述方式进行人脸识别的算法可以分成两类，一类是利用得到的特征(矩阵表示)逐个与数据库中的人脸描述方式进行比较(相当于每次取出矩阵的一行或者一列)，然后利用多数投票或者概率(距离)累加最大的方法进行识别.另一类是把得到的特征(矩阵表示)看成一个整体和数据库中的人脸描述方式进行比较.相对于前面一种方法，后者采用矩阵作为整体更能利用视频的空间连续信息.数据库中人脸视频的描述方式可以是矢量、矩阵、概率、动态模型、流形等.文献36采用总体PCA方法进行降维，在低维空间中采用混合高斯模型(Gaussian mixture model, GMM)来表不数据库中每个人脸.通过计算输入视频中每一帧人脸的后