卷积神经网络--论文版-

卷积神经网络摘要：卷积神经网络是近年来广泛应用于模式识别、图像处理等领域的一种高效识别算法，它具有结构简单、训练参数少和适应性强等特点。本文从卷积神经网络的发展历史开始，详细阐述了卷积神经网络的网络结构、神经元模型和训练算法。在此基础上以卷积神经网络在人脸检测和形状识别方面的应用为例，简单介绍了卷积神经网络在工程上的应用，并给出了设计思路和网络结构。关键字：模型；结构；训练算法；人脸检测；形状识别Convolution Neural NetworkAbstract:Convolution neural network is an efficient recognition algorithm which is widely used in pattern recognition, image processing and other fields recent years.It has a simple structure, few training parameters and good adaptability and other advantages. In this paper, begin with the history of convolutional neural networks,describes the structure of convolutional neural network,neuron models and training algorithms in detail. On this basis,uses the applications of convolutional neural network in face detection and shape recognition as examples, introduces the applications of convolution neural network in engineering, and gives design ideas and network structure.Keywords：Model; Training Algorithm; Advantage; Face detection; Shape recognition0 引言卷积神经网络是人工神经网络的一种已成为当前语音分析和图像识别领域的研究热点，它的权值共享网络结构使之更类似于生物神经网络，降低了网络模型的复杂度，减少了权值的数量。该优点在网络的输入是多维图像时表现的更为明显，使图像可以直接作为网络的输入，避免了传统识别算法中复杂的特征提取和数据重建过程。卷积网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。 1 卷积神经网络的发展历史 1962年Hubel和Wiesel通过对猫视觉皮层细胞的研究，提出了感受野(receptive field)的概念，1984年日本学者Fukushima基于感受野概念提出的神经认知机(neocognitron)可以看作是卷积神经网络的第一个实现网络，也是感受野概念在人工神经网络领域的首次应用。神经认知机将一个视觉模式分解成许多子模式(特征)，然后进入分层递阶式相连的特征平面进行处理，它试图将视觉系统模型化，使其能够在即使物体有位移或轻微变形的时候，也能完成识别。神经认知机能够利用位移恒定能力从激励模式中学习，并且可识别这些模式的变化形，在其后的应用研究中，Fukushima将神经认知机主要用于手写数字的识别。随后，国内外的研究人员提出多种卷积神经网络形式，在邮政编码识别和人脸识别方面得到了大规模的应用。通常神经认知机包含两类神经元，即承担特征抽取的S-元和抗变形的C-元。S-元中涉及两个重要参数，即感受野与阈值参数，前者确定输入连接的数目，后者则控制对特征子模式的反应程度。许多学者一直致力于提高神经认知机的性能的研究：在传统的神经认知机中，每个S-元的感光区中由C-元带来的视觉模糊量呈正态分布。如果感光区的边缘所产生的模糊效果要比中央来得大，S-元将会接受这种非正态模糊所导致的更大的变形容忍性。我们希望得到的是，训练模式与变形刺激模式在感受野的边缘与其中心所产生的效果之间的差异变得越来越大。为了有效地形成这种非正态模糊，Fukushima提出了带双C-元层的改进型神经认知机。Trotin 等人提出了动态构造神经认知机并自动降低闭值的方法1，初始态的神经认知机各层的神经元数目设为零，然后会对于给定的应用找到合适的网络规模。在构造网络过程中，利用一个反馈信号来预测降低阈值的效果，再基于这种预测来调节阈值。他们指出这种自动阈值调节后的识别率与手工设置阈值的识别率相若，然而，上述反馈信号的具体机制并未给出，并且在他们后来的研究中承认这种自动阈值调节是很困难的【8】。Hildebrandt将神经认知机看作是一种线性相关分类器，也通过修改阈值以使神经认知机成为最优的分类器。Lovell应用Hildebrandt的训练方法却没有成功。对此，Hildebrandt解释的是，该方法只能应用于输出层，而不能应用于网络的每一层。事实上，Hildebrandt没有考虑信息在网络传播中会逐层丢失。Van Ooyen和Niehuis为提高神经认知机的区别能力引入了一个新的参数。事实上，该参数作为一种抑制信号，抑制了神经元对重复激励特征的激励。多数神经网络在权值中记忆训练信息。根据Hebb学习规则，某种特征训练的次数越多，在以后的识别过程中就越容易被检测。也有学者将进化计算理论与神经认知机结合【9】，通过减弱对重复性激励特征的训练学习，而使得网络注意那些不同的特征以助于提高区分能力。上述都是神经认知机的发展过程，而卷积神经网络可看作是神经认知机的推广形式，神经认知机是卷积神经网络的一种特例。卷积神经网络本身可采用不同的神经元和学习规则的组合形式。其中一种方法是采用M-P神经元和BP学习规则的组合，常用于邮政编码识别中。还有一种是先归一化卷积神经网络，然后神经元计算出用输入信号将权值和归一化处理后的值，再单独训练每个隐层得到权值，最后获胜的神经元输出活性，这个方法在处理二值数字图像时比较可行，但没有在大数据库中得到验证。第三种方法综合前两种方法的优势，即采用McCulloch-Pitts神经元代替复杂的基于神经认知机的神经元。在该方法中，网络的隐层和神经认知机一样，是一层一层训练的，但是回避了耗时的误差反向传播算法。这种神经网络被称为改进的神经认知机。随后神经认知机和改进的神经认知机作为卷积神经网络的例子，广泛用于各种识别任务中，比如大数据库的人脸识别和数字识别。下面详细介绍卷积神经网络的原理、网络结构及训练算法。2 卷积神经网络 2.1 网络结构卷积神经网络是一个多层的神经网络，每层由多个二维平面组成，而每个平面由多个独立神经元组成。网络中包含一些简单元和复杂元，分别记为S-元和C-元。S-元聚合在一起组成S-面，S-面聚合在一起组成S-层，用Us表示。C-元、C-面和C-层(Us)之间存在类似的关系。网络的任一中间级由S-层与C-层串接而成，而输入级只含一层，它直接接受二维视觉模式，样本特征提取步骤已嵌入到卷积神经网络模型的互联结构中。一般地，Us为特征提取层，每个神经元的输入与前一层的局部感受野相连，并提取该局部的特征，一旦该局部特征被提取后，它与其他特征间的位置关系也随之确定下来；Uc是特征映射层，网络的每个计算层由多个特征映射组成，每个特征映射为一个平面，平面上所有神经元的权值相等。特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数，使得特征映射具有位移不变性。此外，由于一个映射面上的神经元共享权值，因而减少了网络自由参数的个数，降低了网络参数选择的复杂度。卷积神经网络中的每一个特征提取层(S-层)都紧跟着一个用来求局部平均与二次提取的计算层(C-层)，这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力【10】。网络中神经元的输出连接值符合“最大值检出假说”【15】，即在某一小区域内存在的一个神经元集合中，只有输出最大的神经元才强化输出连接值。所以若神经元近旁存在有输出比其更强的神经元时，其输出连接值将不被强化。根据上述假说，就限定了只有一个神经元会发生强化。卷积神经网络的种元就是某S-面上最大输出的S-元，它不仅可以使其自身强化，而且还控制了邻近元的强化结果。因而，所有的S-元渐渐提取了几乎所有位置上相同的特征。在卷积神经网络早期研究中占主导的无监督学习中，训练一种模式时需花费相当长的时间去自动搜索一层上所有元中具有最大输出的种元，而现在的有监督学习方式中，训练模式同它们的种元皆由教师设定。图1是文献12中卷积神经网络的典型结构图。将原始图像直接输入到输入层(Uc1)，原始图像的大小决定了输入向量的尺寸，神经元提取图像的局部特征，因此每个神经元都与前一层的局部感受野相连。文中使用了4层网络结构，隐层由S-层和C-层组成。每层均包含多个平面，输入层直接映射到Us2层包含的多个平面上。每层中各平面的神经元提取图像中特定区域的局部特征，如边缘特征，方向特征等，在训练时不断修正S-层神经元的权值。同一平面上的神经元权值相同，这样可以有相同程度的位移、旋转不变性。S-层中每个神经元局部输入窗口的大小均为5x5，由于同一个平面上的神经元共享一个权值向量，所以从一个平面到下一个平面的映射可以看作是作卷积运算，S-层可看作是模糊滤波器，起到二次特征提取的作用。隐层与隐层之间空间分辨率递减，而每层所含的平面数递增，这样可用于检测更多的特征信息。图1 卷积神经网络结构图Fig.1 The structure of convolutional neural network2.2 神经元模型在卷积神经网络中，只有S-元间的输入连接是可变的，而其他元的输入连接是固定的。用Usl（kl，n）表示第l级，第kl个S-面上，一个S-元的输出，用Ucl(kl，n)表示在该级第kl个C-面上一个C-元的输出。其中，n是一个二维坐标，代表输入层中神经元的感受野所在位置，在第一级，感受野的面积较小，随后随着l的增大而增加。 (2.1)式(2.1)中al（v，kl-1，k）和bl(k)分别表示兴奋性输入和抑制性输入的连接系数；rl(k)控制特征提取的选择性，其值越大，对噪音和特征畸变的容错性越差，它是一常量，它控制着位于每一S-层处的单个抑制子平面中每个神经元的输入: rl(k)的值越大，与抑制性成比例的兴奋性就得越大，以便能产生一个非零输出，换句话说就是相当好的匹配才一能激活神经元，然而因为rl(k)还需乘以()，所以rl值越大就能产生越大的输出，相反，小的rl(k)值允许不太匹配的神经元兴奋，但它只能产生一个比较小的输出；(x)为非线性函数。v是一个矢量，表示处于n感受野中的前层神经元n的相对位置，Al确定S神经元要提取特征的大小，代表n的感受野。所以式中对v的求和也就包含了指定区域当中所有的神经元；外面对于勺kl-1的求和，也就包含了前一级的所有子平面，因此在分子中的求和项有时也被称作兴奋项，实际上为乘积的和，输入到n的神经元的输出都乘上它们相应的权值然后再输出到nc。 (2.2)式(2.2)表示的是指定某级(第l级)、某层(S-层)、某面(第kl个S-面)、某元(向量为n处)的一个输出。对于一个S-元的作用函数可分为两部分，即兴奋性作用函数和抑制性作用函数。兴奋性作用使得膜电位上升，而抑制性作用起分流作用。兴奋性作用为： (2.3) S-