卷积神经网络-刘海波20153018-

卷集神经网络用于图像处理I摘要摘要图像处理有着很悠久的发展史，卷积神经网络是一种特殊的深层的神经网络模型,最适合用来做图像处理。它是将 BP 和深度学习技术相结合而产生的一种新型 BP 方法,具有局部感受区域、层次结构化、特征提取和分类过程结合的全局训练的特点,在图像识别领域获得了广泛的应用。卷积神经网络的特殊性体现在两个方面,一方面它的神经元之间的连接是非全连接的,另一方面同一层中某些神经元之间的连接的权重是共享的,这种非全连接和权值共享的网络结构降低了网络模型的复杂度,减少了权值的数量,这种网络结构对平移、旋转、倾斜、比例缩放等具有高度不变性。本文介绍了卷集神经网络的基本理论及特征，总结了其在图像处理方向的应用，最后对卷积神经网络在图像处理方向的应用进行了总结和展望。关键字关键字图像处理卷集神经网络 BP卷集神经网络用于图像处理II目录目录1 卷积神经网络发展历程 .12 卷积神经网络理论及性质 .22.1 主要的滤波器.22.2 反向传播 BP .52.3 卷积神经网络的性质.73 卷集神经网络在图像处理中的应用.83.1 手写数字识别.83.2 ImageNet 图像分类.123.3 医学图像分割.133.4 树叶病情检测.143.5 谷歌围棋 AlphaGo 战胜人类.154 滤波器可视化.175 总结和展望.20参考文献.22卷集神经网络用于图像处理11 卷积神经网络发展历程卷积神经网络发展历程卷积神经网络（CNN）是一种特殊的深层的神经网络模型,它是将 BP 和深度学习网络相结合而产生的新型 BP。卷积神经网络是受视觉神经网络机制的启发而设计的,1962 年,惭 bel 和 Wieseip 刮对猫视觉皮层细胞研究,提出了基于猫视觉皮层的结构模型,首次提出了感受野的概念,这些视觉皮层只对输入空间的很小部分区域敏感。1984年,Fukushima 提出了神经认知机(neocognitron)模型,它是卷积神经网络的第一个实现,它包括两类神经元,用于特征提取的采样元和用于抗变形的卷积元。采样元有感受野和阔值两个参数,感受野是为了确定连接单元的数目,阀值则是为了控制对特征子模式的反应程度。Fukushima 主要将神经认知机用于手写数字的识别。LeCun 等人设计并采用基于误差梯度的算法训练卷积神经网络,并且将它应用于手写数字的识别。这是卷积神经网络领域的一个重大突破。现在,我们通常说的卷积神经网络都和 LeCun 提出的卷积网络很类似。LeCun 当时提出的模型一般称为 LeNet-1,目前最新的版本是 LeNet-5。卷积神经网络是为了识别二维形状而设汁的多层感知器,具有局部感受,层次结构、特征提取和分类过程结合的全局训练的特点。这种网络结构可对平移、旋转、比例缩放、倾斜或者其他形式的变形具有高度不变性。卷积神经网络已经成为应用到了文档分析、语音识别、车牌识别、手写数字识别,人脸特征点的检测各个方面。卷集神经网络用于图像处理2CNN 是一个神奇的深度学习框架，也是深度学习学科里的一个异类。在被誉为 AI 寒冬的 90 年末到 2000 年初，在大部分学者都弃坑的情况下，CNN 的效用却不减反增，感谢 Yann LeCun！CNN 的架构其实很符合其名，Convolutional Neural Network，CNN 在运做的开始运用了卷积（convolution）的概念，外加 pooling 等方式在多次卷积了图像并形成多个特征图后，输入被平铺开进入一个完全连接的多层神经网络里（fully connected network）里，并由输出的 softmax来判断图片的分类情况。该框架的发展史也很有趣，早在 90 年代末，以 LeCun 命名的 Le-Net5 就已经闻名。在深度学习火热后，更多的框架变种也接踵而至，较为闻名的包括多伦多大学的 AlexNet，谷歌的 GoogLeNet，牛津的 OxfordNet 外还有 Network in Network（NIN），VGG16 等多个 network。最近，对物体识别的研究开发了 RCNN 框架，可见在深度学习发展迅猛的今天，CNN 框架依然是很多著名研究小组的课题，特别是在了解了 Alpha-Go 的运作里也可以看到 CNN 的身影，可见其能力！2 卷积神经网络理论及性质卷积神经网络理论及性质2.1 主要的滤波器主要的滤波器卷积神经网络是一个多层的神经网络，每层都是一个变换（映射），常用卷积 convention 变换和 pooling 池化变换，每种变换都是对输入卷集神经网络用于图像处理3数据的一种处理，是输入特征的另一种特征表达；每层由多个二维平面组成，每个平面为各层处理后的特征图（feature map）。2.1 卷积神经网络结构图输入层为训练数据，即原始数据，网络中的每一个特征提取层（C-层）都紧跟着一个二次提取的计算层（S-层），这种特有的两次特征提取结构使网络在识别时对输入样本有较高的畸变容忍能力。具体 C 层和 S 层的个数不确定，依据具体案例而定；最后一个 S，即完成了对原始数据的特征提取后，把 S 层的特征数据进行向量化（vector），然后连接到相应分类器。一个具有 7 层网络结构的字母识别的 CNN 网络。卷积操作：用一个滤波器（就是一个小特征矩阵，也称卷积核）在图像矩阵上游走，在对应位置元素相乘，再把相乘的结果相加，最后相加的结果形成新的图像矩阵，游走完成后即完成了对原始图像的卷积变换（映射变换），形成此滤波器下的特征提取。C 层是一个特征提取层，为什么用卷积运算；卷积运算一个重要的特点就是，通过卷积运算，可以使原信号特征增强，并且降低噪卷集神经网络用于图像处理4音；例如用增强边缘的卷积去处理图像，处理后的图像边缘特征增强。S-层可看作是模糊滤波器，起到二次特征提取的作用。S 层又叫做 subsample 层，子采样层或者 pooling（池化）层。在通过卷积获得了特征 (features)之后，下一步我们希望利用这些特征去做分类。理论上讲，人们可以用所有提取得到的特征去训练分类器，例如 softmax 分类器，但这样做面临计算量的挑战。例如：对于一个 96X96 像素的图像，假设我们已经学习得到了 400 个定义在 8X8 输入上的特征，每一个特征和图像卷积都会得到一个 (96 ? 8 + 1) * (96 ? 8 + 1) = 7921 维的卷积特征，由于有 400 个特征，所以每个样例 (example)都会得到一个 892 *400 = 3,168,400 维的卷积特征向量。学习一个拥有超过 3 百万特征输入的分类器十分不便，并且容易出现过拟合 (over-fitting)。为了解决这个问题，首先回忆一下，我们之所以决定使用卷积后的特征是因为图像具有一种“静态性”的属性，这也就意味着在一个图像区域有用的特征极有可能在另一个区域同样适用。因此，为了描述大的图像，一个很自然的想法就是对不同位置的特征进行聚合统计，例如，人们可以计算图像一个区域上的某个特定特征的平均值 (或最大值)。这些概要统计特征不仅具有低得多的维度 (相比使用所有提取得到的特征)，同时还会改善结果(不容易过拟合)。这种聚合的操作就叫做池化 (pooling)，有时也称为平均池化或者最大池化 (取决于计算池化的方法)。卷集神经网络用于图像处理52.2 反向传播反向传播 BP反向传播（Back Propagation）在神经网络中是一个非常重要的部分。它的主要作用是最小化误差函数，也就是提高神经网络的准确性。和在线性回归和逻辑回归中一样，我们采用梯度下降(Gradient descent)法来最优化误差函数。其误差函数为：（2.1）在梯度下降的过程中，需要计算每个的偏导数，并用来更新参数自身：（2.2）用一个样本来说明如何进行反向传播。假设神经网络如下图所示：2.2 卷积神经网络层图假如有一个样本 (x,y) 首先，我们需要进行前向传播，也就是计算预测值：（2.3）卷集神经网络用于图像处理6（2.4）接下来，为了使用梯度下降法来最小化误差函数，我们需要计算出每个参数参数偏导数，我们就得使用反向传播算法。BP 就是模拟人思维的第二种方式。这是一个非线性动力学系统，其特色在于信息的分布式存储和并行协同处理。虽然单个神经元的结构极其简单，功能有限，但大量神经元构成的网络系统所能实现的行为却是极其丰富多彩的。BP 首先要以一定的学习准则进行学习，然后才能工作。现以 BP对手写“A” 、 “B”两个字母的识别为例进行说明，规定当“A”输入网络时，应该输出“1” ，而当输入为“B”时，输出为“0” 。所以网络学习的准则应该是：如果网络作出错误的的判决，则通过网络的学习，应使得网络减少下次犯同样错误的可能性。首先，给网络的各连接权值赋予(0，1)区间内的随机值，将“A”所对应的图象模式输入给网络，网络将输入模式加权求和、与门限比较、再进行非线性运算，得到网络的输出。在此情况下，网络输出为“1”和“0”的概率各为 50%，也就是说是完全随机的。这时如果输出为“1”(结果正确)，则使连接权值增大，以便使网络再次遇到“A”模式输入时，仍然能作出正确的判断。如果输出为“0”(即结果错误)，则把网络连接权值朝着减小综合输入加权值的方向调整，其目的在于使网络下次再遇到“A”模式输卷集神经网络用于图像处理7入时，减小犯同样错误的可能性。如此操作调整，当给网络轮番输入若干个手写字母“A” 、 “B”后，经过网络按以上学习方法进行若干次学习后，网络判断的正确率将大大提高。这说明网络对这两个模式的学习已经获得了成功，它已将这两个模式分布地记忆在网络的各个连接权值上。当网络再次遇到其中任何一个模式时，能够作出迅速、准确的判断和识别。一般说来，网络中所含的神经元个数越多，则它能