资源预览内容
第1页 / 共7页
第2页 / 共7页
第3页 / 共7页
第4页 / 共7页
第5页 / 共7页
第6页 / 共7页
第7页 / 共7页
亲,该文档总共7页全部预览完了,如果喜欢就下载吧!
资源描述
第 27 卷 第 11 期 计算机辅助设计与图形学学报 Vol. 27 No.11 2015 年 11 月 Journal of Computer-Aided Design 修回日期: 2015-09-23. 基金项目: 国家自然科学基金(61379103, 61303185); 国家自然科学基金杰青基金(61125201). 谢智歌(1984), 男, 博士研究生, 主要研究方向为计算机图形学、机器学习; 王岳青(1988), 男, 博士研究生, 主要研究方向为高性能计算、深度学习; 窦 勇(1966), 男, 博士, 教授, 博士生导师, 主要研究方向为高性能计算、可重构计算、机器学习; 熊岳山(1963), 男, 博士, 教授, 博士生导师, 主要研究方向为虚拟现实、计算机图形学. 基于卷积-自动编码机的三维形状特征学习 谢智歌1), 王岳青2), 窦 勇2), 熊岳山1) 1) (国防科学技术大学计算机学院 长沙 410073) 2) (国防科学技术大学并行与分布处理国家重点实验室 长沙 410073) (zhigexie163.com) 摘 要: 三维形状特征在三维物体分类、 检索和语义分析中起着关键的作用. 传统的三维特征设计过程繁复, 而且不能从已有的大量三维数据中自动学习而得. 在深度神经网络的研究领域中, 卷积神经网络和自动编码机是比较流行的 2 种网络结构. 在超限学习机的框架之下, 将两者结合起来, 提出一种基于卷积-自动编码机的三维特征自动学习方法. 实验结果表明, 文中方法的特征学习速度比其他深度学习方法提高约2个数量级, 且提取的特征在三维模型分类、三维物体检测等任务中都取得了良好的结果. 关键词:卷积神经网络; 自动编码机; 超限学习机; 三维特征提取 中图法分类号:TP391.41 3D Feature Learning via Convolutional Auto-Encoder Extreme Learning Machine Xie Zhige1), Wang Yueqing2), Dou Yong2), and Xiong Yueshan1) 1) (School of Computer Science, National University of Defense Technology, Changsha 410073) 2) (Science and Technology on Parallel and Distributed Processing Laboratory, National University of Defense Technology, Changsha 410073) Abstract: 3D shape features play a crucial role in graphics applications like 3D shape matching, recognition, and retrieval. Traditional 3D descriptors are hand-crafted features which are labor-intensively designed and are unable to extract discriminative information from existing large-scale 3D data. Convolutional neuron networks and auto-encoders are two most popular neuron networks in the field of deep learning. Based on the framework of extreme learning machines, we propose a rapid 3D feature learning methodconvolutional extreme learning machine auto-encoder, which could automatically learn shape features from 3D shape dataset. Our method runs faster than existing deep learning methods by approximately two orders of magnitude. Experiments show that our method is superior to traditional machine learning methods based on hand-crafted features and other deep learning methods in tasks of 3D shape classification and 3D object detection. Key words: convolutional neuron networks; auto-encoders; extreme learning machines(ELM); 3D feature learning 近年来, 随着三维扫描技术和虚拟现实技术的发展, 三维模型的数量和质量不断提高. 如何对数量庞大的三维模型进行处理、分析和理解, 已经成为数字几何领域研究的焦点. 而其中的核心难题是三维形状的特征提取. 传统的人工设计三维特征设计过程繁复、提取过程耗时, 而且很难从 第 11 期 谢智歌, 等: 基于卷积-自动编码机的三维形状特征学习 2059 大数据量的三维数据中自动获取. 近年来, 深度学习成为机器学习和计算机视觉中的研究热点. 卷积神经网络是当前最为流行的深度神经网络, 以其广泛的适应能力和较强的竞争力而闻名于世, 并在图像分类、物体检测、人脸识别、视频事件监测、 人体行为识别等任务上取得了相当好的结果1. 自动编码机是一种无监督的神经网络, 其目的在于尽可能重构输入信号. 为此, 自动编码机就必须捕捉可以代表输入数据的最重要的特征, 将数据中最重要的部分提取出来. 本文在超限学习机(extreme learning machines, ELM)的框架之下, 将卷积神经网络和自动编码机结合起来, 提出一种新的基于卷积-自动编码机的三维特征提取方法. 实验结果表明, 本文提出的方法集合了两者的优点, 具有训练速度快、表达能力强等良好性质, 且在三维模型分类、三维物体检测等任务中都取得了良好的结果. 1 相关工作 1.1 深度学习与三维形状的特征学习 1.1.1 深度学习 机器学习算法的成功源于数据的特征表示1.特征表示能够反映数据的本质属性和数据之间的相互关系. 数十年来, 针对一个新问题或者一个新的数据集, 通常需要人工设计一种新的特征表示. 但是随着三维数据的数据量和数据的复杂程度不断增加, 这种做法显然不是最合理的选择. 因此, 通过机器学习算法自身能够学习出最适合的特征表示, 已成为研究者追求的目标. 在这股研究浪潮中, 深度神经网络成为其中的佼佼者, 其神经元的可视化在一定程度上反映了其特征表示. 研究者不断提出不同的深度神经网络结构来进行特征学习, 其中以卷积神经网络(convolutional neural network, CNN)2, 深度自动编码机网络(deep auto-encoder networks)3, 深度置信网络(deep belief nets, DBN)4等为典型代表. 1.1.2 基于深度学习的三维特征提取 基于深度学习的方法对三维形状进行特征学习, 是图形学和计算机视觉中最新的研究热点. Wu等5将三维模型的体素化作为神经网络的输入, 且使用三维深度置信网络(DBN)4作为训练模型. 他们的方法在 Princeton ModelNet5上取得了良好的效果. 但是他们的深度神经网络将降采样的操作去除, 故不能处理三维模型的大范围旋转不变性. Zhu 等6利用自动编码机基于深度图像进行三维特征学习; 但是, 他们的方法需要在后期加入人工经验设计的二维图像特征(SIFT)才能较好地完成三维模型分类任务. 1.2 基于 ELM 的特征学习 黄广斌等分别研究了基于 ELM 的自动编码机7和基于局部感受野的 ELM8种具有特征学习能力的前馈神经网络. 下面我们将对这种工作简要做概述. 1.2.1 基于局部感受野的 ELM 基于局部感受野的 ELM(简称 ELM-LRF)8的学习过程主要包含以下几个过程. 第一阶段是局部感受野阶段: 在随机生成卷积核之后进行特征映射(卷积操作). 第二阶段是降采样: 与文献2类似, 该阶段也是通过对第一阶段产生的特征图进行降采样操作的. 第三阶段是特征学习: 这一个阶段与传统的 ELM 的特征学习阶段类似, 即网络的最后一层隐含层与最终输出层之间的权值是通过最小二乘方法来进行求解的. 1.2.2 基于 ELM 的自动编码机 Chamara 等7提出了将前馈神经网络的输出矩阵作为该神经网络的输入, 然后利用经典的最小二乘方法求解自动编码机的权值, 称之为基于ELM 的自动编码机. 测试时将权值应用到测试实例之上, 得到自动编码过后的特征. 随后, 再利用基本的 ELM进行分类. 基于ELM的自动编码机在数字手写数据库 MNIST 之上取得了良好的分类效果, 同时训练速度提高非常多. 2 基于 ELM 的卷积-自动编码机 本节将详细介绍基于 ELM 的卷积-自动编码机算法(convolutional auto-encoders based extreme learning machines, CAE-ELM). 2.1 CAE-ELM 算法概述 Masci 等9将 CNN 和自动编码机结合起来进行特征学习, 将 CNN 和自动编码机结合在一个迭代求解的优化方程之中, 因此他们的算法速度很慢. 这显然不能满足三维数据高维性、复杂性的 要求. 为了能够应对大规模三维特征学习的挑战, 利用ELM训练速度快的特点, 同时将卷积ELM的局部不变性和自动编码机良好的表达能力结合2060 计算机辅助设计与图形学学报 第 27 卷 在一起, 本文提出基于卷积-自动编码机的特征提取方法. 图 1 所示为基于 ELM 的卷积-自动编码机(CAE-ELM)的网络结构图. 为了图示的简洁性, 该图所示的是输入为二维图像时的情形; 输入为三维物体时, 网络结构与此类似. 图 1 基于 ELM 的卷积-自动编码机的网络结构图 CAE-ELM 的训练分为个阶段: 1) 卷积特征映射阶段. 生成随机的卷积核后, 对输入数据进行卷积和降采样操作, 最终生成该阶段的卷积特征映射. 2) 自动编码机的训练阶段. 首先, 生成随机的自动编码机神经元的初始权值; 然后, 将自动编码机的输入和输出都设置为上一阶段生成的卷积特征映射; 最后, 利用最小二乘方法求解最后一层网络和最终输出层之间的权值, 从而完成整个CAE-ELM 的训练过程. 2.2 CAE-ELM 的具体实现和详细步骤 CAE-ELM针对二维图像和三维模型具有相同的网络结构. 当输入为二维图像时, CAE-ELM 的输入是原始图像, 且其中的卷积和降采样的操作是在二维空间内进行的, 自动编码机部分也是基于多个二维特征映射进行权值学习的. 当输入为三维模型时, 我们首先将三维模型进行体素化, 并将这些体素化矩阵作为 CAE-ELM的输入, 且其中的卷积和降采样的操作是在三维空间内进行的, 自动编码机部分也是基于多个三维特征映射进行权值学习的; 其余的细节如网络结构、 层与层之间的关系以及卷积层和自动编码机之间的关系等, 二维图像和三维模型均相似. 下面将着重对三维模型作为输
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号