资源预览内容
第1页 / 共54页
第2页 / 共54页
第3页 / 共54页
第4页 / 共54页
第5页 / 共54页
第6页 / 共54页
第7页 / 共54页
第8页 / 共54页
第9页 / 共54页
第10页 / 共54页
亲,该文档总共54页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
人工神经网络及其应用人工神经网络及其应用第七讲第七讲 深度学习深度学习主讲人:方涛主讲人:方涛1知识材料第第七七讲讲深度学习深度学习主讲内容主讲内容7 7.1 .1 研究背景研究背景7 7.2 .2 从从BP网络看深度学习网络看深度学习7 7. .3 3 几种典型的深度学习模型几种典型的深度学习模型7 7. .4 4 开源深度学习框架开源深度学习框架7 7. .5 5 深度学习的未来深度学习的未来2知识材料7.1 研究背景约翰约翰 麦卡锡(麦卡锡(1927-20111927-2011)LISP之父不走寻常路的常识逻辑学家1956年,约翰.麦卡锡召集了一次会议来讨论人工智能未来的发展方向,开启了AI的发展2016年-人工智能(AI)奠基60周年21世纪初,“深度学习”的出现,AI研究获得了长足的进步没有大数据,没有“大计算”,就没有人工智能的今天!3知识材料Marvin Minsky人工智能之父和框架理论的创立者1927-20161927-2016MITAILab创始人之一1970年获得图灵奖美国工程院和美国科学院院士在近60年的人工智能历史中,马文-明斯基一直是一位闪耀着耀眼光彩的杰出的人工智能权威,是当之无愧的人工智能之父。(李德毅院士)明斯基在1950年进入普林斯顿大学攻读数学系的博士研究生学位,比我晚一年。我们很快意识到,我们两人都对人工智能很感兴趣。事实上,当时明斯基已经对如何实现人工智能颇有想法了,这一点在之后他设计和建造的世界上第一个神经网络模拟器第一个神经网络模拟器SnareSnare上得到了证实。 ( John McCarthy 人工智能先驱,LISP语言之父,图灵奖获得者)1969:Perceptron(感知器)-神经网络的局限性(深度学习的前身)7.1 研究背景4知识材料2016年,阿尔法狗(AlphaGo)4:1大胜围棋9段李世石高手,AI重大历史时刻“监督学习的策略网络(PolicyNetwork)”通过13层全连接网络,反复训练围棋棋盘布局,调整参数,以最佳概率预测落子选择(MovePicker),如何下棋子“价值网络(ValueNetwork)”给定棋子位置,预测每一个棋手赢棋的可能,就是计算局面7.1 研究背景主要设计者-位于伦敦位于伦敦GoogleGoogle旗下旗下DeepMindDeepMind公司公司大卫大卫席尔瓦席尔瓦 (David SilverDavid Silver)-剑桥大学计算机科学学士,硕士,加拿大阿尔伯塔大学计算机科学博士黄士杰(黄士杰(Aja HuangAja Huang),台湾交通大学计算机科学学士,台湾师范大学计算机科学硕士和博士,加拿大阿尔伯塔大学计算机科学博士后5知识材料7.1 研究背景Geoffrey E. Hinton加拿大多伦多大学教授专注于神经网络几十年,1985年,提出Boltzmann机1986年,提出受限Boltzmann机、BP算法2006年,提出神经网络进行降维开启了深度学习时代,并在随后的ImageNet图片识别的比赛,取得了非常有说服力的结果(74%-85%),震撼了学术界 Hinton, G. and Salakhutdinov, R. (2006). Reducing the dimensionality of data with neural networks.Science, 313(5786):504507. Hinton, G. E. (2002). Training products of experts by minimizing contrastive divergence. Neural Comp., 14(8):17711800 Hinton, G. E., Dayan, P., Frey, B. J., and Neal, R. M. (1995). The wake-sleep algorithm for unsupervised neural networks. Science, 268:11581160 Hinton, G. E. and Sejnowski, T. E. (1986). Learning and relearning in Boltzmann machines. In Parallel Distributed Processing, volume 1, pages 282317. MIT Press Rumelhart, Hinton, Williams, Learning Representations by Back-propagating errors, Nature, 1986,323(6088):533-5366知识材料Andrew Ng斯坦福大学教授2012年6月,纽约时报披露了GoogleBrain项目大规模计算机系统方面的世界顶尖专家JeffDean用16000个CPUCore的并行计算平台训练一种称为“深度神经网络”(DNN,DeepNeuralNetworks)的机器学习模型(内部共有10亿个节点)在语音识别和图像识别等领域获得了巨大的成功7.1 研究背景7知识材料2012年11月,微软公开演示全自动同声传译系统深度学习,讲演者用英文演讲,后台的计算机一气呵成自动完成语音识别、英中机器翻译和中文语音合成,效果非常流畅7.1 研究背景8知识材料2013年1月,百度创始人兼CEO李彦宏高调宣布成立“深度学习研究所”(IDL,InstitueofDeepLearning7.1 研究背景9知识材料机器学习解决目标识别与分类问题的思路三个主要组成部分中间的特征提取部分将很大程度上决定最终的效果,如何提取特征?“巧妇难为无米之炊”7.1 研究背景10知识材料SIFTHOGDoG+Gabor7.1 研究背景Sift被认为是局部图像特征描述子研究领域一项里程碑式的工作,对尺度、旋转以及一定视角和光照变化等图像变化都具有不变性,还SIFT具有很强的可区分性特征抽取非常费力,需要领域知识启发式提取最大的问题?-人工设计BOW11知识材料7.1 研究背景待检测图像行人模型图像金字塔适应目标尺度变化局部滤波器变形动态规划求解可变形部件模型行人检测12知识材料1981年的诺贝尔医学奖,颁发给了DavidHubel和TorstenWiesel(JohnHopkinsUniversity),以及RogerSperry。前两位的主要贡献,是“发现了视觉系统的信息处理”:可视皮层是分级的:这个发现激发了人们对于神经系统的进一步思考神经-中枢-大脑的工作过程,”或许”是一个不断迭代、不断抽象的过程7.1 研究背景人脑视觉系统如何提取特征?13知识材料关键在于抽象和迭代,从原始信号开始进行低级抽象,逐渐向高级抽象迭代从低层到高层的特征表示越来越抽象,生物视觉特征分层抽象的过程,就是一个计算机建模过程7.1 研究背景人脑视觉系统如何提取特征?14知识材料7.1 研究背景15知识材料7.1 研究背景HMAXNeocognitronVisNet16知识材料7.1 研究背景从层次增加看深度学习发展简史2020年又是冰河期?17知识材料7.1 研究背景18知识材料 浅层机器学习模型(第二次浪潮)-1-2-1-2层隐层的层隐层的BPBP网络(网络(2020世纪世纪8080年代末期)年代末期)-SVM -SVM 、Boosting Boosting 等,模型的结构可视为带一层隐层节点或没等,模型的结构可视为带一层隐层节点或没有隐层节点(有隐层节点(2020世纪世纪9090年代)年代)Neural NetworkNeural Network问题问题-比较容易过拟合,参数比较难tune,而且需要不少技巧-训练速度比较慢,-有限样本和计算单元情况下对复杂函数的表示能力有限-梯度越来越稀疏:从输出层越往输入层,误差校正信号越来越小-收敛到局部极小值近20多年,主要SVM和boosting算法7.1 研究背景19知识材料 深度机器学习模型(第三次浪潮)Geoffrey Hinton(加拿大多伦多大学教授、机器学习领域的泰斗)及其学生2006年在科学杂志发表”Deep Learning”文章,开启了深度学习在学术界和工业界的浪潮。 -多隐层的人工神经网络具有优异的特征学习能力-通过无监督学习的“逐层初始化”(layer-wise pre-training)来有效克服深度神经网络在训练上的难度-深度学习可通过学习一种深层非线性网络结构,实现复杂函数逼近,表征输入数据分布式表示,并展现了强大的从少数样本集中学习数据集本质特征的能力。-强调了模型结构的深度,通常有5层、6层,甚至10多层的隐层节点-深度学习就是特征学习,通过逐层特征变换,将样本在原空间的特征表示变换到一个新特征空间,从而使分类或预测更加容易“深度学习”通过多层次抽象来实现特征的表达7.1 研究背景20知识材料Deep LearningDeep Learning以多层次神经网络为基以多层次神经网络为基础发展起来的一种新的机器学习方法,础发展起来的一种新的机器学习方法,被认为是被认为是AIAI的新的前沿的新的前沿Theoretical:“well-known depth-breadth tradeoff in circuitsdesign Hastad 1987. This suggests manyfunctions can be much more efficientlyrepresented with deeper architectures” Bengio& LeCun 2007Biological:Visual cortex is hierarchical (Hubel and Wiesel).7.1 研究背景21知识材料7.2 从BP网络看深度学习7.2.1BP网络仅适合浅层网络梯度下降算法梯度逐层反向计算,直到梯度接近零为止22知识材料7.2 从BP网络看深度学习为什么BP网络只适合浅层网络?训练速度慢问题易于过拟合问题 在学习训练中,网络对学习样本达到非常高的逼近精度,但对测试样本逼近误差随网络训练次数而呈现先下降,后反而上升的奇异现象全局优化问题 BP网络深度较深时,会涉及到求解一个高阶非凸优化问题,容易陷入很坏的局部极小梯度弥散问题 BP网络深度较深时,梯度随着深度向前而显著下降,误差反传到更前面的隐含层时已非常小,使得前几层不能有效进行调节,训练速度很慢23知识材料7.2 从BP网络看深度学习7.2.2深度学习的基本思想 加拿大多伦多大学的Geoffery Hinton教授2006年首次提出了“深度信念网络”的概念。与传统的训练方式不同,为大幅度减少了训练多层神经网络的时间,采用两个技术“预训练预训练”(pre-training):无监督学习参数初始值 逐层贪婪训练,就是先训练网络第1个隐含层,再训练第2个,最后 将训练好的网络参数作为整个网络参数的初值(预训练,找到神经网 络中一个接近最优解的权值)“微调微调”(fine-tuning):监督学习 进一步优化训练整个网络,对神经网络参数(权值)改变很小24知识材料7.2 从BP网络看深度学习7.2.2深度学习的基本思想层数保持不变,神经网络的参数数量增加,从而带来了更好的表示(represention)能力增加更多层次,更深入的特征表示,以及更强的函数模拟能力随着网络的层数增加,每一层对于前一层次的抽象表示更深入。即每一层神经元学习到的是前一层神经元值的更抽象的表示第1隐含层学习到的特征-“边缘”第2隐含层学习到的特征-由“边缘”组成的“形状”第3隐含层学习到的特征-由“形状”组成的“图案”。最后隐含层学习到的特征-由“图案”组成的“目标”神经网络本质-模拟特征与目标之间函数映射关系。层数多,参数多,模拟映射函数更复杂、更多容量25知识材料Deeplearning与NeuralNetwork深度学习-是模拟人脑进行分析学习,称Unsupervised Feature Learning -源于人工神经网络,含多隐层的多层感知器就是一种深度学习结构-用深度网络结构来抽象和迭代组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。 深度网络训练的主要思想是用非标签数据进行逐层贪婪训练和用有 标记数据来进行整个网络的微调相同之处-采用分层结构:输入层、隐层(多层)、输出层-连接方式:相邻层节点之间有连接,同一层以及跨层节点之间相互无连接 不同之处-训练机制不同:ANN采用后向传播机制, DL layer-wise的训练机制-层数多,BP残差传播到最前面的层已经变得太小(梯度扩散) 7.2 从BP网络看深度学习26知识材料7.2.3深度学习流行的激励函数7.2 从BP网络看深度学习传统激励函数- Sigmoid系非线性的Sigmoid函数对中央区域的信号增益较大,对两侧区域的信号增益小,特征空间映射效果好从神经科学看,中央区域类似神经元兴奋态,两侧区域类似神经元抑制态问题:(1)sigmoid函数在实际梯度下降中,容易饱和饱和和终止梯度传终止梯度传递递(2)同时近乎有一半的神经元被激活27知识材料7.2 从BP网络看深度学习类似生物神经元激励函数与Sigmoid系的不同:(1)单侧抑制(红框里前端全没激活) (2)相对宽阔的兴奋边界(3)稀疏激活性神经科学家Dayan、Abott 2001年模拟脑神经元接受信号更精确的激励模型Softplus(x)=log(1+ex)具有(1)与(2)特性 ReLU(修正线性单元:Rectified Linear Unit):f(x)=max(0,x)具有三个特性可极大提升随机梯度下降的收敛速度梯度计算非常简单应用很多神经元的生物特性具有生物特性的激励函数28知识材料假定神经网络的输出O等于输入I,即输入I经过这个系统变化之后没有任何的信息损失,保持了不变,这意味着输入I经过每一层都没有任何的信息损失,训练调整网络参数(连接权) 每层的输出就是输入的另外一种表示-特征system输出O输入Ii=o7.3.1自动编码器(AutoEncoder)7.3 几种典型的深度学几种典型的深度学习习模型模型29知识材料7.4 几种典型的深度学几种典型的深度学习习模型模型有标签数据的特征学习无标签数据的无监督特征学习编码器产生特征标签/无标签编码30知识材料无标签数据的无监督特征学习编码器产生特征增加分类器7.3 几种典型的深度学几种典型的深度学习习模型模型31知识材料稀疏自动编码器稀疏自动编码器7.3 几种典型的深度学几种典型的深度学习习模型模型32知识材料7.4 几种典型的深度学几种典型的深度学习习模型模型自动编码器(AutoEncoder)33知识材料7.3.2深度信任网络DBN受限受限可视层各节点间无连接隐含层各节点间无连接可视层作为向量输入可视层作为向量输入隐含层作为特征检测器隐含层作为特征检测器可为二值节点(可取可为二值节点(可取0 0或或1 1)或实)或实数节点(数节点(0 01 1)可视层、隐含层的节点数量不定可视层、隐含层的节点数量不定7.3 几种典型的深度学几种典型的深度学习习模型模型Restricted Boltzman Restricted Boltzman Machine (RBM)Machine (RBM)34知识材料RBM的能量对特定的(v, h),其能量函数定义为对每种可能的p(v, h)分布满足 Boltzmann 分布 7.3 几种典型的深度学几种典型的深度学习习模型模型35知识材料RBM的状态更新/重采样给定可视层每个节点v,隐含层的每个节点hj依下式确定的概率取1(条件独立)同样,给定隐含层每个节点h,可依下式确定的概率获得可视层各结点的的无偏估计样本(条件独立)7.3 几种典型的深度学几种典型的深度学习习模型模型36知识材料7.3 几种典型的深度学几种典型的深度学习习模型模型将多个RBM层叠在一起前一层RBM的隐含层作为后一层RBM可视层的输入深度信任网络DBN的构成n概率生成模型n多个受限玻尔兹曼机RBM层组成37知识材料7.3 几种典型的深度学几种典型的深度学习习模型模型深度信任网络DBN的训练n对比散度CD算法ContrastiveDivergence(Hinton,2002) 预训练获得生成模型的连接权(训练RBM-可视层节点和隐节点间的权值)利用GibbsSampling已知v重采样h已知h重采样v定义上述操作为一轮,可多轮依据下式修正连接权wij38知识材料DBN每层每层RBMRBM内内-隐含层对可见层进行特征提取层与层之间层与层之间每层对前一层提取出的特征进行再提取第3层第2层第1层7.4 几种典型的深度学几种典型的深度学习习模型模型39知识材料Yann LeCunIn 1995, Yann LeCun and Yoshua Bengio introduced the concept of convolutional neural networks.Yoshua Bengio7.3.3深度卷积网络7.3 几种典型的深度学几种典型的深度学习习模型模型在贝尔实验室的研究-提高手写识别滤波池化40知识材料7.3 几种典型的深度学几种典型的深度学习习模型模型输入图像通过多个可训练的滤波器组进行非线性非线性卷积卷积,卷积后在每一层产生特征映射图特征映射图,再特征映射图中每组池化(亚采样)池化(亚采样),最终得到输出值41知识材料7.3 几种典型的深度学几种典型的深度学习习模型模型n层间局部连接稀疏连接方式深度卷积网络-多层感知器(MLP)的变种卷积神经网络中,层间的神经元不是全连接,利用层间局部空间相关性,通过局部连接方式,上层的神经元只与和它相近的下层神经元相连,以大大降低神经网络的参数规模42知识材料7.3 几种典型的深度学几种典型的深度学习习模型模型每个卷积滤波器共享相同的参数。卷积神经网络中,卷积层的每个卷积滤波器重复作用于整个感受野中,对输入图像进行卷积,卷积结果构成输入图像的特征图,提取出图像的局部特征神经元共享权值神经元共享权值-一个特征映射面上的神经元共享权值,大大降低学习的卷积神经网络模型参数数量特征映射结构采用sigmoid函数作为卷积网络的激活函数n共享权值43知识材料7.3 几种典型的深度学几种典型的深度学习习模型模型n最大池化采样非线性降采样方法最大池采样方法对卷积特征进行降维,具有平移不变性nSoftmax回归有监督学习算法,解决多分类问题训练样本集由m个带标签样本构成:最小化代价函数44知识材料7.3 几种典型的深度学几种典型的深度学习习模型模型n深度卷积网络训练与BP网络的向前传播和反向调整权矩阵类似的一种多层的监督学习神经网络,隐含层的卷积层和池化采样层是实现卷积神经网络特征提取功能的核心卷积神经网络的低隐含层是由卷积层和最大池化采样层交替组成,高层是全连接层对应传统多层感知器的隐含层和逻辑回归分类器45知识材料7.3 几种典型的深度学几种典型的深度学习习模型模型46知识材料7.4 开源深度学开源深度学习习框架框架Caffe源自加州伯克利分校的Caffe被广泛应用,包括Pinterest这样的web大户。与TensorFlow一样,Caffe也是由C+开发,Caffe也是Google今年早些时候发布的DeepDream项目(可以识别喵星人的人工智能神经网络)的基础。Theano2008年诞生于蒙特利尔理工学院,Theano派生出了大量深度学习Python软件包,最著名的包括Blocks和Keras。47知识材料7.4 开源深度学开源深度学习习框架框架TorchTorch诞生已经有十年之久,但是真正起势得益于去年Facebook开源了大量Torch的深度学习模块和扩展。Torch另外一个特殊之处是采用了不怎么流行的编程语言Lua(该语言曾被用来开发视频游戏)。Brainstorm来自瑞士人工智能实验室IDSIA的一个非常发展前景很不错的深度学习软件包,Brainstorm能够处理上百层的超级深度神经网络所谓的公路网络HighwayNetworks。48知识材料7.4 开源深度学开源深度学习习框架框架DeepLearning4j创业公司Skymind于2014年6月发布的一个面向生产环境和商业应用的高成熟度深度学习开源库,是”forJava”的深度学习框架,可与Hadoop和Spark集成,即插即用,方便开发者在APP中快速集成深度学习功能,可用于:人脸/图像识别;语音搜索;语音转文字(Speechtotext);垃圾信息过滤(异常侦测);电商欺诈侦测。埃森哲、雪弗兰、博斯咨询和IBM等明星企业都在使用。Marvin是普林斯顿大学视觉工作组新推出的C+框架。该团队还提供了一个文件用于将Caffe模型转化成语Marvin兼容的模式。49知识材料7.4 开源深度学开源深度学习习框架框架ConvNetJS斯坦福大学博士生AndrejKarpathy开发浏览器插件,基于JavaScript可以在游览器中训练神经网络。50知识材料20世纪90年代人类脑计划(HumanBrainProject,HBP)继人类基因计划后,又一国际性科研大计划2013年1月欧盟启动“人类大脑计划”(HumanBrainProject)巨型计算机模拟整个人类大脑(10亿欧元)2013年4月美国“大脑活动图谱计划”(BrainActivityMapProject,或称BrainInitiative)研究大脑活动中的所有神经元,探索神经元、神经回路与大脑功能间的关系(38亿美元)2014年科技部脑科学信息化重大专项“类人脑工程”2014年诺贝尔奖生理学医学奖大脑的定位系统-“位置细胞”与“网格细胞”发现7.5 深度学深度学习习的未来的未来随着神经网络研究的不断变迁,其连接及其计算与生物神经元的连接模型其实渐行渐远?!51知识材料开启计算机开启计算机“高智商高智商”新时代新时代IBM成功构建模拟人脑功能的认知计算机芯片成功构建模拟人脑功能的认知计算机芯片(2011-8-18) 通过模拟大脑结构,首次成功构建出两个具有感知认知能力的硅芯片原型,可以像大脑一样具有学习和处理信息的能力。两个计算机芯片结合了神经元的计算能力、突触(或神经节)的记忆能力和轴突的通信能力开发新一代计算机模仿大脑构建智能计算机的曲折挑战以冯诺依曼架构为基础,内存和处理器分开,以总线作为数据通道。利用软件实现人工智能一个更大的局限,就是受限于计算机的结构,被计算机科学家称为“冯诺依曼瓶颈”。类脑芯片-目前最接近复杂的认知计算机新的计算机芯片的核心是其构造与大脑类似,有“神经元”,有“突触”,还有“轴突”。“神经元”是计算机的数字信息处理器;“突触”是学习和记忆的基础;“轴突”则是数据通道新芯片采用45纳米工艺,晶体管构造,设计模仿大脑神经元和突触组织。两个芯片均有256个数字神经元和256个轴突,数字神经元为10兆赫,具有芯片的标准功能,如存储器、通信控制器等,可基于输入动态连接突触,神经元可记住最近的活动,引发突触。使用量大的轴突,其权重较大。其中一个芯片拥有262144个可编程突触;而另一个芯片拥有65356个学习突触,这种芯片最令人感兴趣。理论上,每个数字神经元可同时与另外255个数字神经元连接,对于拥有65356个学习突触的芯片而言,可产生1700个不同的组合模仿大脑构建智能计算机的曲折挑战IBM完成本次一代类脑芯片原型,就动用了6个实验室,联合了来自康奈尔大学、威斯康星大学、加州大学、哥伦比亚大学和政府研究机构的上百位研究人员。不算IBM的投入,仅美国国防部高级研究计划局就资助了4100万美元的研究经费。即使这样,该研究也历时6年,耗费人工高达数百万小时52知识材料距离实用又进一步距离实用又进一步 IBM公布仿人脑功能的芯片公布仿人脑功能的芯片(2014-8-8) 已研制出一款能模拟人脑神经元、突触功能以及其他脑功能的微芯片,从而完成计算功能,这是模拟人脑芯片领域所取得的又一大进展。IBM表示这款名为TrueNorth的微芯片擅长完成模式识别和物体分类等繁琐任务,而且功耗还远低于传统硬件。由三星电子为IBM生产,制造技术与三星电子生产智能手机及其他移动设备使用的微处理器制造技术一致在仿人脑功能芯片技术方面实现重大进展IBM阿尔马登研究中心(AlmadenResearchCenter)研究员、脑灵感计算首席科学家哈门德拉莫得哈(DharmendraModha):“我们拥有极具野心的商业化目标。”不过他也表示,TrueNorth不会取代传统电脑芯片,他们是互补的关系。TrueNorthTrueNorth微芯片微芯片( (左左) )的热成像图的热成像图 53知识材料距离实用又进一步距离实用又进一步 IBM公布公布人造纳米尺度随机相变神经元人造纳米尺度随机相变神经元芯片芯片(2016-8-4) 54知识材料
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号