资源预览内容
第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
亲,该文档总共8页全部预览完了,如果喜欢就下载吧!
资源描述
1神经网络预报模型的过拟合研究* 金 龙 况雪源 黄海洪 覃志年 王业宏 ( 广西气象减灾研究所南宁5 3 0 0 2 2 ; 广西气候中心南宁5 3 0 0 2 2 ; 南京气象学院南京2 1 0 0 4 4 ) 摘 要 针对神经网络方法在预报建模中存在的过拟合(overfitting)现象和提高泛化性能generalization capability问题提出了采用主成分分析构造神经网络低维学习矩阵的预报建模方法研究结果表明 这种新的神经网络预报建模方法通过浓缩预报信息降维去噪使得神经网络的预报建模不需要进行 适宜隐节点数的最优网络结构试验没有过拟合现象并且与传统的神经网络预报建模方法及逐步 回归预报模型相比泛化能力有显著提高 关键词神经网络 泛化性能 过拟合现象 预报建模 1 引言 2 0 世纪 9 0 年代以来 国内外在气象学科中开展了很多有关神经网络预报建模和气候分析等应用研究 1 - 5 然而随着神经网络方法在大气科学领域应用研究的不断深入发现人工神经网络方法在实际业务天气预报应用中存在一个最重要的瓶颈问题即在利用神经网络方法进行气象预报建模时对已知训练样本集的学习训练达到什么样的拟合精度才能使预报模型对未知样本具有最好的预报能力该问题的研究不仅关系到在大气科学中能否进一步深入开展有关神经网络方法的业务预报应用并且也是目前人工神经网络应用理论研究中尚未得到很好解决的有关神经网络模型的过拟合和泛化性能的最关键问题 6 7 本文针对实际的气象预报问题 尝试从如何构造一种能够全面反映预报因子与预报量关系的低维学习矩阵的主动性方法来探讨神经网络的泛化性能和过拟合现象 2 影响泛化性能的因子分析 2 . 1 网络隐层节点 人工神经网络在众多学科的应用研究中已在理论上证明一个三层的前馈网络能够实现任意精度的连续函数映射并且人们在神经网络的学习算法方面进行了大量的研究提出了很多关于前馈网络的改进学习算法使得大多数有关问题的神经网络学习精度都能达到要求但是在神经网络的预报建模研究中最关键的问题是关于神经网络预报模型的泛化能力, 它在天气预报问题中就是神经网络天气预报模型根据训练样本建立预报模型后 对未参加学习训练样本 即独立样本的预报能力这显然是神经网络预报模型好坏及该方法能否应用于实际业务预报的核心问题因此如何提高神经网络预报模型的泛化能力成为神经网络理论研究和实际应用研究最为重要的研究课题该问题研究的主要内容包括神经网络的网络结构主要是适宜隐节点数的确定和网络结构的学习算法对泛化性能和过拟合现象的影响研究 8 - 1 1 而一般关于网络结构的影响研究认为网络结构增大容易产生过拟合现象使网络泛化性能下降一般只要在网络收敛的条件下*国家自然科学基金项目( 4 0 0 7 5 0 2 1 ) 2小的网络结构泛化能力强且训练速度快并且认为隐节点数应小于样本数但是在隐节点数小于样本数的情况下怎样确定适宜的隐节点数能使模型的泛化能力达到最大至今没有很好的结论 6 9 1 0 为了寻找泛化性能好的适宜网络结构一些研究工作提出了一些确定适宜隐节点数的原则性计算公式 1 2 ) 3 (log )2 () 1 (20nhamnhCknih i=+=h iChi然而目前的这种有关神经网络模型泛化性能的应用研究工作大多是一种被动方法即这些方法主要是在给定学习样本资料的条件下去寻找最小的适宜网络结构6其实质是寻找在最少的隐节点数条件下网络模型具有最好的泛化性能由(1) (3)式可以看到适宜隐节点数的确定实际是与输入和输出节点有关在实际的单输出或多输出模型中输出节点数是确定的因此可以看到隐节点数原则上是与输入节点有关即网络规模大小是直接与输入节点有关而由于对同一个问题越小的网络结构只要在收敛条件下网络模型的泛化能力越强由此可以推论对于同一个预报问题在构造神经网络的学习矩阵时输入节点越少可能使网络模型结构越小从而可能使网络模型的泛化能力越强而问题的另一方面是在建立一般的气象预报模型时 一般影响天气气候未来状况的因素较多 因此在建立预报模型时必须考虑多种预报因子对预报量未来状况的影响 但是如果考虑太多的预报因子时 不仅神经网络预报模型结构加大影响网络模型的泛化性能和模型的误差函数收敛速度同时从统计预报的角度考虑 众多预报因子之间又往往存在复共线性关系 并且众多因子中各自所带的噪声信息叠加显然也会造成信息重叠噪声增加而影响到预报模型的预报能力因此可以看到如何构造一种既能包含影响未来天气气候变化的多种因素 又能尽可能减小神经网络学习矩阵的输入节点数是改善神经网络预报模型性能的关键之一 2 . 2 网络结构算法 在有关人工神经网络的泛化性能研究中为了获得适宜的网络结构也采用了一些网络结构学习算法其主要分为神经网络的剪除型结构学习算法和增长型结构学习算法在剪除型结构算法中采用的主要方法是最初设计一个比求解问题大的网络结构1314对预报模型作学习训练在学习训练过程中不断地去掉作用小的节点和权使这些对网络输出影响不大的权值不断被删除从而使网络预报模型的泛化能力提高而增长型结构学习算法与剪除型结构学习算法正好相反它是从小的网络结构开始训练然后逐渐增大直到网络模型即能对训练样本有很好的识别又有较好的泛化能力然而从这两类网络结构算法的学习训练过程可以看到其本质上仍属于比较被动的方式来研究提高网络模型的泛化性能即它是对已给定的一个学习矩阵试验用剪除型结构学习算法或增长型结构学习算法对网络模型进行训练其结果对提高网络模型的训练误差收敛速度是明显的因为网络结构庞大容易产生冗余节点会使训练时间增加并且有时还会出现振荡不收敛情况但是这些学习算法对预报模型的泛化能力改进是有限的因为对于一个预报系统只有构造出一个真正反映系统输入与输出关系的学习矩阵并且由第 1.1 节有关隐3节点原则性确定公式看到如果学习矩阵的输入节点越少维数越低可以使网络结构的规模越小从而可以提高网络模型的泛化性能基于以上分析本文针对实际的气象预报问题采用主成分分析方法对神经网络预报模型的学习矩阵进行降维去噪处理来研究神经网络预报模型的过拟合现象和提高预报模型的泛化性能 3 预报建模方法 3 . 1 主成分分析方法P C A 主成分分析方法PCA 是系统降维和特征提取的一种基本方法该方法被广泛应用于大气科学的预报和分析研究工作中15,16而主成分分析的基本思想是将原多维序列特征通过线性变换从原特征中得到一组数目与原特征相同的新特征 即对于大气科学中的统计预报建模问题 就是对某一预报对象有 n个预报因子T nxxxX),(21= 可以通过主成分分析方法构造出n个新的综合因子变量T nzzzZ),(21= 而这种新的综合因子变量与原因子变量相比有如下特点: (1) 每一个新的综合因子变量是原因子变量的线性组合即 )4(2 , 1,2211nixvxvxvznniiii=+= 其中ijv为特征向量 (2) 新的综合因子变量之间是相互正交的即各个因子间的相关系数为零 )5(,2 , 1, 0),(jinjizzrji= (3) 各个新的综合因子变量的特征值明确表示了它对于原因子组的方差贡献大小 显然 将主成分分析得到的新的综合因子变量用于构造神经网络学习矩阵 其优越性十分明显可以很直观地去掉特征值为零或接近于零的特征值对应的主分量 因为这些主分量几乎没有包含原变量的信息 只保留特征值相对较大的且与预报量相关程度高的主分量降维作用直观显著 一般前几个主分量通常具有更大的方差贡献且与预报量相关较好由于主分量间是正交的 所以最后确定的几个特征值大且与预报量相关高的主分量所构成的学习矩阵 不会有多余的重复信息噪声影响 而一般直接根据原始因子构造预报模型学习矩阵时 舍弃的预报因子信息无法在最终的预报方程中体现而保留的预报因子由于都与预报量同一对象存在较好的相关关系所以这些保留的预报因子间往往存在较高的相关关系造成有用信息的重复直接造成学习矩阵的规模增大对预报量无用的噪声也相应增加直接影响神经网络模型的训练速度和泛化性能由上述分析不难看出利用主成分分析方法构造神经网络学习矩阵能很好地保留原全部因子的有用信息对原预报因子矩阵的降维去噪作用直观明显 3 . 2 神经网络方法( A N N ) 目前在多种人工神经网络模型中大气科学中应用最为广泛的是前馈网络其基本算法已有不少文献作过介绍因此该方法的详细计算推导过程见文献3本文主要讨论前馈网络模型的泛化性能和过拟合问题而一般一个三层前馈网络计算过程可以简单概括为 模型的最终预报计算公式 )6()(1jijipijwbfy+= =4式中ib是隐含层到输出层新的激活值jiw是隐含层到输出层的连接权系数初始时刻为一组随机数j为输出层单元阈值f 取 Sigmoid 函数 前馈网络模型学习矩阵训练过程也可简单归结为 (1) 随机给定输入层到隐含层和隐含层到输出层的连接权jiw,hiv并设定总体收敛误差 (2) 根据学习矩阵样本对网络进行有导师学习训练 计算网络的实际输出与期望输出的误差 并采用前馈网络的误差逆传播学习算法调整输入层到隐含层和隐含层到输出层的连接权系数 (3) 当模型输出的收敛误差 时转到2否则训练结束并根据连接权系数和阈值由1式计算预报值 4 实例分析 本文对多个实际预报问题进行了计算分析限于篇幅并为了避免任意挑选好的预报个例本文给出了 6 月7 月和 8 月降水量 3 个预报个例计算结果其计算过程为首先利用主成分分析构造神经网络的学习矩阵然后进一步通过对学习矩阵的训练建立预报模型再分别对 3个预报模型的泛化性能过拟合现象作实例分析 预报个例 1以广西 8 个代表站南宁柳州桂林资源北海百色梧州和玉林6月平均降水量作为预报对象计算找出上年 112 月和当年 14 月500hPa 月平均高度场和月平均海温场达到 0.05 相关显著水平的预报因子结果共得到 32 个预报因子其中 14 个海温场因子18 个高度场因子首先直接对 32 个因子按常规的逐步回归方法建立预报方程并且为了统一的对比分析取预报量 19581996 年 39 年样本作为预报建模样本19972002 年样本作为独立样本对预报方程进行检验当 F 值取 6 从 32 个预报因子中筛选出 6 个预报因子得到预报方程 3129261715689. 193. 566. 584. 002. 141. 297.581xxxxxxy+= 8 该方程的复相关系数为 0.9177n=39方程对历史样本的拟合平均相对误差为 9.970平均绝对误差为 24.68mm该预报方程对 1997-2002 年 6 年独立样本预报的平均相对误差为 29.03平均绝对误差为 87.39mm 4 . 1 主分量学习矩阵模型的泛化性能 根据 2.1 节的主成分分析方法对这同样的 32 个预报因子作主成分分析表 1 给出了这 32个预报因子作主成分计算得出的各主分量特征值及各主分量与预报量之间的相关系数n=39以主分量特征值相对较大 并考虑与预报量相关系数高作为取舍标准 确定神经网络学习矩阵的输入从表 1 可以看出相对而言前 125 三个主分量与预报量的相关系数最高并且相对应的特征值也较大因此用这 3 个主成分来构造神经网络的学习矩阵为了分析采用主分量构造神经网络学习矩阵预报模型的泛化性能和过拟合情况在表 2 中给出了对该学习矩阵从 5000次到 30000 次学习训练后神经网络预报模型的计算结果其中隐节点数是根据2式确定并考虑到训练样本长度为 39 而一般认为隐节点数应远小于训练样本数 所以本文的研究只取 2)7 ()1 (1)(xexf+=5式中的最小和中等大小的隐节点数即2式中 a 值分别取 1 和 5原最大取值范围 1-10因而由2式得到以三个主分量构造的神经网络预报模型其最小规模隐节点 数为 3中等规模的
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号