资源预览内容
第1页 / 共5页
第2页 / 共5页
第3页 / 共5页
第4页 / 共5页
第5页 / 共5页
亲,该文档总共5页全部预览完了,如果喜欢就下载吧!
资源描述
支持向量机回归方法在实时业务预报中的应用* 冯汉中 陈永义 ( 成都气象中心 成都 6 1 0 0 7 1 ) ( 中国气象局培训中心, 北京, 1 0 0 0 8 1 ) 提 要 简要介绍了支持向量机S u p p o r t V e c t o r M a c h i n e 简称 S V M 回归方法的基本原理并介绍了基于S V M 回归方法利用 1 9 9 0 2 0 0 0 年 1 1 2 月 E C M W F 北半球的 5 0 0 h P a 高度8 5 0 h P a 温度地面气压的 0 小时分析场资料构造预报因子建立德阳市 5 个代表站的日平均气温日最高气温日最低气温的 S V M 回归预报模型及其在业务化运用中的效果 关键词支持向量机 回归 温度 预报 引言 随着各种大气探测技术数值预报模式数值集合预报等的不断发展可用于气象预报的信息 越来越广泛和多样如何从这些海量的信息中获取可用于预报的关键信息是我们业务预报人员比 较关注的问题机器学习是解决这一问题的有效途径随着学习理论的不断进步处理信息的技术 不断发展计算机技术的不断飞跃机器学习也在不断的深入以人工智能为代表的研究工作取 得一系列令人瞩目的成果如专家系统神经网络等近年发展起来的一种机器学习方法 支持向量机Support Vector Machines 简称 SVM方法1又为我们解决这一问题提供了比较有 效的手段 文献1对 SVM 方法的原理作了介绍我们在气象预报领域用 SVM 方法进行了一些探讨性的试 验2结果表明SVM 方法能用于具有显著非线性特征的气象预测预报但其有没有实时业务运用 的能力本文就是对 SVM 回归方法在德阳市气象局业务预报中的运用结果进行介绍以期对 SVM 方法在气象领域的推广运用有所作用 1支持向量机S V M 回归方法简介回归分析又称函数估计它要解决的问题是根据给定的样本数据集(xi,yi)|i=1,k,其中 xi为 预报因子值, yi为预报对象值寻求一个反映样本数据的最优函数关系 y = f(x) 机器学习的过程就是由样本数据集建立学习机的过程机器学习问题可以形式化为 给定函数集 f ( x,)和 l 个独立同分布的样本数据训练集 (x1,y1), (x2,y2),(xl,yl) 其中 xiRN为 N 维向量 为参数向量如何从给定的函数集 f (x,)中选择出能够最好逼近实际响 应的函数 聚类分析模式识别回归分析密度函数估计人工神经网络等都可以看成是这里所说的 机器学习的特例比如线性回归分析就是在线性函数类中采用最小二乘法选取与样本点偏差平方 和为最小的线性函数然而关于这种线性回归即便是非线性回归的推广能力并没有理论上的保证SVM 方法具有坚实的理论基础并可以给出学习机推广能力的界 SVM 方法的基本思想简单说就是升维和线性化基于 Mercer 核展开定理通过非线性映射 把样本空间映射到一个高维乃至于无穷维的特征空间Hilbert 空间在特征空间中引入-不敏感* 本工作得到国家自然科学基金6 0 0 7 2 0 0 6 的资助参加此项工作的人员还有雍朝吉车怀敏甯春容 函数定义最优线性回归超平面并把寻找最优线性回归超平面的算法归结为求解一个凸约束条件 下的一个凸规划问题并可以求得全局最优解这样便应用线性学习机的方法解决了样本空间中的 高度非线性分类和回归等问题 线性化方法是人们解决复杂问题的一种常用手段SVM 的线性化是在变换后的高维空间中应用 解线性问题的方法来进行计算在高维特征空间中得到的是问题的线性解但与之相对应的却是原 来样本空间中问题的非线性解 SVM 方法的核心概念是支持向量如图 1 所示最优回归超平面 l 完全由落在两条边界线 l1 和 l2上的样本点所确定这样的样本点称为支持向量落在两条边界线之间的所有样本点对最优回 归超平面没有贡献 图 1 最优回归超平面 根据相关的理论和算法1最后在特征空间中得到的最优线性回归函数表达式为 f(x)= (w x)+b = =Li 1(i- i*)(x xi)+b 1 其中 L 为支持向量的个数ii*和 b 为确定最优超平面的参数通过解最优化问题求得可 以看出最优回归超平面的解析式只由支持向量完全确定 由于特征空间是样本空间通过映射 得到的1式中的点 x 和 xi实际上是 (x)和(xi)这样 1变成 f(x)= (w (x)+b = =Li 1(i- i*)(x) (xi)+b 2 2式中出现的点积依据 Mercer定理是定义了一个核函数 K(x,xi) K(x,xi)= (x) (xi) 3 将3代入2可得 f(x)= (w (x)+b = =Li 1(i- i*) K(x,xi)+b 4 这就是 SVM 方法最终确定的非线性回归函数 特别吸引人的地方是 由于应用了核函数的展开定理 所以在实际求解过程中根本不需要知道非线性映射 的显式表达式这大大简化了计算的特别是 对于高维数据的情况核函数与向量的维数无关可以避免通常所说的维数灾 2建立支持向量机S V M 预报模型 2 1 构造预报因子 由于 SVM 是通过支持向量构造推理模型 对因子的数量没有明显的限制 支持的因子数可以上 千个因此通过对与预报对象有明确意义的各种因子的选取可以较好的表述预报对象与预报因 子之间变化的时间空间概念我们的试验2表明样本越多建立的 SVM 模型预报效果越好考虑现有的资料我们采用 1990 2000 年 1-12 月共 11 年的 ECMWF 500hPa 高度850hPa 温度地 面气压的 0 小时输出产品来挑选因子构造建模样本资料 针对影响德阳本地的天气系统和要素特征以及我们经常关注的 天气系统出现的区域在不同的层次选取不同的区域来构造因子因 子的主要构成方式为所选区域的值24 小时变化量关键区域之间 的差值等组成一个与空间和时间均有关联的因子群通过这些因子 描述一个相对完善的样本空间在这种样本空间中我们所关注的预 报对象就会有各自的表现 如图 2 所示 我们在 500hPa 图上确定的区 域有反映高原上空系统变化的区域1-3反映四川盆地上空系统 变化的区域4-5西北冷槽变化区域6蒙古低压变化区7 反映副高强弱变化和台风出没的区域8-9这些区域的要素变化与 本地天气的变化有密切的联系 图 2 5 0 0 h P a 预报因子选取图示 2 . 2 确立预报对象 预报对象为德阳市 5 个县站的日平均气温日最高气温日最低气温 2 . 3 确定核函数 由于构造支持向量机的基础是 Mercer 定理 作为建立支持向量机的核函数必须以满足 Mercer 定理的条件为前提故我们仍以径向基函数满足 Mercer 定理条件做为基本函数建立 SVM 回归 模型径向基函数形为 K(x,xi) = exp(-r|x-xi|2) 最终回归函数形为 f (x) = =Li 1(i- i*)K(x,xi)+b = =Li 1(i- i*)exp(-r|x-xi|2)+b (5) 其中 L 为支持向量数xi为作为支持向量的样本因子向量x 为待预报因子向量ii*b 为建立 SVM 模型待确定的系数r 为核参数 2 . 4 建立预报模型 我们采用中国气象局培训中心 SVM 应用开发研究小组开发的 CMSVM 应用软件 依据 PP 法 预 报因子和预报对象是同时刻关系 来建立 SVM 回归预报模型 建模时尽量对样本中的因子进行归一 化处理减少各个因子之间的量级差异 建模使用的数据格式如下 1 0 . 0 1 : . 4 6 2 9 6 2 : . 4 0 0 0 0 3 : . 3 6 3 6 4 4 : . 3 2 2 3 1 5 : . 3 9 0 2 4 6 : . 0 9 8 3 2 7 : . 0 9 5 3 3 1 2 . 1 1 : . 5 0 0 0 0 2 : . 4 3 6 3 6 3 : . 3 6 3 6 4 4 : . 3 0 5 7 9 5 : . 3 9 0 2 4 6 : . 1 1 0 3 1 7 : . 0 9 0 9 4 1 1 . 8 1 : . 4 6 2 9 6 2 : . 4 1 8 1 8 3 : . 3 8 1 8 2 4 : . 3 1 4 0 5 5 : . 3 9 0 2 4 6 : . 0 9 5 9 2 7 : . 0 8 4 8 7 8. 9 1 : . 4 0 7 4 1 2 : . 4 1 8 1 8 3 : . 3 4 5 4 5 4 : . 2 8 9 2 6 5 : . 3 8 2 1 1 6 : . 1 1 0 3 1 7 : . 0 7 3 8 8 第 1 列为预报对象的值后面依次为因子序号及因子值 通过训练建立的 S V M 预报模型格式如下 s v m C V e r s i o n V 1 . 0 0 2 # 核函数类型 - t - 1 # 最优模型中核函数参数 - d 0 . 1 # 最优模型中核函数参数 - g 1 # 最优模型中核函数参数 - s 1 # 最优模型中核函数参数 - r - 1 # 最优模型中核函数参数 - u 7 7 # 训练样本的特征空间的最高维数 产生最优模型时的参数 - w 1 2 7 3 9 # 支持向量的个数 - 1 0 . 1 3 0 9 9 3 # t h r e s h o l d b , 以下每行代表一个支持向量第一个数代表(i-i* ) * s i g n ( y ) - 8 . 0 2 6 1 7 4 7 0 2 9 6 1 6 8 2 8 1 : 0 . 3 0 2 1 2 : 0 . 2 7 9 0 3 : 0 . 2 6 5 0 4 : 0 . 2 6 5 8 2 - 8 0 1 : 0 . 2 5 8 2 2 : 0 . 2 4 4 1 3 : 0 . 2 6 5 0 4 : 0 . 2 6 5 8 2 6 9 . 7 5 1 8 7 1 5 6 3 4 7 7 8 3 5 1 : 0 . 2 0 8 7 9 2 : 0 . 1 9 7 6 7 3 : 0 . 2 1 6 8 6 4 : 0 . 2 4 0 5 1 5 : 0 . 2 2 8 4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 前面文字部分为建立 S V M 模型时对应的参数及其说明后面数字部分为构成 S V M 模型的支持向 量这里给出的模型有 2 7 3 9个支持向量在实时使用时就是将支持向量和对应的参数及实时样 本代入5 式计算出实际预报值从这里可以看出此处的预报结果是对支持向量进行加权获 得而不是象
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号