资源预览内容
第1页 / 共3页
第2页 / 共3页
第3页 / 共3页
亲,该文档总共3页全部预览完了,如果喜欢就下载吧!
资源描述
主成分分析原始数据的预处理问题 河北理工大学理学院(063009)万星火 檀亦丽 目前,系统评估方法的研究焦点,依然是如何科 学、 客观地将一个多目标问题综合成一个单指数的形 式。事实上只有在一维空间中,才能使评价排序成为 可能。而产生综合指数的主要方法是对各指标进行加 权,然后再将其综合。多元统计分析中的主成分分析 以其理论的简洁性,赋权的客观性等特点,被广泛地应 用于社会、 经济、 科教、 卫生等领域中众多对象的评价 和排序。利用主成分分析进行综合评价的基本思路是 降维,即保证数据损失尽可能最小的前提下,经过线性 变换和舍弃一小部分信息,以少数新的综合变量(称为 主成分)取代原始采用的多维变量。再将所取到的主 成分用适当的形式进行综合,得到综合评价值,依据它 对被评价对象进行比较排序。主成分综合评价法的关 键是利用样本的协方差矩阵求主成分,但由于协方差 矩阵易受指标的量纲和数量级的影响。因此,对原始 数据进行预处理就变的至关重要了。 原理和方法 设有p个指标X1, X2, Xp,对其进行n次观 测得到np个观测值xij,为了方便,用一个矩阵表示 X= ( x 1, xp)= ( x ij)np 寻找X1, X2,Xp的综合指标(主成分)可归纳 为如下步骤: 11 求X的协方差矩阵的特征根,记为 1 2 k 0,k+ 1=p= 0; 21求 i对应的单位特征向量i= ( a i1, ai2, aip) i= 1, k ,且要求正交; 31 得到第i个主成分yi=iX ,i= 1, k。 取前k个主成分的如下线性组合 F = i k i =1 i yi 作为综合评价的函数。 其中y1具有最大的方差 1, y2次之且有方差2, yk具有最小方差k。 这样 y1, yk依次集中了X的各分量变化的主要部分, yi 的方差i的大小刻画了yi反映X的能力大小, i越大, 则yi反映X的能力越强,称 i tr( V ) =i/ k j =1 j为第i 个主成分的贡献率, m i =1 i/ k j =1 j为前m个 ( m k) 主 成分的累积贡献率。 在实际应用中常略去那些贡献率小的主成分,经 验指出,一般只要取前k个主成分的累计贡献率超过 85%就足够了。 原始数据的预处理 主成分综合评价法的关键是利用样本的协方差矩 阵求主成分,但由于协方差矩阵易受指标的量纲和数 量级的影响,因此经常要对原始数据进行预处理。 11 逆向指标的处理:由于当xi为逆向指标时,特 征根对应的特征向量的分量aij可能出现负值。这时 令-xi作为指标参评,代替xi, aij就是正值。但有时 当xi为正向指标时,特征根对应的特征向量的分量 aij可能也出现负值。这主要是由于评价指标内存在 相关性很大的指标,它们在参与评价时过于重复地产 生影响,所以这时应从评价指标中删去一些指标重新 综合考虑。有时特征向量的分量aij中有很多负值时 注意将所有aij的符号同时反向,就会剩下少数负号, 用后者来评价就可以了。这是由于当 i= ( a i1, ai2, , aip) 是i的特征向量时,-i= - ( a i1, ai2, ain) 也是特征向量。 21 无量纲化处理 (1)数据的标准化 数据的无量纲化处理的必要 性:由统计学理论,要对不同量纲的数据进行比较,可 以先将它们分别标准化,转化为无量纲的标准化数据。 而进行主成分综合评价时,所选样本的指标往往具有 不同量纲不具有可加性。即使有些指标具有可加性, 也不能直接相加,因为结果不切实际,如在对某班级同 学的学习效果进行分析时,各门功课的成绩是一种分 数,本身没有单位,而且都是百分制的,因此不必要无 量纲化,直接相加,求总分即可。事实上,这种看法是 有误解的。由于不同科目试题的难易程度、 份量不一 定相同,成绩是不同质的,因而成绩不能直接相加。必 须先计算绝对分数。然后再进行综合。 即x ij= xij-?xj sj , i =1,2,n , j =1,2, p 其中 ?xj= 1 n n i =1 xij, s2j= 1 n -1 n i =1 ( x ij- ?xj) 2 在主成分分析中一般要先对原始数据进行标准化处 理,然后求解标准化数据的协方差矩阵的特征根及对 723中国卫生统计2005年10月第22卷第5期 应的特征向量从而求出主成分。 (2)均值法 在主成分分析中原始数据标准化是 为了避免各指标变量的量纲和数量级对协方差矩阵的 影响,但同时它也消除了各指标在变异程度上的差异 信息。一般的,原始数据中包含两部分信息:一是各指 标变异程度的差异信息,由各指标的方差大小反映;二 是各指标间相互影响程度上的相关信息,由相关矩阵 体现。传统的标准化方法使各指标的方差变成1,即 协方差矩阵的对角元素均为1,消除了各指标在变异 程度上的差异。从中提取的主成分,只包含了各指标 间相互影响这一部分信息,不能准确反映原始数据所 包含的全部信息,所以必须改进这种方法。均值化方 法是一种较好的改进方法。对原始数据样本矩阵, X = ( x 1, xp)= ( x ij)np,均值化就是用各指标的均 值除以它们相应的原始数据,即xij/?xj。可以推导出 在均值化后,协方差矩阵的对角元素为 ( s j/?xj) 2。它 反映了各指标变异程度上的差异;同时,均值化后的相 关系数变为r ij=rij 2,这说明均值化处理不改变指 标间的相关系数,相关矩阵的全部信息都在相应的协 方差矩阵中得到反映。可见均值化处理后的协方差矩 阵不仅消除了指标量纲与数量级的影响,还能包含原 始数据的全部信息,因此在进行主成分分析前,可以用 均值化方法进行无量纲化处理。 31 非线性主成分分析 主成分分析法是一种线性降维法,表现为各主成 分是原始变量的线性组合。因此,当原始数据不具备 线性的基本特点时,若简单地进行线性处理,必然会导 致结果的偏差,因此有必要对传统主成分分析中的 “线 性化” 进行改进。 此时,就要对原始数据作变换,一般可直接对它们 进行函数处理:描绘原始数据列xij的散点图,若散点 图呈现出某种曲线特征,如呈现出对数曲线特征时,则 可令yij= lnxij,再经过中心化变换利用主成分分析 法,可提高降维效果。具体做法如下: a1 对原始数据xij进行对数变换yij=lnxij b1 行向量中心化,令zij= yij- p j =1 yij/ p c1计算矩阵Z = ( zij)np的协方差阵及其特征根 和特征向量,根据累计贡献率选择m ( m 0, p i =1 xi=1)分析。 参 考 文 献 11 任若恩,王惠文.多元统计分析 理论、 方法、 实例.北京:国防工业 出版社,1997 , 922109. 21 叶双峰.关于主成分分析做综合评价的改进.数理统计与管理, 2001 ,20(2) :52. 31 黄宁.关于主成分分析应用的思考.数理统计与管理,1999 ,18(5) : 44. . 41 钱道翠.成分数据的主成分分析方法的改进.统计与决策,2002 ,14 (7) :67. . 51 胡永宏.贺思辉.综合评价方法.北京:科学出版社,2000 ,57263. 门诊人次与出院人数的相关分析 广东省佛山市第一人民医院信息科(528000)廖 珊 刘冬生 医院的门诊人次与住院人次是衡量医院业务状况的重要 指标,门诊人次与住院人次的增加是医院发展所追求的目标。 随着医疗市场竞争的加剧,各级医院纷纷推出各项改革举措, 以期增加门诊和住院病人。通常门诊人次与住院人次之间,存 在相应的比例关系,门诊量增加了,住院病人也相应地增加。 出院人次与门诊量的哪部份最密切相关,关联程度如何?本文 拟对此作一探讨。 资料与方法 资料取自我院20002004年上半年各季度全院医院门 诊、 住院工作报表,选取各季度出院人数、 普通门诊量、 专科门 诊量、 专家门诊量、 急诊人次数据,输入EXCEL ,采用SPSS1110 软件包进行相关与回归分析。 结 果 11 相关分析 对出院人数与普通门诊量、 专科门诊量、 专家门诊量、 急诊 人次作相关分析,结果见表1。 表1 出院人数与各门诊量相关系数表 普通门诊专科专家急诊 出院人数相关系数01343019250195601586 P01163010000100001011 由表1可见,专家、 专科门诊量与出院人数高度相关,而普 通门诊和急诊的相关性小。其中专家门诊量相关系数最大。 可见专家门诊量与出院人数密切相关。对它的关联程度进一 步作多元线性回归分析。 21 多元线性回归分析 对出院人数的影响因素普通门诊量、 专科门诊量、 专家门 诊量、 急诊人次作多元线性回归分析,结果见表2。只有专家门 诊量进入回归方程,P 0105。回归方程为:y= 010875 专家 门诊+ 98017 ,说明每增加1个专家门诊就对应有010875个出 院病人,也就是说每增加100个专家门诊量可对应有9个病人 出院。 表2 回归系数表 回归系数tP 常数项980171164401124 普通门诊- 010093- 1197101070 专科门诊0101201130901213 专家门诊0108757102001000 急诊- 010188- 0181501430 讨 论 111993年专家门诊人次占全院门急诊人次的比例为 517 %,2003年上升为2619 %,专家门诊比例在逐年上升,2003 年比1993年上升了21个百分点,说明了人们已经不满足一般 的医疗服务,期望高质量、 高水平、 多方位的医疗服务越来越明 显,专家门诊的设立正是为人们提供了更理想医疗服务的选择 空间。专家门诊一般看的是疑难重症疾病,门诊解决不了就住 院治疗,专家门诊量增加了,住院病人也相应增加。 21 专家门诊人次与出院人数呈直线相关,每增加100个专 家门诊量可对应有9个病人出院。 31专家门诊量直接影响到出院人数,增加专家出门诊次 数,不仅可使专家门诊量大幅增加,也促进了住院业务的发展。 各科室多派专家出门诊,不仅可增加专家门诊人次,还可拉动 住院业务,形成良好的经济效益和社会效益。 41 眼科的改革给了我们一些启示,我院专家技术好、 服务 好,专家门诊深受患者欢迎,而以前是供不应求,现在挖掘专家 门诊的潜力,主动提供更充分的医疗服务,可以争取更多的病 人。其他科室也可效仿眼科,多派专家出门诊,满足广大患者 的需要,同时也拓展科室的业务量。相信我院在不断改革中会 取得更大的成绩。 923中国卫生统计2005年10月第22卷第5期
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号