资源预览内容
第1页 / 共71页
第2页 / 共71页
第3页 / 共71页
第4页 / 共71页
第5页 / 共71页
第6页 / 共71页
第7页 / 共71页
第8页 / 共71页
第9页 / 共71页
第10页 / 共71页
亲,该文档总共71页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
主成分分析1主成分分析应用(SPSS)主成分回归2例:例: 成成绩数据(数据(student.sav)100个个学学生生的的数数学学、物物理理、化化学学、语文文、历史史、英英语的成的成绩如下表(部分)。如下表(部分)。 SPSSSPSS实现( (因子分析与主成分分析因子分析与主成分分析) )拿拿student.sav为例,例,选AnalyzeData ReductionFactor进入主入主对话框;框;把把math、phys、chem、literat、history、english选入入Variables,然后点然后点击Extraction,在在Method选择一个方法(如果是主成分分析,一个方法(如果是主成分分析,则选Principal Components),),下面的下面的选项可以随意,比如要画碎石可以随意,比如要画碎石图就就选Scree plot,另外在,另外在Extract选项可以按照特征可以按照特征值的大小的大小选主成分(或因子),也可以主成分(或因子),也可以选定因子的数目;定因子的数目;之后回到主之后回到主对话框(用框(用Continue)。然后点)。然后点击Rotation,再在,再在该对话框中的框中的Method选择一个旋一个旋转方法(如果是主成分分析就方法(如果是主成分分析就选None),),在在Display选Rotated solution(以(以输出和旋出和旋转有关的有关的结果)和果)和Loading plot(以(以输出出载荷荷图);之后回到主);之后回到主对话框(用框(用Continue)。)。如果要如果要计算因子得分就要点算因子得分就要点击Scores,再,再选择Save as variables(因子得分就会作(因子得分就会作为变量存在数据中的附加列上)和量存在数据中的附加列上)和计算因子得算因子得分的方法(比如分的方法(比如Regression);要想);要想输出出Component Score Coefficient Matrix表,就要表,就要选择Display factor score coefficient matrix;之后回到主之后回到主对话框(用框(用Continue)。)。这时点点OK即可。即可。对于该数据,对于该数据,( (利用相关系数矩阵利用相关系数矩阵)SPSS)SPSS输出输出为为这这里里的的Initial Eigenvalues就就是是这这里里的的六六个个主主轴轴长长度度,又又称称特特征征值值(数数据据相相关关阵阵的的特特征征值值)。头头两两个个成成分分特特征征值值累累积积占占了了总总方方差差的的81.142%。后后面面的特征值的贡献越来越少。的特征值的贡献越来越少。 特征值的贡献还可以从特征值的贡献还可以从SPSS的所谓碎石图看出的所谓碎石图看出怎么解释这两个主成分。前面说过主成分是原始怎么解释这两个主成分。前面说过主成分是原始六个变量的线性组合。是怎么样的组合呢?六个变量的线性组合。是怎么样的组合呢?SPSSSPSS可以可以输出下面的表。输出下面的表。 这这里里每每一一列列代代表表一一个个主主成成分分作作为为原原来来变变量量线线性性组组合合的的系系数数(比比例例)。比比如如第第一一主主成成分分为为数数学学、物物理理、化化学学、语语文文、历历史史、英英语语这这六六个个变变量量的的线线性性组组合合,系系数数(比比例例)为为-0.806, -0.674, -0.675, 0.893, 0.825, 0.836。 如如用用x x1 1, ,x x2 2, ,x x3 3, ,x x4 4, ,x x5 5, ,x x6 6分分别别表表示示原原先先的的六六个个变变量量,而而用用y y1 1, ,y y2 2, ,y y3 3, ,y y4 4, ,y y5 5, ,y y6 6表表示示新新的的主主成成分分,那那么么,第一和第二主成分为第一和第二主成分为SPSS中中这这些些系系数数称称为为主主成成分分载载荷荷(loading),它表示主成分和相应的原先变量的相关系数它表示主成分和相应的原先变量的相关系数。比比如如y1表表示示式式中中x1的的系系数数为为-0.806,这这就就是是说说第第一一主成分和数学变量的相关系数为主成分和数学变量的相关系数为-0.806。相相关关系系数数(绝绝对对值值)越越大大,主主成成分分对对该该变变量量的的代代表表性性也也越越大大。可可以以看看得得出出,第第一一主主成成分分对对各各个个变变量量解解释释得得都都很很充充分分。而而最最后后的的几几个个主主成成分分和和原原先先的变量就不那么相关了。的变量就不那么相关了。 这里这里u uijij为第为第j j个特征向量的第个特征向量的第i i个分量个分量; ;第第j j个主成分的载荷平方和为该主成分的方差个主成分的载荷平方和为该主成分的方差, ,等于其特征值等于其特征值l li i. .所选的所选的m m个主成分对变量个主成分对变量x xi i的的总方差贡献总方差贡献为为主成分负荷主成分负荷(载荷载荷,loading):Yj与与Xi的的相关系数相关系数:可以把第一和第二主成分的载荷点出可以把第一和第二主成分的载荷点出一个二维图以直观地显示它们如何解一个二维图以直观地显示它们如何解释原来的变量的。这个图叫做释原来的变量的。这个图叫做载荷图载荷图。该图该图左面三个点是数学、物理、化学三科左面三个点是数学、物理、化学三科,右边三个点是语文、历右边三个点是语文、历史、外语三科。史、外语三科。图中的六个点由于比较挤,不易分清,但只要认识图中的六个点由于比较挤,不易分清,但只要认识到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一到这些点的坐标是前面的第一二主成分载荷,坐标是前面表中第一二列中的数目,还是可以识别的。二列中的数目,还是可以识别的。洛衫矶对洛衫矶对12个人口调查区的数据个人口调查区的数据(data15-01)编号编号 总人口总人口 总雇员数总雇员数 中等校平均校龄中等校平均校龄 专业服务项目数专业服务项目数 中等房价中等房价 1570012.82500 27025000 2100010.96001010000 334008.81000109000 4380013.6170014025000 5400012.8160014025000 682008.326006012000 7120011.44001016000 8910011.533006014000 9990012.534001801800010960013.73600390250001196009.63300801200012940011.4400010013000AnalyzeData Reduction Factor:Variables:pop,school,employ,service,houseDescriptive:Extraction: correlation, Eigenvalue1 (默认默认)Rotation: (加入加入loading plot)Options:特征值、累积贡献率特征值、累积贡献率(对相关矩阵进行主成分分析)(对相关矩阵进行主成分分析)特征值图特征值图二主成分因二主成分因子负荷图子负荷图主成分的因子负荷主成分的因子负荷(每列平方和为相应特征值每列平方和为相应特征值, 而每而每列除以相应特征值的平方根为相应的特征向量列除以相应特征值的平方根为相应的特征向量)这这是主成分与各个变量的相关系数是主成分与各个变量的相关系数有的书把它当成特征向量了有的书把它当成特征向量了SPSS没有给出特征向量没有给出特征向量(?!)销售人员数据销售人员数据(salesmen.sav)(50个观测值)个观测值)销售增长销售增长 销售利润销售利润 新客户销售额新客户销售额 创造力创造力 机械推理机械推理 抽象推理抽象推理 数学推理数学推理93.0096.0097.809.0012.009.0020.0088.8091.8096.807.0010.0010.0015.0095.00100.3099.008.0012.009.0026.00101.30103.80106.8013.0014.0012.0029.00102.00107.80103.0010.0015.0012.0032.0095.8097.5099.3010.0014.0011.0021.0095.5099.5099.009.0012.009.0025.00110.80122.00115.3018.0020.0015.0051.00102.80108.30103.8010.0017.0013.0031.00106.80120.50102.0014.0018.0011.0039.00103.30109.80104.0012.0017.0012.0032.0099.50111.80100.3010.0018.008.0031.00103.50112.50107.0016.0017.0011.0034.0099.50105.50102.308.0010.0011.0034.00特征值、累积贡献率特征值、累积贡献率特征值图特征值图二主成分因二主成分因子负荷图子负荷图主成分的因子负荷主成分的因子负荷(每列平方和为相应特征值每列平方和为相应特征值, 而每而每列除以相应特征值的平方根为相应的特征向量列除以相应特征值的平方根为相应的特征向量)这这是主成分与各个变量的相关系数是主成分与各个变量的相关系数有的书把它当成特征向量了有的书把它当成特征向量了SPSS没有给出特征向量没有给出特征向量(?)主成分回归介绍主成分回归介绍23 国际旅游外汇收入是国民收入是国民经济国际旅游外汇收入是国民收入是国民经济发展的重要组成部分,影响一个国家或地区旅发展的重要组成部分,影响一个国家或地区旅游收入的因素包括自然、文化、社会、经济、游收入的因素包括自然、文化、社会、经济、交通等多方面的因素。交通等多方面的因素。中国统计年鉴中国统计年鉴把第把第三次产业划分为三次产业划分为12个组成部分,分别为:个组成部分,分别为: 一、提出问题一、提出问题24x1:农林牧林牧渔服服务业 x2:地:地质勘勘查水利管理水利管理业x3:交通运:交通运输仓储和和邮电通通讯业 x4:批:批发零售零售贸易和餐食易和餐食业x5:金融保:金融保险业 x6:房地:房地产业 x7:社会服:社会服务业 x8:卫生体育和社会福利生体育和社会福利业 x9:教育文:教育文艺和广播和广播 x10:科学研究和:科学研究和综合合艺术x11:党政机关:党政机关 x12:其他行:其他行业 选自自1998年我国年我国31个省、市、自治区的数据。以旅游外个省、市、自治区的数据。以旅游外汇收入收入(百万美(百万美圆)为因因变量。自量。自变量的量的单位位为亿元人民元人民币。数据略。数据略。 25InterceptCoefficients-205.236116.8459-1.756460.096008标准误差tStatP-valueXVariable1-1.4004522.8676-0.061240.951842XVariable22.67500118.575080.144010.887092XVariable33.3008772.4645561.3393390.197128XVariable4-0.944021.296117-0.728340.475774XVariable5-5.50164.508593-1.220250.238117XVariable64.0544343.9537451.0254670.318728XVariable74.1425.0699840.8169650.42463XVariable8-15.364910.82589-1.419270.172905XVariable917.367668.353372.0791210.052178XVariable109.07888310.147280.8947110.38275XVariable11-10.585.610696-1.885690.075582XVariable121.3507095.0015040.270060.790186 这这个个模模型型是是不不理理想想的的,一一个个最最严严重重的的问问题题是是多多重重共共线线性的问题。性的问题。26线性回归模型的方差分析表线性回归模型的方差分析表方差来源方差来源自由度自由度离差离差平方和平方和方差方差F统计量统计量显著性显著性水平水平回归分析回归分析1211690140 974178.3 10.51335 8.15025E-06 残差残差181667899 92661.04 总计总计3113358039 利用主成分的互不相关性来建立应利用主成分的互不相关性来建立应变量与主成分的回归,在理论上可以达变量与主成分的回归,在理论上可以达到消除多重共线性。到消除多重共线性。 27 二、主成分回归方法二、主成分回归方法28原始数据观测矩阵原始数据观测矩阵主成分系数矩阵主成分系数矩阵29主成分得分矩阵主成分得分矩阵30 根据最小二乘估计,则基于协方差矩阵的主成分回归基于协方差矩阵的主成分回归基于相关系数矩阵的主成分回归基于相关系数矩阵的主成分回归31 例、朗莱用美国联邦政府雇员人数Y和国民总产出隐含平减指数X1,国民总产出X2,失业人数X3,武装力量人数X4,14岁及以上非慈善机构人口数X5,时间变量X6。朗莱所用数据是美国4762年数据,该例是主成分回归用得较早的例子。3233Eigenvalues of the Correlation Matrix(相关系数矩阵的特征根)(相关系数矩阵的特征根) Eigenvalue Difference Proportion Cumulative (特征根)(特征根) ( 差值)差值) (贡献率)贡献率) (累计贡献率)(累计贡献率) 1 4.60337745 3.42803711 0.7672 0.7672 2 1.17534035 0.97191518 0.1959 0.9631 3 0.20342517 0.18849689 0.0339 0.9970 4 0.01492828 0.01237624 0.0025 0.9995 5 0.00255204 0.00217533 0.0004 0.9999 6 0.00037671 0.0001 1.000034 Eigenvectors(特征向量)(特征向量) Prin1 Prin2 Prin3 Prin4 Prin5 Prin6 x1 0.461835 0.057843 -.149120 -.792874 0.337934 -.135193 x2 0.461504 0.053211 -.277681 0.121625 -.149550 0.818485 x3 0.321317 -.595513 0.728306 -.007645 0.009235 0.107451 x4 0.201510 0.798193 0.561607 0.077255 0.024253 0.017970 x5 0.462279 -.045544 -.195985 0.589743 0.548569 -.311589 x6 0.464940 0.000619 -.128116 0.052285 -.749556 -.45038835第九章因子分析第九章因子分析Factor Analysis36男子径赛记录数据男子径赛记录数据(MTF, p384)100m 200m 400m 800m 1500m 5000m 10000m Marathon10.39 20.81 46.84 1.813.7014.04 29.36 137.72 argentin 10.31 20.06 44.84 1.743.5713.28 27.66 128.30 australi 10.44 20.81 46.82 1.793.6013.26 27.72 135.90 austria 10.34 20.68 45.04 1.733.6013.22 27.45 129.95 belgium 10.28 20.58 45.91 1.803.7514.68 30.55 146.62 bermuda 10.22 20.43 45.21 1.733.6613.62 28.62 133.13 brazil 女子径赛记录数据女子径赛记录数据(FTF, p34)100m 200m 400m 800m 1500m 3000m Marathon11.6122.94 54.50 2.154.439.79178.52 argentin 11.2022.35 51.08 1.984.139.08152.37 australi11.4323.09 50.62 1.994.229.34159.37 austria 11.4123.04 52.00 2.004.148.88157.85 belgium 11.4623.05 53.30 2.164.589.81169.98 bermuda 11.3123.17 52.80 2.104.499.77168.75 brazil .1995中国社会数据中国社会数据(317.sav)变量变量:人均人均GDP(元元) 新增固定资产新增固定资产(亿元亿元) 城镇居民人均年可支配收入城镇居民人均年可支配收入(元元) 农村居农村居民家庭人均纯收人民家庭人均纯收人(元元) 高等学校数高等学校数(所所) 卫生机构数卫生机构数(个个)地区地区: 北京北京 天津天津 河北河北 山西山西 内蒙内蒙 辽宁辽宁 吉林吉林 黑龙江黑龙江 上海上海 江苏江苏 浙江浙江 安徽安徽 福建福建 江江西西 山东山东 河南河南 湖北湖北 湖南湖南 广东广东 广西广西 海南海南 四川四川 贵州贵州 云南云南 陕西陕西 甘肃甘肃 青海青海 宁夏宁夏 新疆新疆 (296矩阵矩阵)北京北京 10265 30.81 6235 3223 65 4955天津天津 8164 49.13 4929 2406 21 3182河北河北 3376 77.76 3921 1668 47 10266山西山西 2819 33.97 3305 1206 26 5922内蒙内蒙 3013 54.51 2863 1208 19 4915.于秀林书上说可有三个因子于秀林书上说可有三个因子:收入因子收入因子, 社会因子社会因子, 投资因子投资因子35家中国上市公司家中国上市公司2000年年年年报数据数据 (Chcomp.sav)变量变量:净资产收益率净资产收益率%,总资产报酬率总资产报酬率%,资产负债率资产负债率%,总资产周转率总资产周转率,流动资产周转率流动资产周转率,已获利息倍数已获利息倍数,销售增长率销售增长率%,资本积累率资本积累率%公司公司:深能源深能源, 深南电深南电, 富龙热力富龙热力, 穗恒运穗恒运, 粤电力粤电力,韶能股份韶能股份, 惠天热电惠天热电, 原原水股份水股份, 大连热电大连热电, 龙电股份龙电股份, 华银电力华银电力, 长春经开长春经开, 兴业房产兴业房产, 金丰投资金丰投资, 新黄新黄 浦浦, 浦东金桥浦东金桥, 外高桥外高桥, 中华企业中华企业, 渝开发渝开发, 辽房天辽房天, 粤宏远粤宏远, ST中福中福, 倍特高倍特高新新, 三木集团三木集团, 寰岛实业寰岛实业, 中关中关 村村, 中兴通讯中兴通讯, 长城电脑长城电脑, 青鸟华光青鸟华光, 清华同方清华同方, 永永鼎光缆鼎光缆, 宏图高科宏图高科, 海星科技海星科技, 方正科技方正科技, 复华实业复华实业(358矩阵矩阵)深能源深能源16.8512.3542.32.371.787.1845.7354.5深南电深南电22.0015.3046.51.761.7715.6748.1119.41富龙热力富龙热力8.977.9830.56.17.5810.4317.809.44.Spearmans Example有一组古典文学、法语、英语、数学和音乐的测验成绩,有一组古典文学、法语、英语、数学和音乐的测验成绩, 从它们的相关性表明存在一个潜在的从它们的相关性表明存在一个潜在的“智力智力”因子(因子(F1)。)。而另一组变量,表示身体健康的得分,只要有效就可以对而另一组变量,表示身体健康的得分,只要有效就可以对应另一个潜在的因子(应另一个潜在的因子(F2)。记这些变量为)。记这些变量为(X1,Xp). 我我要寻求下面这样的结构:要寻求下面这样的结构:411 1 引言引言 因因子子分分析析(factor (factor analysis)analysis)是是一一种种数数据据简简化化的的技技术术。它它通通过过研研究究众众多多变变量量之之间间的的内内部部依依赖赖关关系系,探探求求观观测测数数据据中中的的基基本本结结构构,并并用用少少数数几几个个假假想想变变量量来来表表示示其其基基本本的的数数据据结结构构。这这几几个个假假想想变变量量能能够够反反映映原原来来众众多多变变量量的的主主要要信信息息。原原始始的的变变量量是是可可观观测测的的显显在在变变量量,而而假假想想变变量量是是不不可可观测的潜在变量,称为因子。观测的潜在变量,称为因子。 例例如如,在在企企业业形形象象或或品品牌牌形形象象的的研研究究中中,消消费费者者可可以以通通过过一一个个有有2424个个指指标标构构成成的的评评价价体体系系,评评价价百百货货商商场场的的2424个方面的优劣。个方面的优劣。 42 但消费者主要关心的是三个方面,即商店的环境、但消费者主要关心的是三个方面,即商店的环境、商店的服务和商品的价格。因子分析方法可以通过商店的服务和商品的价格。因子分析方法可以通过2424个个变量,找出反映商店环境、商店服务水平和商品价格的变量,找出反映商店环境、商店服务水平和商品价格的三个潜在的因子,对商店进行综合评价。三个潜在的因子,对商店进行综合评价。而这三个公共而这三个公共因子可以表示为:因子可以表示为: 称称 是是不不可可观观测测的的潜潜在在因因子子。2424个个变变量量共共享享这这三三个个因因子子,但但是是每每个个变变量量又又有有自自己己的的个个性性,不被不被包含的部分包含的部分 ,称为特殊因子。,称为特殊因子。43注:注: 因子分析与回归分析不同,因子分析中的因因子分析与回归分析不同,因子分析中的因子是一个比较抽象的概念,而回归因子有非常明子是一个比较抽象的概念,而回归因子有非常明确的实际意义;确的实际意义; 主成分分析分析与因子分析也有不同,主成主成分分析分析与因子分析也有不同,主成分分析仅仅是变量变换,而因子分析需要构造因分分析仅仅是变量变换,而因子分析需要构造因子模型。子模型。 主成分分析主成分分析: :原始变量的线性组合表示新的原始变量的线性组合表示新的综合变量,即主成分;综合变量,即主成分; 因子分析:潜在的假想变量和随机影响变因子分析:潜在的假想变量和随机影响变量的线性组合表示原始变量。量的线性组合表示原始变量。 2 因子分析模型因子分析模型 一、数学模型一、数学模型44 设设 个变量,如果表示为个变量,如果表示为45 称称为为 公公共共因因子子,是是不不可可观观测测的的变变量量,他他们们的的系系数数称称为为因因子子载载荷荷。 是是特特殊殊因因子子,是是不不能能被被前前m m个公共因子包含的部分。个公共因子包含的部分。并且满足:并且满足:即不相关;即不相关;即即 互不相关,方差为互不相关,方差为1 1。46即互不相关,方差不一定相等,即互不相关,方差不一定相等, 。F为公共因子向量为公共因子向量, 每个公共因子每个公共因子(如如Fi)是对模型中是对模型中每个变量都起作用的因子每个变量都起作用的因子; 而而 为特殊因子向量为特殊因子向量, 每每个特殊因子个特殊因子(如如 i)只对一个变量只对一个变量(第第i个个)起作用起作用.用矩阵的表达方式47(协方差结构为协方差结构为 =AA+D的的) )模型模型X= +AF+ 因因子分析的步骤子分析的步骤1根据问题选取原始变量;根据问题选取原始变量;2求其相关阵求其相关阵R,探讨其相关性;探讨其相关性;3从从R求解初始公共因子求解初始公共因子F及因子载荷矩阵及因子载荷矩阵A(主成分法或最大似然法主成分法或最大似然法);4因子旋转;因子旋转;5由由X=AF到到F=bX(因子得分函数因子得分函数);6根据因子得分值进行进一步分析根据因子得分值进行进一步分析.二、因子分析模型的性质二、因子分析模型的性质49 1、原始变量、原始变量X的协方差矩阵的分解的协方差矩阵的分解 D的主对角线上的元素值越小,则公共因子共享的成的主对角线上的元素值越小,则公共因子共享的成分越多。分越多。 2、因子、因子载荷不是惟一的荷不是惟一的 设T为一个一个pp的正交矩的正交矩阵,令,令A*=AT,F*=TF,则模型可以表示模型可以表示为50且满足条件因子模型的条件且满足条件因子模型的条件51 三、三、 因子载荷矩阵中的几个统计特征因子载荷矩阵中的几个统计特征 1 1、因子载荷、因子载荷a aijij的统计意义的统计意义 因子载荷因子载荷 是第是第i i个变量与第个变量与第j j个公共因子的相关系数个公共因子的相关系数 模型为模型为 在上式的左右两边乘以在上式的左右两边乘以 , ,再求数学期望再求数学期望 根据公共因子的模型性质,有根据公共因子的模型性质,有 (载载荷荷矩矩阵阵中中第第i i行行,第第j j列列的的元元素素)反反映映了了第第i i个个变变量量与与第第j j个个公公共共因因子子的的相相关关重重要要性性。绝绝对对值值越越大,相关的密切程度越高。大,相关的密切程度越高。52 2 2、变量共同度的统计意义、变量共同度的统计意义定定义义:变变量量 的的共共同同度度是是因因子子载载荷荷矩矩阵阵的的第第i i行行的的元元素的平方和。记为素的平方和。记为统计意义统计意义:两边求方差两边求方差 所所有有的的公公共共因因子子和和特特殊殊因因子子对对变变量量 的的贡贡献献为为1 1。如如果果 非非常常靠靠近近1 1, 非非常常小小,则则因因子子分分析析的的效效果果好好,从从原原变变量量空空间间到到公公共共因因子空间的转化性质好。子空间的转化性质好。53 3 3、公共因子、公共因子 方差贡献的统计意义方差贡献的统计意义因因子子载载荷荷矩矩阵阵A A中中各各列列元元素素的的平平方方和和 称称为为 对对 的的方方差差贡贡献献和和。衡衡量量 的的相相对对重重要要性性。3 3 因子因子载荷矩荷矩阵的估的估计方法方法 设随机向量随机向量 的均的均值为 ,协方差方差为 , 为对应的特征的特征值。 标准化特征向量,准化特征向量,则54(一)主成分分析法(一)主成分分析法 上式上式给出的出的 表达式是精确的,然而,它表达式是精确的,然而,它实际上是毫无上是毫无价价值的,因的,因为我我们的目的是的目的是寻求用少数几个公共因子解求用少数几个公共因子解释,故略去后面的,故略去后面的p-m项的的贡献,有献,有55 上式有一个假定,模型中的特殊因子是不重要的,因上式有一个假定,模型中的特殊因子是不重要的,因而从而从 的分解中忽略了特殊因子的方差。的分解中忽略了特殊因子的方差。 56注:残差矩阵57其中其中S为样本的协方差矩阵为样本的协方差矩阵。(二)主因子法(二)主因子法 主因子方法是主因子方法是对主成分方法的修正,假定我主成分方法的修正,假定我们首先首先对变量量进行行标准化准化变换。则 R=AA+D 相关系数相关系数 矩矩阵 R*=AA=R-D称称R*为约相关矩相关矩阵。 二者的不同之二者的不同之处:R*对角角线上的元素是上的元素是 ,R的的对角角线元素元素为1。5859直接求直接求R*的前的前p个特征根和对应的正交特征向量。得如下个特征根和对应的正交特征向量。得如下的矩阵:的矩阵:估计估计 的值的值, 代入代入60 当特殊因子当特殊因子 的方差不为的方差不为0 0且且已知的,问题非常好解决。61 在在实际的的应用中,个性方差矩用中,个性方差矩阵一般都是未知的,一般都是未知的,可以通可以通过一一组样本来估本来估计。估估计的的方法有如下几种方法有如下几种:62 首先,求首先,求 的初始估计值,构造出的初始估计值,构造出 1)取取 ,在这个情况下主因子解与主成分解等,在这个情况下主因子解与主成分解等价;价; 2 2)取)取 , 为为x xi i与其他所有的原始变量与其他所有的原始变量x xj j的复的复相关系数的平方,即相关系数的平方,即x xi i对其余的对其余的p-1p-1个个x xj j的回归方程的的回归方程的判定系数,这是因为判定系数,这是因为x xi i 与公共因子的关系是通过其余与公共因子的关系是通过其余的的p-1p-1个个x xj j 的线性组合联系起来的;的线性组合联系起来的;63 2 2)取取 ,这这意意味味着着取取x xi i与与其其余余的的x xj j的的简单相关系数的绝对值最大者;简单相关系数的绝对值最大者; 4 4)取)取 ,其中要求该值为正数。,其中要求该值为正数。 5 5)取)取 ,其中,其中 是是 的对角元素。的对角元素。 (三)极大似然估(三)极大似然估计法(略)法(略) 如果假定公共因子如果假定公共因子F和特殊因子和特殊因子 服从正服从正态分布,分布,那么可以得到因子那么可以得到因子载荷和特殊因子方差的极大似然荷和特殊因子方差的极大似然估估计。设 为来自正来自正态总体体Np( , )的随机的随机样本。本。 64 它通它通过 依依赖 和和 。上式并不能唯一确定。上式并不能唯一确定 ,为此此可添加一个唯一性条件:可添加一个唯一性条件: 这里里 式一个式一个对角矩角矩阵,用数,用数值极大化的方法可以得极大化的方法可以得到极大似然估到极大似然估计 。极大似然估。极大似然估计 将使将使 为对角角阵,且似然函数达到最大。,且似然函数达到最大。 相相应的共同度的似然估的共同度的似然估计为: 第第J个因子个因子对总方差的方差的贡献:献:65 例例 假定某地固定假定某地固定资产投投资率率 ,通,通货膨膨胀率率 失失业率率 ,相关系数矩,相关系数矩阵R为试用主成分分析法求因子分析模型。用主成分分析法求因子分析模型。66 特征根为: 67 可取前两个因子F1和F2为公共因子,第一公因子F1物价就业因子,对X的贡献为1.55( 即,(0.569 , 0.783, 0.783)的模长平方)。第二公因子F2为投资因子,对X的贡献为0.85。共同度共同度分别为1,0.706,0.706(表达式中每行的系数平方和)。68假定某地固定假定某地固定资产投投资率率 ,通通货膨膨胀率率 , 失失业率率 ,相关系数矩,相关系数矩阵R如前。如前。试用主因子分析法求因子分析模型。用主因子分析法求因子分析模型。假定用假定用 代替初始的代替初始的 6970 特征根为特征根为: 对应的非零特征向量为:对应的非零特征向量为:71
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号