数学建模主成分分析市公开课金奖市赛课一等奖课件-

主成份分析主成份分析Principal component analysis第1页第1页主成份分析基本思想主成份分析基本思想主成份数学模型与几何解释主成份数学模型与几何解释主成份推导主成份推导主成份分析应用主成份分析应用主成份回归主成份回归第2页第2页主成份分析，是一个通过主成份分析，是一个通过降维降维来简化数据结构办法：来简化数据结构办法：把把多个多个变量化为变量化为少数少数几种综合变量（综合指标）几种综合变量（综合指标），而而这这几几种种综综合合变变量量能能够够反反应应本本来来多多个个变变量量大大部部分分信信息息,（85%85%以以上上），所所含含信信息息又又互互不不重重叠叠，即即各各个个指指标标它它们之间要互相们之间要互相独立独立，互不相关互不相关。主成份分析主要起着主成份分析主要起着降维降维和和简化数据结构简化数据结构作用。作用。这些综合变量就叫这些综合变量就叫因子因子或或主成份主成份，它是不可观测，即，它是不可观测，即它不是详细变量它不是详细变量,只是几种指标只是几种指标综合综合。1 基本思想第3页第3页例：小学各科成绩例：小学各科成绩评估评估能够用下面能够用下面综合综合成绩来表达：成绩来表达：a1a1语文语文a2a2数学数学a3a3自然自然a4a4社会科学社会科学拟定权重系数过程就能够看作是拟定权重系数过程就能够看作是主成份主成份分析分析过程，得到加权成绩总和就相对于过程，得到加权成绩总和就相对于新综合变量新综合变量主成份主成份主成份分析法是一个惯用基于变量主成份分析法是一个惯用基于变量协方差矩阵协方差矩阵对信息进行处理、压缩和抽提有效办法。对信息进行处理、压缩和抽提有效办法。第4页第4页为何要依据方差拟定主成份？为何要依据方差拟定主成份？为何要依据方差拟定主成份？为何要依据方差拟定主成份？情形情形II II下总分方差为下总分方差为0 0，显然不能反应三个学生各科，显然不能反应三个学生各科成绩各有所长实际情形，而成绩各有所长实际情形，而红色红色标识变量相应方差最标识变量相应方差最大，可反应原始数据大部分信息大，可反应原始数据大部分信息第5页第5页对主成份要求对主成份要求对主成份要求对主成份要求上例可见，用总分有时能够反应原分数表情况，保留原有信息；有时则把信息丢尽，不能反应原理情况和差异。依据总分所对应方差能够确定其代表了多大百分比原始数据（分数）信息。普通来说，我们希望能用一个或少数几个综合指标（分数）来代替原来分数表做统计分析，而且希望新综合指标能够尽也许地保留原有信息，并含有最大方差。第6页第6页2 2 数学模型与几何解释数学模型与几何解释假设我们所讨论实际问题中，有假设我们所讨论实际问题中，有p p个指标，我个指标，我们把这们把这p p个指标看作个指标看作p p个随机变量，记为个随机变量，记为X1，X2，Xp，主成份分析就是要把这主成份分析就是要把这p p个指标问题，转变为讨论个指标问题，转变为讨论 m m 个新个新指标指标F1，F2，Fm (m|t|Intercept x1X2x31111-10.12799-0.051400.586950.286851.212160.070280.094620.10221-8.36-0.73 6.202.810.0001 0.48830.00040.0263Parameter EstimatesDependent Mean 21.89091R-Square0.9919Root MSE 0.48887Adj R-Sq0.9884Summary of Fit第57页第57页F1F2F3x1X2x30.70630.04350.7065-0.03570.9990-0.02580.70700.0070-0.7072EigenvectorsEigenvalueDifference ProportionCumulativePCR1PCR2PCR31.9992 0.99820.00261.00100.99550.6664 0.3327 0.00090.6664 0.99911.0000Eigenvalues of the Correlation MatrixF1=0.7063x1+0.0435x2+0.7065x3F2=-0.0357x1+0.9990 x2-0.0258x3第58页第58页 Obs x1 x2 x3 y*F1 F2 F3 1 -1.50972 0.54571 -1.53319 -1.31852 -2.12589 0.63866 0.020722 2 -1.11305 0.48507 -1.20848 -1.20848 -1.61893 0.55554 0.071113 3 -0.76971 -0.12127 -0.80140 -0.63625 -1.11517 -0.07298 0.021730 4 -0.63637 -0.12127 -0.62209 -0.61424 -0.89430 -0.08237 -0.010813 5 -0.45970 -1.33395 -0.37008 -0.68027 -0.64421 -1.30669 -0.072582 6 -0.12970 -0.66697 -0.09869 -0.32813 -0.19035 -0.65915 -0.026553 7 0.25031 -0.72761 0.30355 0.17807 0.35962 -0.74367 -0.042781 8 0.59365 1.39458 0.69610 1.01440 0.97180 1.35406 -0.062863 9 1.05032 1.03078 1.09350 1.36654 1.55932 0.96405 -0.023574 10 1.24366 1.09141 1.19042 1.25649 1.76700 1.01522 0.044988 11 1.48033 -1.57648 1.35035 0.97038 1.93110 -1.66266 0.080613第59页第59页 SourceDFSum of SquaresMean SquareF 值值ProbFModelErrorTotal28109.88280.117210.00004.94140.0147337.23020.0001Analysis of VarianceVariableDFEstimateStandard Errort 值值Prob|t|F1F2110.69000.19130.02710.038325.4859 4.99300.00010.0011Parameter Estimates第60页第60页原则化后变量把原则化变量还原，代入得：第61页第61页影响人们外出旅游原因有居民收入、交通、闲暇影响人们外出旅游原因有居民收入、交通、闲暇时间、旅游目的地治安情况、旅游目的地环境卫时间、旅游目的地治安情况、旅游目的地环境卫生以及接待能力等等。生以及接待能力等等。由于资料可得性和代表性，选择下列变量由于资料可得性和代表性，选择下列变量。国内旅游人数（百万人）农村居民人均纯收入（元）城乡居民人均可支配收入（元）公路线路里程（万公里）数据见sasuser.tourmx例例2 国内旅游人数模型国内旅游人数模型第62页第62页VariableDFEstimateStandardErrort 值值Prob|t|Intercept IncomeonIncomeocHighway1111417.8201-0.13810.1737-3.000974.02300.06990.03020.81925.6445-1.97595.7589-3.66330.0005 0.08360.00040.0064Parameter EstimatesDependent Mean 558.1017R-Square0.9920Root MSE 19.Adj R-Sq0.9890Summary of Fit第63页第63页F1F2F3x1X2x30.58100.59180.5588-0.5167-0.26230.81500.6289-0.76220.1533EigenvectorsEigenvalueDifference ProportionCumulativePCR1PCR2PCR32.8088 0.18500.00622.62380.17880.9363 0.06170.00210.9363 0.99791.0000Eigenvalues of the Correlation MatrixF1=0.5810 x1+0.5918x2+0.5588x3F2=-0.5167x1-0.2623x2+0.8150 x3第64页第64页 SourceDFSum of SquaresMean SquareF 值值ProbFModelErrorTotal291110.71130.288711.00005.35560.0321166.93280.0001Analysis of VarianceVariableDFEstimateStandard Errort 值值Prob|t|F1F2110.5767-0.46200.03220.125617.8977-3.67940.00010.0051Parameter Estimates第65页第65页原则化后变量把原则化变量还原，代入得：第66页第66页主成份改进1、无量纲化改进无量纲化改进从原则化数据提取主成份，事实上只包括了各指标间互相从原则化数据提取主成份，事实上只包括了各指标间互相影响这一部分信息，不能准确反应原始数据所包括所有信影响这一部分信息，不能准确反应原始数据所包括所有信息。息。第67页第67页改进原始数据无量纲化办法改进原始数据无量纲化办法u 均值化办法均值化办法均值化后，数据协方差矩阵均值化后，数据协方差矩阵S 中元素中元素第68页第68页均值化后，数据协方差矩阵均值化后，数据协方差矩阵对角线上是原变量原则差系数平方，其它位置上对角线上是原变量原则差系数平方，其它位置上是变量两两之间互相关系。是变量两两之间互相关系。均值化处理后协方差矩阵不但消除了指标量纲与数均值化处理后协方差矩阵不但消除了指标量纲与数量级影响，还能包括原始数据所有信息。量级影响，还能包括原始数据所有信息。第69页第69页2、广义主成份分析广义主成份分析非线性主成份非线性主成份第70页第70页有许多实际问题，其观测数据阵并非线性结构，而呈现非线性结构。对于非线性结构观测阵，应依据指标变量详细非线性结构，选取适当曲面作坐标平面。采用原指标非线性函数结构综合指标。由Grandesikan（1966）和Wilkinson（1968）提出。他们提议用原变量广义线性式其中为X已知函数形式第71页第71页对于给定观测数据阵，若采用线性主成份分析效果很差（S或R特性值取值分散，指标压缩很少或分析结果严重违反客观实际），可采用非线性主成份分析。计算Y观测数据阵 .依据已给定函数关系式对Y求线性主成份，求得 k 个线性主成份第72页第72页广义主成份分析关键在于拟定非线性函数终归取何种形式，应视详细情况，结合相关专业理论或实践经验给定。第73页第73页成份向量成份向量广义主成份分析广义主成份分析设随机向量设随机向量满足下列条件：满足下列条件：从而每一分量可视为某一成份含量，则称从而每一分量可视为某一成份含量，则称X为为成份向量。成份向量。其观测数据阵其观测数据阵称为合成数据称为合成数据第74页第74页“对数对数-线性比线性比”主成份主成份Aitchison专家（专家（1981年）提出用年）提出用“对数对数-比比”变换变换为成份向量为成份向量X任一恒正函数。任一恒正函数。普通可取普通可取相应相应Y观测数据阵为观测数据阵为称之为称之为“对数对数-中心化中心化”变换变换第75页第75页第76页第76页