多重线性回归分析课件-

1内内容容基本原理基本原理方法简介方法简介分析步骤分析步骤几点补充几点补充2一、方法简介一、方法简介 1.1 分析目的与方法选择分析目的与方法选择研究一个因变量与一个自变量间的线性关系时研究一个因变量与一个自变量间的线性关系时简单线性回归分析简单线性回归分析研究一个因变量与多个自变量间的线性关系时研究一个因变量与多个自变量间的线性关系时多重线性回归分析多重线性回归分析3一、方法简介一、方法简介1.2 概念概念用回归方程用回归方程定量地刻画一个因变量与多个自定量地刻画一个因变量与多个自变量之间的线性依存关系变量之间的线性依存关系，称为多重线性回归分，称为多重线性回归分析（析（multiple linear regression analysis）。）。自变量是相互独立的连续型变量或分类变量。自变量是相互独立的连续型变量或分类变量。一、方法简介一、方法简介1.3 数据结构数据结构表表1 进行多重线性回归分析资料的数据结构进行多重线性回归分析资料的数据结构45二、基本原理二、基本原理 2.1 原理简介原理简介多重线性回归模型：多重线性回归模型： Y=bb0+bb1X1+bb2X2+bbkXk+ee=bbX+ee 其中，其中，bbj (j=0, 1 , 2 , k)为未知参数，为未知参数，ee为随机误差项。为随机误差项。6二、基本原理二、基本原理多重线性回归模型中包含多个自变量，多重线性回归模型中包含多个自变量，它们同时对因变量它们同时对因变量Y 发生作用。发生作用。若要考察一个自变量对若要考察一个自变量对Y 的影响，就必的影响，就必须假设其他自变量保持不变。须假设其他自变量保持不变。因此，多重线性回归模型中的回归系数因此，多重线性回归模型中的回归系数为为偏回归系数偏回归系数。它反映的是当模型中的它反映的是当模型中的其他自变量不变其他自变量不变时时，其中，其中一个自变量对因变量一个自变量对因变量Y 的均值的影的均值的影响响。7二、基本原理二、基本原理 2.2 前提条件前提条件多重线性回归分析要求资料满足线性多重线性回归分析要求资料满足线性(Linear)、独立性独立性(Independence)、正态性、正态性(Normality)和方差和方差齐性齐性(Equal variance)，即，即LINE条件条件。除此之外，还要求多个自变量之间相关性不除此之外，还要求多个自变量之间相关性不要太强。要太强。 8二、基本原理二、基本原理 2.2 前提条件前提条件线性线性指自变量与因变量之间的关系是线性的指自变量与因变量之间的关系是线性的独立性独立性指各观测值之间是相互独立的指各观测值之间是相互独立的正态性正态性指自变量取不同值时，因变量服从正指自变量取不同值时，因变量服从正态分布态分布方差齐性方差齐性指自变量取不同值时，因变量的方指自变量取不同值时，因变量的方差相等差相等 9三、分析步骤三、分析步骤1. 基本任务基本任务求出模型中参数的估计值，对模型和参数进求出模型中参数的估计值，对模型和参数进行假设检验；行假设检验；对自变量进行共线性诊断，对观测值进行异对自变量进行共线性诊断，对观测值进行异常值诊断；常值诊断；结合统计学知识和专业知识，对回归方程进结合统计学知识和专业知识，对回归方程进行合理的解释，并加以应用。行合理的解释，并加以应用。 10三、分析步骤三、分析步骤2. 具体步骤具体步骤2.1 回归参数估计回归参数估计多重线性回归分析的参数估计，常采用最小多重线性回归分析的参数估计，常采用最小二乘法二乘法(OLS)进行。进行。参数估计值为：参数估计值为：11三、分析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验根据方差分析的思想，将总的离均差平方和根据方差分析的思想，将总的离均差平方和SS总总分解为回归平方和分解为回归平方和SS回回和残差平方和和残差平方和SS残残两部两部分。分。 SS总总的自由度为的自由度为n-1， SS回回的自由度为的自由度为k， SS残残的自由度为的自由度为n-k-1。SS总总= SS回归回归+ SS残差残差SSSS总总总总( (总平方和总平方和总平方和总平方和) )v v总总总总= =n n-1-1SSSS回归回归回归回归( (回归平方和回归平方和回归平方和回归平方和) )v v回归回归回归回归=1=1SSSS残差残差残差残差( (残差平方和残差平方和残差平方和残差平方和) )v v残差残差残差残差= =n n- -p p-1 -1 v总总= v回归回归+ v残差残差自变量的个数自变量的个数13三、分析步骤三、分析步骤2. 具体步骤具体步骤2.2 模型检验模型检验模型的显著性检验步骤为：模型的显著性检验步骤为：第一步，建立检验假设。第一步，建立检验假设。 H0：bb1=bb2= =bbk=0 H1: bb1, b b2, , b bk不同时为不同时为014三、分析步骤三、分析步骤第二步，计算统计量第二步，计算统计量F的值。的值。第三步，确定第三步，确定P值，下统计学结论。值，下统计学结论。根据检验统计量根据检验统计量F的值和自由度，确定其对的值和自由度，确定其对应的应的P值。若值。若Pa a，则接受，则接受H0，认为回归模型的系，认为回归模型的系数全部为数全部为0；若；若P ta a/2(n-k-1)或或t - ta a/2(n-k-1)，则，则Pa a。此。此时，拒绝时，拒绝H0，接受，接受H1，认为该回归系数不等于，认为该回归系数不等于0。反之，则接受反之，则接受H0，认为该回归系数为，认为该回归系数为0。18三、分析步骤三、分析步骤2. 具体步骤具体步骤2.4 变量筛选变量筛选不是所有的自变量都对因变量的作用都有统不是所有的自变量都对因变量的作用都有统计学意义。计学意义。故需要找到一个较好的回归方程，使之满足：故需要找到一个较好的回归方程，使之满足：方程内的自变量对回归都有统计学意义，方程外方程内的自变量对回归都有统计学意义，方程外的自变量对回归都无统计学意义。的自变量对回归都无统计学意义。19三、分析步骤三、分析步骤这就是自变量的选择问题，或称为变量筛选。这就是自变量的选择问题，或称为变量筛选。选择时，选择时，一要尽可能地一要尽可能地不漏掉不漏掉重要的自变量；重要的自变量；二要二要尽可能地减少尽可能地减少自变量的个数，保持模型的精简。自变量的个数，保持模型的精简。就回归方程而言，每个变量均有两种可能性，就回归方程而言，每个变量均有两种可能性，即被选择或被踢除。所以，所有可能的模型有即被选择或被踢除。所以，所有可能的模型有2k个个(k为自变量个数为自变量个数)。自变量个数较多时，计算量过大。此时，需要自变量个数较多时，计算量过大。此时，需要一定的变量筛选方法。一定的变量筛选方法。全局择优法全局择优法变量筛选变量筛选逐步选择法逐步选择法校正决定系数校正决定系数R2选择法选择法Cp选择法选择法前进法前进法后退法后退法逐步回归法逐步回归法c21三、分析步骤三、分析步骤2.4.1 前进法前进法(FORWARD) 回归方程中变量回归方程中变量从无到有从无到有依次选择一个自变依次选择一个自变量进入回归方程，并根据该变量在回归方程中的量进入回归方程，并根据该变量在回归方程中的型离差平方和型离差平方和(SS2)计算计算F统计量及统计量及P值。值。当当P小于小于sle (规定的选变量进入方程的临界水规定的选变量进入方程的临界水平平)则该变量入选，否则不能入选。则该变量入选，否则不能入选。 22三、分析步骤三、分析步骤当回归方程中变量少时某变量不符合入选标当回归方程中变量少时某变量不符合入选标准，但随着回归方程中变量逐次增多时准，但随着回归方程中变量逐次增多时,该变量就该变量就可能符合入选标准；这样直到没有变量可入选为可能符合入选标准；这样直到没有变量可入选为止。止。具体而言，是从仅含常数项具体而言，是从仅含常数项(即截距项即截距项)的最的最简单模型开始，逐步在模型中添加自变量。简单模型开始，逐步在模型中添加自变量。 23三、分析步骤三、分析步骤局限性：局限性： sle取值小时，可能没有一个变量能入选；取值小时，可能没有一个变量能入选； sle取值大时，开始选入的变量后来在新条件取值大时，开始选入的变量后来在新条件下不再进行检验，因而不能剔除后来变得无统计下不再进行检验，因而不能剔除后来变得无统计学意义的变量。学意义的变量。 24三、分析步骤三、分析步骤2.4.2 后退法后退法(BACKWARD) 从模型中包含全部自变量开始，计算留在回从模型中包含全部自变量开始，计算留在回归方程中的各个自变量所产生的归方程中的各个自变量所产生的F统计量和统计量和P值，值，当当P值小于值小于sls(规定的从方程中踢除变量的临界水规定的从方程中踢除变量的临界水准准)则将此变量保留在方程中。则将此变量保留在方程中。否则，从最大的否则，从最大的P值所对应的自变量开始逐一值所对应的自变量开始逐一踢除，直到回归方程中没有变量可以被踢除时为踢除，直到回归方程中没有变量可以被踢除时为止。止。 25三、分析步骤三、分析步骤局限性：局限性： sls大时，任何一个自变量都不能被踢除；大时，任何一个自变量都不能被踢除； sls小时，开始被踢除的自变量后来在新条件小时，开始被踢除的自变量后来在新条件下即使变得对因变量有较大的贡献了，也不能再下即使变得对因变量有较大的贡献了，也不能再次被选入回归方程并参与检验。次被选入回归方程并参与检验。 26三、分析步骤三、分析步骤2.4.3 逐步回归法逐步回归法(STEPWISE) 此法是前进法和后退法的结合。此法是前进法和后退法的结合。回归方程中的变量从无到有像前进法那样，回归方程中的变量从无到有像前进法那样，根据根据F统计量和统计量和P值大小按值大小按sle水平决定该自变量是水平决定该自变量是否入选。否入选。 27三、分析步骤三、分析步骤当回归方程选入自变量后，又像后退法那样，当回归方程选入自变量后，又像后退法那样，根据根据F统计量和统计量和P值按值按sls水平踢除无统计学意义的水平踢除无统计学意义的各自变量，依次类推。各自变量，依次类推。这样直到没有自变量可入选，也没有自变量这样直到没有自变量可入选，也没有自变量可被踢除或入选的自变量就是刚被剔除的自变量可被踢除或入选的自变量就是刚被剔除的自变量时，则停止逐步筛选过程。时，则停止逐步筛选过程。 28三、分析步骤三、分析步骤2.4.3 逐步回归法逐步回归法逐步回归法逐步回归法有无符合纳入有无符合纳入标准的新变量标准的新变量纳入新变量纳入新变量有无符合排除有无符合排除标准的变量标准的变量踢除踢除完成完成无无有有无无有有29三、分析步骤三、分析步骤逐步回归法比前进法和后退法都能更好地选出变逐步回归法比前进法和后退法都能更好地选出变量构造模型，但它也有局限性：量构造模型，但它也有局限性：其一，当有其一，当有m个变量入选后，选第个变量入选后，选第m1个变个变量时，对它来说，前量时，对它来说，前m个变量不一定是最佳组合；个变量不一定是最佳组合；其二，选入或踢除自变量仅以其二，选入或踢除自变量仅以F值和值和P值作标值作标准，完全没考虑其它标准。准，完全没考虑其它标准。 30三、分析步骤三、分析步骤2.4.4 变量筛选方法的选择变量筛选方法的选择究竟哪一种筛选变量的方法最好？这个问题究竟哪一种筛选变量的方法最好？这个问题没有绝对的定论。没有绝对的定论。一般来说，逐步回归法和最优回归子集法较一般来说，逐步回归法和最优回归子集法较好。对于一个给定的资料，可好。对于一个给定的资料，可试用多种变量筛选试用多种变量筛选的方法的方法，结合以下几条判断原则，从中选择最佳，结合以下几条判断原则，从中选择最佳者。者。31三、分析步骤三、分析步骤其一，拟合的回归方程在整体上有统计学意义；其一，拟合的回归方程在整体上有统计学意义；其二，回归方程中各回归参数的估计值的假设检验结果其二，回归方程中各回归参数的估计值的假设检验结果都有统计学意义；都有统计学意义；其三，回归方程中各回归参数的估计值的正负号与其后其三，回归方程中各回归参数的估计值的正负号与其后的变量在专业上的含义相吻合；的变量在专业上的含义相吻合；其四，根据回归方程计算出因变量的所有预测值在专业上其四，根据回归方程计算出因变量的所有预测值在专业上都有意义。都有意义。其五，若有多个较好的多重线性回归方程时，残差平方其五，若有多个较好的多重线性回归方程时，残差平方和较小且多重线性回归方程中所含的自变量的个数又较少者和较小且多重线性回归方程中所含的自变量的个数又较少者为最佳。为最佳。32三、分析步骤三、分析步骤2.5 模型拟合效果评价模型拟合效果评价2.5.1 决定系数决定系数(R2) 即复即复(全全)相关系数的平方，其值等于因变量相关系数的平方，其值等于因变量观测值与预测值之间简单相关系数的平方。计算观测值与预测值之间简单相关系数的平方。计算公式为：公式为： 33三、分析步骤三、分析步骤2.5 模型拟合效果评价模型拟合效果评价2.5.1 决定系数决定系数(R2) R2取值介于取值介于0到到1之间，其含义为自变量能够之间，其含义为自变量能够解释因变量解释因变量y变异的百分比。变异的百分比。 R2越接近于越接近于1，说明线性回归对实际数据的，说明线性回归对实际数据的拟合程度越好。拟合程度越好。 34三、分析步骤三、分析步骤2.5 模型拟合效果评价模型拟合效果评价2.5.2 校正决定系数校正决定系数(Rc2) 随着模型中自变量个数的增加，决定系数随着模型中自变量个数的增加，决定系数R2将不断增大，这不符合回归模型中自变量个数尽将不断增大，这不符合回归模型中自变量个数尽可能少的原则。可能少的原则。 35三、分析步骤三、分析步骤2.5 模型拟合效果评价模型拟合效果评价2.5.2 校正决定系数校正决定系数(Rc2) 故在评价两个包含不同个数自变量的回归模故在评价两个包含不同个数自变量的回归模型的拟合效果时，不能简单地用决定系数作为评型的拟合效果时，不能简单地用决定系数作为评价标准。价标准。此时，必须考虑回归模型中自变量个数的影此时，必须考虑回归模型中自变量个数的影响。响。 36三、分析步骤三、分析步骤2.5 模型拟合效果评价模型拟合效果评价2.5.2 校正决定系数校正决定系数(Rc2) 构造校正决定系数，其公式为：构造校正决定系数，其公式为：其中，其中，n为样本含量，为样本含量，p为模型中自变量个数。为模型中自变量个数。决定系数相同时，自变量个数越多，决定系数相同时，自变量个数越多， Rc2越小。越小。 37三、分析步骤三、分析步骤2.5 模型拟合效果评价模型拟合效果评价2.5.3 AIC信息准则信息准则该准则由日本学者赤池于该准则由日本学者赤池于1973年提出，广泛年提出，广泛应用于时间序列分析中自回归阶数的确定，多重应用于时间序列分析中自回归阶数的确定，多重回归、广义线性回归中自变量的筛选以及非线性回归、广义线性回归中自变量的筛选以及非线性回归模型的比较和选优。该统计量取值越小，反回归模型的比较和选优。该统计量取值越小，反映模型拟合效果越好。映模型拟合效果越好。在进行多重线性回归分析时，除了要满足在进行多重线性回归分析时，除了要满足LINE 外，外，还要求各变量之间不能存在共线性，即各变量之间还要求各变量之间不能存在共线性，即各变量之间要相互独立。为此，需要进行共线性诊断；要相互独立。为此，需要进行共线性诊断；当自变量均为随机变量时，若它们之间高度相关，当自变量均为随机变量时，若它们之间高度相关，则称变量间存在多重共线性则称变量间存在多重共线性(multicollinearity)；自自变量之间不存在多重共线性，即称其互相独立。变量之间不存在多重共线性，即称其互相独立。三、分析步骤三、分析步骤2.6 共线性诊断共线性诊断39三、分析步骤三、分析步骤多重线性回归分析中，可能会出现以下问题：多重线性回归分析中，可能会出现以下问题：(1)回归方程的检验有统计学意义，而各偏回归系数的检验均回归方程的检验有统计学意义，而各偏回归系数的检验均无统计学意义。无统计学意义。(2)偏回归系数的估计值大小或其符号与实际情况和专业知识偏回归系数的估计值大小或其符号与实际情况和专业知识相违背，难以解释。相违背，难以解释。(3)某个（些）与因变量关系密切的自变量，因为参数标准误某个（些）与因变量关系密切的自变量，因为参数标准误的估计值较大，相应的估计值较大，相应t值就会变得较小，造成其偏回归系数值就会变得较小，造成其偏回归系数无统计学意义。无统计学意义。40三、分析步骤三、分析步骤导致这些问题的原因可能有：导致这些问题的原因可能有： (1)研究设计不够合理；研究设计不够合理； (2)资料收集存在问题；资料收集存在问题； (3)自变量间近似线性；自变量间近似线性； (4)数据中存在异常点；数据中存在异常点； (5)样本少而自变量多。样本少而自变量多。 41三、分析步骤三、分析步骤何谓多重共线性？何谓多重共线性？自变量间的近似线性关系，即是多重共线性。自变量间的近似线性关系，即是多重共线性。由于数据自身的特征，回归模型中的自变量由于数据自身的特征，回归模型中的自变量之间或多或少地存在一些相关性，这违反了自变之间或多或少地存在一些相关性，这违反了自变量间相互独立的假设条件，称为多重共线性。量间相互独立的假设条件，称为多重共线性。 42三、分析步骤三、分析步骤多重共线性的分类：多重共线性的分类： (1)严重的多重共线性严重的多重共线性此时，自变量之间存在着较高甚至完全的线此时，自变量之间存在着较高甚至完全的线性相关关系，虽然最小二乘法仍可应用，但由于性相关关系，虽然最小二乘法仍可应用，但由于观测误差的稳定性变差，所得的估计值可能面目观测误差的稳定性变差，所得的估计值可能面目全非。这类情况较为少见。全非。这类情况较为少见。 (2)某种程度的多重共线性某种程度的多重共线性此时，最小二乘法仍可获得参数的无偏估计此时，最小二乘法仍可获得参数的无偏估计值，但参数的方差估计值将变得很大，导致估计值，但参数的方差估计值将变得很大，导致估计精度下降，且无法判断自变量对因变量的影响程精度下降，且无法判断自变量对因变量的影响程度。度。例例研究胎儿受精龄研究胎儿受精龄Y/周与胎儿身长周与胎儿身长X1/cm、头围、头围 X2/cm，体重，体重X3/g之间的依存关系。之间的依存关系。显然，此处的显然，此处的3个解释变量个解释变量X1、X2、X3 之间存在着之间存在着高度的共线性，高度的共线性， X1、X2、X3 两项对两项对Y 的过分贡献只的过分贡献只能用能用X2 项的负系数抵消，造成其专业意义无法解释项的负系数抵消，造成其专业意义无法解释而出现悖论。而出现悖论。三、分析步骤三、分析步骤相关系数相关系数 Correlation容忍度容忍度 Torelance方差膨胀因子方差膨胀因子 VIF条件数条件数 Condition index方差比例方差比例Variance proportions, VP 方差相关矩阵方差相关矩阵Variance Matrix可用来判断变量可用来判断变量之间的独立性、之间的独立性、或说多重共线性或说多重共线性三、分析步骤三、分析步骤如果两个自变量之间的相关系数超过如果两个自变量之间的相关系数超过0.9，则会带来共，则会带来共线性问题，如果在线性问题，如果在0.8以下，一般不会出现多大问题。以下，一般不会出现多大问题。共线性诊断共线性诊断1.两个自变量之间的相关系数两个自变量之间的相关系数2.容忍度容忍度 Tolerance /方差膨胀因子方差膨胀因子 VIF经验表明：经验表明：VIF大于大于5或或10时，存在严重的共线性；一般时，存在严重的共线性；一般要求要求Tolerance必须大于必须大于0.1，或，或 VIF必须小于必须小于10。容忍度容忍度 =1/VIF473.条件数条件数最大特征根与其余每个特征根比值的平方根，称为条最大特征根与其余每个特征根比值的平方根，称为条件指数件指数(conditional number)，公式为：，公式为：而最大条件指数，简称为条件数，其值为最大特征而最大条件指数，简称为条件数，其值为最大特征根与最小特征根之比值的平方根。即：根与最小特征根之比值的平方根。即： 48 条件数越大，说明设计矩阵条件数越大，说明设计矩阵X具有越强的共具有越强的共线性。线性。经验上，若经验上，若0CNk30，则认，则认为自变量间存在严重的多重共线性。为自变量间存在严重的多重共线性。 49三、分析步骤三、分析步骤2.6.3 共线性的解决方法共线性的解决方法 (1)变量筛选变量筛选采用自变量筛选的方法一般可选出对因变量有统计学采用自变量筛选的方法一般可选出对因变量有统计学影响且相互之间独立或相关性较低的一组自变量。影响且相互之间独立或相关性较低的一组自变量。 (2)有偏估计有偏估计自变量间存在多重共线性且专业上认为需要保留在模自变量间存在多重共线性且专业上认为需要保留在模型中时，不宜使用最小二乘法估计模型。此时，可采用有型中时，不宜使用最小二乘法估计模型。此时，可采用有偏估计。偏估计。此类方法包括岭回归分析、主成分回归分析等。此类方法包括岭回归分析、主成分回归分析等。 (3)增大样本含量增大样本含量通过增加样本含量，减少估计量的方差，提高估计精通过增加样本含量，减少估计量的方差，提高估计精度，可在一定程度上克服多重共线性。度，可在一定程度上克服多重共线性。50三、分析步骤三、分析步骤2.7 异常点诊断异常点诊断 2.7.1 异常点异常点对因变量的预测值影响特别大，甚至容易导对因变量的预测值影响特别大，甚至容易导致相反结论的观测点，称为异常点。致相反结论的观测点，称为异常点。异常点的诊断，可采用学生化残差统计量、异常点的诊断，可采用学生化残差统计量、Cooks D统计量。统计量。 51三、分析步骤三、分析步骤2.7.2 学生化残差统计量学生化残差统计量 Studentized residual，计算公式为：，计算公式为：该统计量的该统计量的绝对值大于绝对值大于2时，所对应的观测点时，所对应的观测点可能是异常点。可能是异常点。 52三、分析步骤三、分析步骤2.7.3 Cooks D统计量统计量库克距离统计量。库克距离统计量。一般认为，一般认为， Cooks D0.5时，可认为时，可认为此观测点对回归模型的拟合有强影响，即此观测点对回归模型的拟合有强影响，即可认为是异常点。可认为是异常点。 53三、分析步骤三、分析步骤2.7.4 异常点的处置异常点的处置认真核对原始数据。若属抄写或输入等人为认真核对原始数据。若属抄写或输入等人为错误，应予以纠正；若非人为错误，可删除异常错误，应予以纠正；若非人为错误，可删除异常点，重新拟合回归模型。点，重新拟合回归模型。如有可能，最好在此实验点上补做实验，进如有可能，最好在此实验点上补做实验，进一步确定此可疑异常点是否属实。一步确定此可疑异常点是否属实。 54三、分析步骤三、分析步骤2.8 自变量作用大小评价自变量作用大小评价由于自变量由于自变量量纲不同量纲不同，不能直接根据原始数，不能直接根据原始数据计算得来的偏回归系数来评价各自变量对因变据计算得来的偏回归系数来评价各自变量对因变量的影响大小。量的影响大小。也不能依据也不能依据P 值来判断自变量对因变量的影值来判断自变量对因变量的影响大小。因为响大小。因为P 值的大小，不表示自变量的影响值的大小，不表示自变量的影响强弱，仅表示认为它有影响的可能性有多大。强弱，仅表示认为它有影响的可能性有多大。55三、分析步骤三、分析步骤先对原始数据进行标准化变换，然后再计算先对原始数据进行标准化变换，然后再计算偏回归系数，此时的偏回归系数称为标准化偏回偏回归系数，此时的偏回归系数称为标准化偏回归系数。归系数。标准化偏回归系数值越大，说明该自变量对标准化偏回归系数值越大，说明该自变量对因变量的影响越大因变量的影响越大。 56四、几点补充四、几点补充4.1 哑变量哑变量多重线性回归分析中，多重线性回归分析中，自变量为多值名义变自变量为多值名义变量时，需对其进行哑变量变换。量时，需对其进行哑变量变换。每个哑变量都是一个二值变量，所需哑变量每个哑变量都是一个二值变量，所需哑变量的数目为多值名义变量的类别数减的数目为多值名义变量的类别数减1。如。如“血型血型”是是一个多值名义变量，有一个多值名义变量，有A、B、AB、O四种，若以四种，若以O型血为基准，需引入型血为基准，需引入3个（个（4-1=3）哑变量来描）哑变量来描述。述。 57四、几点补充四、几点补充4.1 哑变量哑变量令：令： 58四、几点补充四、几点补充4.1 哑变量哑变量则可得到下面的对应关系：则可得到下面的对应关系：表表3 3 用用3 3个哑变量描述血型变量个哑变量描述血型变量59四、几点补充四、几点补充4.2 常见应用错误常见应用错误4.2.1 建立模型时，不筛选自变量建立模型时，不筛选自变量在建立多重线性回归模型时，在建立多重线性回归模型时，不考虑各自变不考虑各自变量对因变量的影响是否有统计学意义，不采用任量对因变量的影响是否有统计学意义，不采用任何变量筛选方法，直接将所有变量都保存在模型何变量筛选方法，直接将所有变量都保存在模型中。中。 60四、几点补充四、几点补充4.2.2 以单因素分析方法取代多因素分析方法以单因素分析方法取代多因素分析方法先以各自变量分别与因变量做简单相关分析先以各自变量分别与因变量做简单相关分析或简单回归分析。然后对简单相关系数或简单回或简单回归分析。然后对简单相关系数或简单回归系数进行假设检验，归系数进行假设检验，P0.05的自变量予以保留，的自变量予以保留，其他予以踢除。其他予以踢除。最后，将保留下来的自变量与因变量一起进最后，将保留下来的自变量与因变量一起进行多重线性回归分析。行多重线性回归分析。谢谢！谢谢！