资源预览内容
第1页 / 共42页
第2页 / 共42页
第3页 / 共42页
第4页 / 共42页
第5页 / 共42页
第6页 / 共42页
第7页 / 共42页
第8页 / 共42页
第9页 / 共42页
第10页 / 共42页
亲,该文档总共42页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第七讲第七讲 包含虚拟变量的回归分析包含虚拟变量的回归分析Regression Analysis with Dummy Variables 一、什么是虚拟变量?一、什么是虚拟变量?二、自变量中包含虚拟变量二、自变量中包含虚拟变量三、因变量为虚拟变量三、因变量为虚拟变量一、什么是虚拟变量?一、什么是虚拟变量?什么是虚拟变量?什么是虚拟变量?变量的分类变量的分类a.定类定类/类别变量(类别变量(nominal/categorical variable)b.定序定序/有序变量(有序变量(ordinal variable)c.定距定距/定量变量(定量变量(interval variable)o问题:如何在计量分析中使用定类变量和定序变量问题:如何在计量分析中使用定类变量和定序变量什么是虚拟变量?什么是虚拟变量?o对于只有两种取值的定类变量,可以用对于只有两种取值的定类变量,可以用0和和1表示这两种取值。表示这两种取值。这样的变量称为这样的变量称为虚拟变量(虚拟变量(dummy variable)或或二分变量二分变量(binary variable)。其中,赋值为。其中,赋值为0的一组称为的一组称为对照组对照组(reference group)或或基准组(基准组(benchmark group)o注意:变量名的选择注意:变量名的选择什么是虚拟变量?什么是虚拟变量?o对于有多个取值的定类变量,可构造多个虚拟变量来表示对于有多个取值的定类变量,可构造多个虚拟变量来表示o用用east、central、west三个虚拟变量表示不同地区三个虚拟变量表示不同地区o用用sx、jy、qt三个虚拟变量表示本科生毕业后的状态三个虚拟变量表示本科生毕业后的状态什么是虚拟变量?什么是虚拟变量?o对于定序变量和定距变量,也可以用虚拟变量表示对于定序变量和定距变量,也可以用虚拟变量表示o学习成绩(定序变量)学习成绩(定序变量)o年收入(定距变量,但通过划分收入区间将之转换为虚拟变量)年收入(定距变量,但通过划分收入区间将之转换为虚拟变量)1.自变量中包含一个虚拟变量自变量中包含一个虚拟变量2.自变量中包含多个虚拟变量自变量中包含多个虚拟变量3.交互项交互项二、自变量中包含虚拟变量二、自变量中包含虚拟变量自变量中包含一个虚拟变量自变量中包含一个虚拟变量自变量仅为一个虚拟变量自变量仅为一个虚拟变量o如果自变量仅为一个虚拟变量,实际上是以自变量为分类依如果自变量仅为一个虚拟变量,实际上是以自变量为分类依据,分析因变量的均值差异据,分析因变量的均值差异自变量中包含一个虚拟变量自变量中包含一个虚拟变量例题例题7_1:工资差异:工资差异自变量中包含一个虚拟变量自变量中包含一个虚拟变量自变量包含定距变量和一个虚拟变量自变量包含定距变量和一个虚拟变量o此时,虚拟变量的回归系数表示在控制其它自变量的情况下,此时,虚拟变量的回归系数表示在控制其它自变量的情况下,两组之间的差异两组之间的差异o例题例题7_2:课本:课本p217,例,例自变量中包含一个虚拟变量自变量中包含一个虚拟变量自变量包含定距变量和一个虚拟变量自变量包含定距变量和一个虚拟变量o虚拟变量可用于政策分析,虚拟变量取值为虚拟变量可用于政策分析,虚拟变量取值为0的一组称为的一组称为控制控制组或对照组(组或对照组(control group),取值为,取值为1的一组称为的一组称为实验组实验组(experimental group)或或处理组(处理组(treatment group)o例题例题7_3:课本:课本p218,例,例自变量中包含多个虚拟变量自变量中包含多个虚拟变量o自变量中包含多个虚拟变量可分为三种情况自变量中包含多个虚拟变量可分为三种情况a.每个虚拟变量代表不同的分类每个虚拟变量代表不同的分类b.若干个虚拟变量代表同一种分类,且这种分类是定类的若干个虚拟变量代表同一种分类,且这种分类是定类的c.若干个虚拟变量代表同一种分类,且这种分类是定序的若干个虚拟变量代表同一种分类,且这种分类是定序的自变量中包含多个虚拟变量自变量中包含多个虚拟变量每个虚拟变量代表不同的分类每个虚拟变量代表不同的分类例题例题7_4:性别和婚姻状况对工资的影响(课本:性别和婚姻状况对工资的影响(课本p220,例)例)o引入性别和婚姻状况两个虚拟变量引入性别和婚姻状况两个虚拟变量o上述结果表明,性别对工资有显著影响,但婚姻状况没有上述结果表明,性别对工资有显著影响,但婚姻状况没有显著影响。这一模型可能存在问题,即假定婚姻状况的影显著影响。这一模型可能存在问题,即假定婚姻状况的影响对于男性和女性是相同的。进一步的分析应考虑婚姻状响对于男性和女性是相同的。进一步的分析应考虑婚姻状况的影响存在性别差异。况的影响存在性别差异。自变量中包含多个虚拟变量自变量中包含多个虚拟变量每个虚拟变量代表不同的分类每个虚拟变量代表不同的分类例题例题7_4:性别和婚姻状况对工资的影响(课本:性别和婚姻状况对工资的影响(课本p220,例)例)o虚拟变量的定义虚拟变量的定义o如果有如果有n种分类,则回归时只能引入种分类,则回归时只能引入n-1个虚拟变量,否则会造成完全共个虚拟变量,否则会造成完全共线性。未引入的即为对照组。下面是以单身男性为对照组的回归结果:线性。未引入的即为对照组。下面是以单身男性为对照组的回归结果:lwageCoef.Std. Err.tPt95% Conf.Intervalmm0.2127 0.0554 3.8400 0.0000 0.1039 0.3214 sf-0.1104 0.0557 -1.9800 0.0480 -0.2199 -0.0008 mf-0.1983 0.0578 -3.4300 0.0010 -0.3119 -0.0846 自变量中包含多个虚拟变量自变量中包含多个虚拟变量每个虚拟变量代表不同的分类每个虚拟变量代表不同的分类例题例题7_4:性别和婚姻状况对工资的影响(课本:性别和婚姻状况对工资的影响(课本p220,例)例)o不同性别和婚姻状况个体的样本回归方程不同性别和婚姻状况个体的样本回归方程自变量中包含多个虚拟变量自变量中包含多个虚拟变量每个虚拟变量代表不同的分类每个虚拟变量代表不同的分类例题例题7_4:性别和婚姻状况对工资的影响(课本:性别和婚姻状况对工资的影响(课本p220,例)例)o根据研究关注问题的不同,可以选择不同的对照组。根据研究关注问题的不同,可以选择不同的对照组。下面是下面是以已婚女性为对照组的回归结果:以已婚女性为对照组的回归结果:lwageCoef.Std. Err.tPt95% Conf.Intervalsm0.1983 0.0578 3.4300 0.0010 0.0846 0.3119 mm0.4109 0.0458 8.9800 0.0000 0.3210 0.5009 sf0.0879 0.0523 1.6800 0.0940 -0.0149 0.1908 自变量包含多个虚拟变量自变量包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定类的若干个虚拟变量代表同一种分类,且这种分类是定类的例题例题7_5:工资的地区差异:工资的地区差异onorthcen=1表示中北部地区表示中北部地区owest=1表示西部地区表示西部地区osouth=1表示南部地区表示南部地区oother_region=1表示其他地区表示其他地区o同样地,如果有同样地,如果有n种分类,回归时只能引入种分类,回归时只能引入n-1个虚拟变量!个虚拟变量!自变量中包含多个虚拟变量自变量中包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定类的若干个虚拟变量代表同一种分类,且这种分类是定类的例题例题7_5:工资的地区差异:工资的地区差异以其他地区为对照组以其他地区为对照组lwageCoef.Std. Err.tPtnorthcen-0.0783 0.0563 -1.39 0.1650 south-0.1048 0.0527 -1.99 0.0470 west0.0218 0.0624 0.35 0.7270 educ0.0890 0.0075 11.86 0.0000 exper0.0418 0.0052 8.00 0.0000 expersq-0.0007 0.0001 -6.25 0.0000 _cons0.1918 0.1125 1.70 0.0890 自变量中包含多个虚拟变量自变量中包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定类的若干个虚拟变量代表同一种分类,且这种分类是定类的例题例题7_5:工资的地区差异:工资的地区差异以南部为对照组以南部为对照组lwageCoef.Std. Err.tPtnorthcen0.0265 0.0512 0.52 0.6040 west0.1266 0.0574 2.21 0.0280 other_region0.1048 0.0527 1.99 0.0470 educ0.0890 0.0075 11.86 0.0000 exper0.0418 0.0052 8.00 0.0000 expersq-0.0007 0.0001 -6.25 0.0000 _cons0.0870 0.1072 0.81 0.4170 自变量包含多个虚拟变量自变量包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定序的若干个虚拟变量代表同一种分类,且这种分类是定序的例题例题7_6:法学院排名对起薪的影响(课本:法学院排名对起薪的影响(课本p224,例),例)o共引入共引入6个虚拟变量表示法学院排名个虚拟变量表示法学院排名排名前排名前10top10=1排名排名11-25r11_25=1排名排名26-40r26_40=1排名排名41-60r41_60=1排名排名61-100r61_100=1排名排名100以后以后bottom=1自变量中包含多个虚拟变量自变量中包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定序的若干个虚拟变量代表同一种分类,且这种分类是定序的例题例题7_6:如果有:如果有n种排序,回归时引入的虚拟变量数目应少于种排序,回归时引入的虚拟变量数目应少于n,下面,下面是以排名在是以排名在100名以后的为对照组的回归结果名以后的为对照组的回归结果lsalaryCoef.Std. Err.tPttop100.6996 0.0535 13.08 0.0000 r11_250.5935 0.0394 15.05 0.0000 r26_400.3751 0.0341 11.01 0.0000 r41_600.2628 0.0280 9.40 0.0000 r61_1000.1316 0.0210 6.25 0.0000 LSAT0.0057 0.0031 1.86 0.0660 GPA0.0137 0.0742 0.19 0.8540 llibvol0.0364 0.0260 1.40 0.1650 lcost0.0008 0.0251 0.03 0.9730 _cons9.1653 0.4114 22.28 0.0000 自变量中包含多个虚拟变量自变量中包含多个虚拟变量若干个虚拟变量代表同一种分类,且这种分类是定序的若干个虚拟变量代表同一种分类,且这种分类是定序的例题例题7_6:以排名在:以排名在26-60名的为对照组名的为对照组o另外,参看课本另外,参看课本p223,例,例lsalaryCoef.Std. Err.tPttop100.3733 0.0437 8.55 0.0000 r11_250.2766 0.0323 8.56 0.0000 r61_100-0.1732 0.0240 -7.22 0.0000 bottom-0.2994 0.0269 -11.14 0.0000 LSAT0.0049 0.0032 1.53 0.1290 GPA0.0596 0.0759 0.78 0.4340 llibvol0.0436 0.0270 1.62 0.1090 lcost0.0103 0.0260 0.39 0.6940 _cons9.3214 0.4402 21.18 0.0000 交互项交互项含有虚拟变量之间的交互项(含有虚拟变量之间的交互项(interaction term)例题例题7_7:性别和婚姻状况对工资的影响:性别和婚姻状况对工资的影响femalemarriedfemale_married单身男性单身男性000已婚男性已婚男性010单身女性单身女性100已婚女性已婚女性111交互项交互项含有虚拟变量之间的交互项含有虚拟变量之间的交互项例题例题7_7:性别和婚姻状况对工资的影响:性别和婚姻状况对工资的影响o以单身男性为对照组以单身男性为对照组交互项交互项含有虚拟变量之间的交互项含有虚拟变量之间的交互项例题例题7_7:不同性别和婚姻状况个体的回归方程:不同性别和婚姻状况个体的回归方程o另外,参看课本另外,参看课本p226,例,例交互项交互项含有虚拟变量与定距变量的交互项含有虚拟变量与定距变量的交互项o考虑模型:考虑模型:o上述模型假定男性和女性工资方程的截距不同,但受教上述模型假定男性和女性工资方程的截距不同,但受教育年限的斜率系数对于男性和女性都是相同的育年限的斜率系数对于男性和女性都是相同的femalelwageeducmale交互项交互项含有虚拟变量与定距变量的交互项含有虚拟变量与定距变量的交互项o考虑模型:考虑模型:o上述模型假定男性和女性工资方程的截距不同,而且受上述模型假定男性和女性工资方程的截距不同,而且受教育年限的斜率系数对于男性和女性也不同。教育年限的斜率系数对于男性和女性也不同。femalelwageeducmale交互项交互项含有虚拟变量与定距变量的交互项含有虚拟变量与定距变量的交互项例题例题7_8:教育收益率的性别差异(课本:教育收益率的性别差异(课本p228,例),例)交互项交互项含有虚拟变量与定距变量的交互项含有虚拟变量与定距变量的交互项o上述分析表明,男性和女性工资方程的截距项存在显著差上述分析表明,男性和女性工资方程的截距项存在显著差异,但受教育年限的斜率系数不存在显著差异。因此,应异,但受教育年限的斜率系数不存在显著差异。因此,应该选择不含交互项的回归方程。该选择不含交互项的回归方程。交互项交互项含有虚拟变量与定距变量的交互项含有虚拟变量与定距变量的交互项o利用虚拟变量和其它变量的交互项可以用来检验两组之间利用虚拟变量和其它变量的交互项可以用来检验两组之间是否有相同的回归系数是否有相同的回归系数例题例题7_9(课本(课本p230-233):大学运动员成绩的影响因素):大学运动员成绩的影响因素oH0意味着三类因素对男女运动员成绩的影响是相同的意味着三类因素对男女运动员成绩的影响是相同的交互项交互项例题例题7_9(课本(课本p230-233)o检验两组回归方程是否完全相同的假设检验通常被称为检验两组回归方程是否完全相同的假设检验通常被称为邹检邹检验(验(Chow test),),同学们不用刻意去记它,只要知道它是同学们不用刻意去记它,只要知道它是一种特殊的一种特殊的F检验就可以了检验就可以了交互项交互项例题例题7_9(课本(课本p230-233)o也可以只对斜率的组间差异进行检验,即考察三个解释变量对也可以只对斜率的组间差异进行检验,即考察三个解释变量对不同性别大学运动员成绩的影响是否存在显著差异不同性别大学运动员成绩的影响是否存在显著差异交互项交互项例题例题7_9(课本(课本p230-233)o因此,最终的模型可设定为因此,最终的模型可设定为1.线性概率模型线性概率模型2.Logit模型和模型和Probit模型模型三、因变量为虚拟变量三、因变量为虚拟变量线性概率模型线性概率模型线性概率模型(线性概率模型(linear probability model, LPM)线性概率模型线性概率模型线性概率模型(线性概率模型(linear probability model, LPM)线性概率模型线性概率模型线性概率模型存在的主要问题线性概率模型存在的主要问题a.自变量对因变量的边际影响可能不是常数自变量对因变量的边际影响可能不是常数b.概率的估计值很可能小于概率的估计值很可能小于0或大于或大于1c.通常不满足同方差假定通常不满足同方差假定d.尽管如此,线性概率模型仍有很多应用,特别适用于自变尽管如此,线性概率模型仍有很多应用,特别适用于自变量在其样本均值附近变化时对因变量的影响量在其样本均值附近变化时对因变量的影响线性概率模型线性概率模型例题例题7_10:妇女的劳动力市场参与(课本:妇女的劳动力市场参与(课本p234-236)例题例题7_11:拘捕率(课本:拘捕率(课本p236,例),例)Logit模型和模型和Probit模型模型Logit模型和模型和Probit模型模型o当因变量为虚拟变量时,更为常用的方法是使用当因变量为虚拟变量时,更为常用的方法是使用logit模型或模型或probit模模型。与线性概率模型相比,这两个模型的概率估计值严格介于型。与线性概率模型相比,这两个模型的概率估计值严格介于0到到1之之间,而且自变量的变化对因变量的边际影响不是常数。间,而且自变量的变化对因变量的边际影响不是常数。o通过通过logit模型和模型和probit模型得到的系数的符号及其显著性与线性概率模型得到的系数的符号及其显著性与线性概率模型相同,但对系数的解释有所不同。另外,模型相同,但对系数的解释有所不同。另外,logit模型和模型和probit模型模型采用的是极大似然估计法。采用的是极大似然估计法。o本课程对本课程对logit模型和模型和probit模型不做要求,但这两个模型应用很广,模型不做要求,但这两个模型应用很广,有兴趣的同学可参看课本有兴趣的同学可参看课本节,节,p548-559推广推广o当因变量为多分类变量时,可使用当因变量为多分类变量时,可使用mlogit或或mprobit模型模型o当因变量为定序变量时,可使用当因变量为定序变量时,可使用ologit或或oprobit模型模型Logit模型和模型和Probit模型模型例题例题7_11:Logit模型的结果模型的结果arr86Coef.Std. Err.zPzpcnv-0.8805 0.1222 -7.20 0.0000 avgsen0.0266 0.0352 0.76 0.4490 tottime-0.0139 0.0282 -0.49 0.6220 ptime86-0.1403 0.0313 -4.49 0.0000 qemp86-0.1992 0.0283 -7.04 0.0000 black0.8239 0.1174 7.02 0.0000 hispan0.5215 0.1086 4.80 0.0000 _cons-0.46410.0947 -4.90 0.0000 Logit模型和模型和Probit模型模型例题例题7_11:Probit模型的结果模型的结果arr86Coef.Std. Err.zPzpcnv-0.5276 0.0709 -7.44 0.0000 avgsen0.0169 0.0212 0.80 0.4230 tottime-0.0093 0.0169 -0.55 0.5820 ptime86-0.0857 0.0181 -4.72 0.0000 qemp86-0.1204 0.0170 -7.10 0.0000 black0.4966 0.0715 6.95 0.0000 hispan0.3090 0.0648 4.77 0.0000 _cons-0.2844 0.0573 -4.96 0.0000 习题习题
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号