面板数据模型与Stata软件应用-

面板数据模型与stata软件的应用一、什么是面板数据二、面板数据模型的优势三、面板模型的估计方法：FE和RE四、stata软件简介五、如何用stata估计面板模型：案例分析面板数据模型与Stata软件应用一、面板数据类型时间维度+截面维度如我们在分析中国各省份的经济增长时，共有31个截面，每个截面都取1979-1998共20年的数据，共有620个观察值，这是一个典型的平行面板数据上市公司财务数据，研究一段时期内（1998-2008）上市公司股利的发放数额与股票账面价值之间的关系，共有20 11=220个观测值强调经济理论基础、强调微观行为基础面板数据模型与Stata软件应用表1 1996-2002年中国东北、华北、华东15个省级地区的居民家庭人均消费数据（不变价格）地区人均消费地区人均消费1996199719981999200020012002CP-AH（安徽） 3282.466 3646.150 3777.410 3989.581 4203.555 4495.174 4784.364CP-BJ（北京） 5133.978 6203.048 6807.451 7453.757 8206.271 8654.433 10473.12CP-FJ（福建） 4011.775 4853.441 5197.041 5314.521 5522.762 6094.336 6665.005CP-HB（河北） 3197.339 3868.319 3896.778 4104.281 4361.555 4457.463 5120.485CP-HLJ（黑龙江） 2904.687 3077.989 3289.990 3596.839 3890.580 4159.087 4493.535CP-JL（吉林） 2833.321 3286.432 3477.560 3736.408 4077.961 4281.560 4998.874CP-JS（江苏） 3712.260 4457.788 4918.944 5076.910 5317.862 5488.829 6091.331CP-JX（江西） 2714.124 3136.873 3234.465 3531.775 3612.722 3914.080 4544.775CP-LN（辽宁） 3237.275 3608.060 3918.167 4046.582 4360.420 4654.420 5402.063CP-NMG（内蒙古） 2572.342 2901.722 3127.633 3475.942 3877.345 4170.596 4850.180CP-SD（山东） 3440.684 3930.574 4168.974 4546.878 5011.976 5159.538 5635.770CP-SH（上海） 6193.333 6634.183 6866.410 8125.803 8651.893 9336.100 10411.94CP-SX（山西） 2813.336 3131.629 3314.097 3507.008 3793.908 4131.273 4787.561CP-TJ（天津） 4293.220 5047.672 5498.503 5916.613 6145.622 6904.368 7220.843CP-ZJ（浙江） 5342.234 6002.082 6236.640 6600.749 6950.713 7968.327 8792.210面板数据模型与Stata软件应用表2 上市公司的投资与股票账面价值：N=20,T=4面板数据模型与Stata软件应用面板数据模型和stata软件应用二、面板数据模型有以下几个优点:第一，Panel Data 模型可以通过设置虚拟变量对个别差异（非观测效应）进行控制；第二，Panel Data 模型通过对不同横截面单元不同时间观察值的结合，增加了自由度，减少了解释变量之间的共线性，从而改进了估计结果的有效性；第三，Panel Data模型是对同一截面单元集的重复观察, 能更好地研究经济行为变化的动态性面板数据模型与Stata软件应用举例交通死亡率与酒后驾车人数（一段时间内江苏省各市）其他的非观测（潜在）因素：南京与苏州汽车本身状况道路质量当地的饮酒文化单位道路的车辆密度非观测效应导致估计结果不准确，面板数据可以控制和估计非观测效应面板数据模型与Stata软件应用面板数据模型形式：其中， i=1,2,3.N，截面标示; t=1,2,. T，时间标示；xit为k1解释变量，为k1系数列向量对于特定的个体i 而言， ai表示那些不随时间改变的影响因素，而这些因素在多数情况下都是无法直接观测或难以量化的，如个人的消费习惯、地区的经济结构，法律和产权制度等，一般称其为“个体效应” (individual effects)面板数据模型与Stata软件应用面板数据模型的误差项由两部分组成：一部分是与个体观察单位有关的，它概括了所有影响被解释变量，但不随时间变化的因素，因此，面板数据模型也常常被成为非观测效应模型；另外一部分概括了随截面随时间而变化的不可观测因素，通常被成为特异性误差或特异扰动项面板数据模型与Stata软件应用GDPX(Invest、edu)北京江苏省山西省基础设施更加完善，受教育程度较好、经济结构以服务业为主、法制更健全面板数据模型与Stata软件应用面板模型选择：固定效应还是随机效应对“个体效应”的处理主要有两种方式：一种是视其为不随时间改变的固定性因素，相应的模型称为“固定效应”模型；另一种是视其为随机因素，相应的模型称为“随机效应”模型固定效应模型中的个体差异反映在每个个体都有一个特定的截距项上；随机效应模型则假设所有的个体具有相同的截距项，个体的差异主要反应在随机干扰项的设定上面板数据模型与Stata软件应用FE（Fixed Effects) Model RE (Random Effects) Model其中，是截距中的随机变量部分，代表个体的随机影响（Replace with dummy variables）面板数据模型与Stata软件应用固定效应模型1、例如，在研究财政支出与经济增长的关系，运用全国的时间序列数据来检验财政支出与经济增长的关系可能存在设定误差并且受统计资料的制约，仅用时间序列资料不能够满足大样本的要求同时，由于我国不同地区的体制变革和财政政策的不断调整，造成各个地区财政支出结构随时间而不断变化面板数据（Panel Data ）从某种程度上克服了这一困难。考虑到中国各省份财政支出结构与经济增长的关系存在明显的地区差异，从时间序列的角度，考虑各省差异的动态性，是面板数据模型的优势面板数据模型与Stata软件应用例如,在研究中国地区经济增长的过程中，以全国28 个省区为研究对象，可以认为这28 个省区几乎代表了整个总体同时假设在样本区间内，各省区的经济结构人口素质等不可观测的特质性因素是固定不变的，因此采用固定效应模型是比较合适的面板数据模型与Stata软件应用2、而当我们研究某个县市居民的消费行为时，由于样本数相对于江苏省几千万人口是个很小的样本，此时，可以认为个体居民在个人能力、消费习惯等方面的差异是随机的，采用随机效应模型较为合适随机效应模型：RE认为个体的差异是随机的，其中非观测的个体差异效应与随机扰动项一样都是随机变量随机效应模型面板数据模型与Stata软件应用总结：如果把非观测效应看做是各个截面或个体特有的可估计参数，并且不随时间而变化，则模型为固定效应模型；如果把非观测效应看作随机变量，并且符合一个特定的分布，则模型为随机效应模型面板数据模型与Stata软件应用3、在实证分析中，一般通过hausman检验判断：由于随机效应模型把个体效应设定为干扰项的一部分，所以就要求解释变量与个体效应不相关，而固定效应模型并不需要这个假设条件因此，我们可以通过检验该假设条件是否满足，如果满足，那么就应该采用随机效应模型，反之，就需要采用固定效应模型面板数据模型与Stata软件应用Hausman检验的基本思想是：在固定效应u_i和其他解释变数不相关的原假设下，用OLS估计的固定效应模型和用GLS估计的随机效应模型的参数估计都是一致的。反之，OLS是一致的，但GLS则不是因此，在原假设下，二者的参数估计应该不会有系统的差异，我们可以基于二者参数估计的差异构造统计检验量。如果拒绝了原假设，我们就认为选择固定效应模型是比较合适的。面板数据模型与Stata软件应用四、stata软件简介STATA软件估计与应用：打开数据库： use E:Program FilesStata10.0绿色软件Stata10东部.dta“或者重新输入数据：edit相关系数：cor gdp invest edu sci health简单回归：regress gdp invest culture sciregress gdp invest culture sci无常数：无常数：regress gdp invest culture sci,noconstantregress gdp invest culture sci,noconstant面板数据模型与Stata软件应用估计结果面板数据模型与Stata软件应用回归诊断：是否存在异方差：estat hettest怀特检验： estat imtest,white回归信息检验：estat imtest是否遗漏重要解释变量：estat ovtest拟合图： rvfplot 单一变量的相关图：cprplot invest面板数据模型与Stata软件应用画图菜单与命令结合菜单与命令结合twoway (scatter gdp invest)twoway (scatter gdp invest|lfit gdp invest)面板数据模型与Stata软件应用基本建设支出与GDP的相关关系图面板数据模型与Stata软件应用各省教育支出的增长趋势：1998-2006面板数据模型与Stata软件应用Durbin-Watson 统计量:estat dwatson序列相关检验：estat durbinalt滞后阶数选择：estat durbinalt,lags(2)条件异方差检验：estat archlm,lags(2)可选变量的异方差检验：estat szroeter gdp gdp invest culture sciinvest culture sci面板数据模型与Stata软件应用五、Stata对面板数据模型的估计面板数据模型与Stata软件应用随机效应模型面板数据模型与Stata软件应用Stata对面板数据模型的估计首先对面板数据进行声明：前面是截面单元，后面是时间标识：tsset company yeartsset industry year产生新的变量：gen newvar=human*lnrd产生滞后变量Gen fiscal(2)=L2.fiscal产生差分变量Gen fiscal(D)=D.fiscal 面板数据模型与Stata软件应用描述性统计：xtdes ：对Panel Data截面个数、时间跨度的整体描述Xtsum：分组内、组间和样本整体计算各个变量的基本统计量xttab 采用列表的方式显示某个变量的分布Stata中用于估计面板模型的主要命令：xtregxtreg depvar varlist if exp , model_type level(#) 面板数据模型与Stata软件应用Model type 模型be Between-effects estimatorfe Fixed-effects estimatorre GLS Random-effects estimatorpa GEE population-averaged estimatormle Maximum-likelihood Random-effects estimator面板数据模型与Stata软件应用主要估计方法：xtreg： Fixed-, between- and random-effects, and population-averaged linear modelsxtregar：Fixed- and random-effects linear models with an AR(1) disturbancextpcse ：OLS or Prais-Winsten models with panel-corrected standard errorsxtrchh ：Hildreth-Houck random coefficients modelsxtivreg ：Instrumental variables and two-stage least squares for panel-data models面板数据模型与Stata软件应用xtabond：Arellano-Bond linear, dynamic panel data estimatorxttobit ：Random-effects tobit modelsxtlogit ： Fixed-effects, random-effects, population-averaged logit modelsxtprobit ：Random-effects and population-averaged probit modelsxtfrontier ：Stochastic frontier models for panel-dataxtrc gdp invest culture edu sci health social admin,beta面板数据模型与Stata软件应用xtreg命令的应用：声明面板数据类型：tsset sheng t描述性统计：xtsum gdp invest sci admin1.固定效应模型估计：xtreg gdp invest culture sci health admin techno,fe固定效应模型中个体效应和随机干扰项的方差估计值(分别为sigma u 和sigma e），二者之间的相关关系(rho)最后一行给出了检验固定效应是否显著的F 统计量和相应的P 值，本例中固定效应非常显著面板数据模型与Stata软件应用2.随机效应模型估计：xtreg gdp invest culture sci health admin techno,re检验随机效应模型是否优于混合OLS 模型：在进行随机效应回归之后，使用xttest0检验得到的P 值为0.0000，表明随机效应模型优于混合OLS 模型3. 最大似然估计Ml：xtreg gdp invest culture sci health admin techno,mle面板数据模型与Stata软件应用Hausman检验Hausman检验究竟选择固定效应模型还是随机效应模型：第一步：估计固定效应模型，存储结果xtreg gdp invest culture sci health admin techno,feest store fe第二步：估计随机效应模型，存储结果xtreg gdp invest culture sci health admin techno,reest store re第三步：进行hausman检验hausman fe面板数据模型与Stata软件应用Hausman检验量为：H=(b-B)Var(b)-Var(B)-1(b-B)x2(k)Hausman统计量服从自由度为k的2分布。当H大于一定显著水平的临界值时，我们就认为模型中存在固定效应，从而选用固定效应模型，否则选用随机效应模型如果hausman检验值为负，说明的模型设定有问题，导致Hausman 检验的基本假设得不到满足，遗漏变量的问题，或者某些变量是非平稳等等可以改用hausman检验的其他形式：hausman fe, sigmaless面板数据模型与Stata软件应用对于固定效应模型的异方差检验和序列相关检验：Xtserial gdp invest culture sci health admin techno异方差检验： xtreg gdp invest culture sci health admin techno,fexttest3 (Modified Wald statistic for groupwise heteroskedasticity in fixed effect model)面板数据模型与Stata软件应用随机效应模型的序列相关检验：xtreg gdp invest culture sci health admin techno,reXttest1Xttest1用于检验随机效应(单尾和双尾) 、一阶序列相关以及两者的联合显著检验结果表明存在随机效应和序列相关，而且对随机效应和序列相关的联合检验也非常显著面板数据模型与Stata软件应用