stata命令大全全-－金锄头文库

*面板数据计量分析与软件实现 *说明：以下do文件相当一部分内容来自于中山大学连玉君STATA教程，感谢他的贡献。本人做了一定的修改与筛选。* 面板数据模型* 1. 静态面板模型： FE 和 RE* 2. 模型选择： FE vs POLS, RE vs POLS, FE vs RE（ pols 混合最小二乘估计）* 3. 异方差、序列相关和截面相关检验* 4. 动态面板模型（ DID-GMM,SYS-GMM）* 5. 面板随机前沿模型* 6. 面板协整分析（ FMOLS,DOLS）* 说明：1-5均用STATA软件实现，6用GAUS软件实现。*生产效率分析（尤其指 TFP）：数据包络分析（DEA与随机前沿分析（SFA）* 说明：DEA由 DEAP2.1软件实现，SFA由 Fron tier4.1实现，尤其后者，侧重于比较C-D与Tran slog生产函数，一步法与两步法的区别。常应用于地区经济差异、FDI 溢出效应（ Spillovers Effect ）、工业行业效率状况等。*空间计量分析：SLM莫型与SEM莫型（R&D、财政分权、地方政府公共行为等。*说明：STATA与Matlab结合使用。常应用于空间溢岀效应、常用的数据处理与作图 * 指定面板格式xtset id year （id 为截面名称， year 为时间名称） xtdes / 删除个别年份或省份drop if year 宽数据reshape wide logy,i(id) j(year)* 宽长数据reshape logy,i(id) j(year)* 追加数据(用于面板数据和时间序列)xtset id year* 或者xtdestsappend,add(5) / 表示在每个省份再追加 5年，用于面板数据 /tsset* 或者tsdes.tsappend,add(8) / 表示追加 8年，用于时间序列 /*方差分解，比如三个变量Y,X,Z都是面板格式的数据，且满足Y=X+Z,求方差var(Y),协方差Cov(X,Y)和Cov( Z,Y)bysort year:corr Y X Z,cov* 生产虚拟变量* 生成年份虚拟变量tab year,gen(yr)* 生成省份虚拟变量tab id,gen(dum) 生成滞后项和差分项xtset id yeargen ylag=l.y /* gen ylag2=L2.y gen dy=D.y /*产生一阶滞后项 ) ，同样可产生二阶滞后项 */产生差分项 */* 求出各省 2000 年以前的 open inv 的平均增长率 collapse (mean) open inv if year2000,by(id)变量排序，当变量太多，按规律排列。可用命令 aorder或者order fdi open insti、静态面板模型* 简介 * 面板数据的结构 ( 兼具截面资料和时间序列资料的特征 ) use product.dta, clearbrowsextset id year xtdes固定效应模型 * 实质上就是在传统的线性回归模型中加入 N-1 个虚拟变量，* 使得每个截面都有自己的截距项，* 截距项的不同反映了个体的某些不随时间改变的特征* 例如： lny = a_i + b1*lnK + b2*lnL + e_it*考虑中国29个省份的C-D生产函数画图* 散点图 + 线性拟合直线twoway (scatter logy h) (lfit logy h) * 散点图 + 二次拟合曲线twoway (scatter logy h) (qfit logy h)* 散点图 + 线性拟合直线 +置信区间twoway (scatter logy h) (lfit logy h) (lfitci logy h)* 按不同个体画出散点图和拟合线，可以以做出 fe vs re 的初判断 stata 的估计方法解析* 目的：如果截面的个数非常多，那么采用虚拟变量的方式运算量过大* 因此，要寻求合理的方式去除掉个体效应* 因为，我们关注的是 x 的系数，而非每个截面的截距项* 处理方法：* y_it = u_i + x_it*b + e_it (1)* ym_i = u_i + xm_i*b + em_i (2)组内平均* ym = um + xm*b + em (3)样本平均 twoway (scatter logy h if id4) (lfit logy h if id4) (lfit logy h if id=1) (lfit logy h if id=2) (lfit logy h if id=3) * 按不同个体画散点图 ,so beautiful!*graph twoway scatter logy h if id=1 | scatter logy h ifid=2,msymbol(Sh) | scatterlogy h if id=3,msymbol(T) | scatter logy h if id=4,msymbol(d) | , legend(posi tion(11) ring(0) label(1 北京) label(2 天津 ) label(3 河北) label(4 山西)*每个省份logy与h的散点图，并将各个图形合并twoway scatter logy h,by(id) ylabel(,format(%3.0f) xlabel(,format(%3.0f)* 每个个体的时间趋势图 *xtline h if id R-sq: within模型(2)对应的R2,是一个真正意义上的R2* - R-sq: between corrxm_i*b_w,ym_iA2* - R-sq: overall corrx_it*b_w,y_itA2b + (e_it - em_i)( 4 ) /*within estimator*/* (4)+(3), 可得：* (y_it-ym_i+ym) = um + (x_it-xm_i+xm)*b + (e_it-em_i+em)* 可重新表示为：* Y_it = a_0 + X_it*b + E_it* 对该模型执行 OLS 估计，即可得到 b 的无偏估计量*stata 后台操作，揭开 fe 估计的神秘面纱！egen y_meanw = mean(logy), by(id) /*个体内部平均 */egen y_mean = mean(logy)/* 样本平均 */egen k_meanw = mean(logk), by(id)egen k_mean = mean(logk)egen l_meanw = mean(logl), by(id)egen l_mean = mean(logl)gen dyw = logy - y_meanwgen dkw = logk - k_meanwgen dlw=logl-l_meanwreg dyw dkw dlw,nocons est store m_statagen dy = logy - y_meanw + y_mean gen dk = logk - k_meanw +k_mean gen dl=logl-l_meanw+l_mean reg dy dk dl est store m_stataest table m_*, b(%6.3f) star(0.1 0.05 0.01)*- F(4,373) = 855.93检验除常数项外其他解释变量的联合显著性*- corr(u_i, Xb) = -0.2347*- sigma_u, sigma_e, rho* rho = sigma_uA2 / (sigma_uA2 + sigma_eA2)dis e(sigma_u)A2 / (e(sigma_u)A2 + e(sigma_e)A2)* 个体效应是否显著？* F(28, 373) = 338.86 H0: a1 = a2 = a3 = a4 = a29* Prob F = 0.0000表明，固定效应高度显著*-如何得到调整后的 R2, 即 adj-R2 ？ereturn listreg logy h inv gov open dumy_it = x_it*b + (a_i + u_it)* = x_it*b + v_it* 基本思想：将随机干扰项分成两种* 一种是不随时间改变的，即个体效应 a_i* 另一种是随时间改变的，即通常意义上的干扰项 u_it* 估计方法： FGLS- 拟合值和残差* y_it = u_i + x_it*b + e_it* predict