计量分位数回归eviews-

分位数回归（QRM）方法及其应用,夏先锋,管理与经济学院,主要内容：,分位数回归的基本介绍,系数协方差的估计方法,模型评价与检验,基于Eviews的分位数回归,传统的回归分析主要关注均值，即采用因变量条件均值的函数来描述自变量每一特定数值下的因变量均值，从而揭示自变量与因变量的关系。这类回归模型实际上是研究被解释变量的条件期望,描述了因变量条件均值的变化。人们当然也关心解释变量与被解释变量分布的中位数，分位数呈何种关系。这就是分位数回归，它最早由凯恩克（Koenker Roger）和巴西特（Bassett Gilbert Jr）于1978年提出，是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法，强调条件分位数的变化。,一、分位数回归的提出,分位数回归（Quantile Regression）最早由科恩克和巴塞特 (Koenker 和Bassett, 1978)于1978年提出，它提供了回归变量 X 和因变量Y 的分位数之间线性关系的估计方法。绝大多数的回归模型都关注因变量的条件均值，但是人们对于因变量条件分布的其他方面的模拟方法也越来越有兴趣，尤其是能够更加全面地描述因变量的条件分布的分位数回归。,利用分位数回归解决经济学问题的文献越来越多，尤其是在劳动经济学中取得了广泛应用。如在教育回报和劳动市场歧视等方面都出现了很好的研究成果。在经济学中的应用研究还包括诸如财富分配不均问题、失业持续时间问题、食品支出的恩格尔曲线问题、酒精需求问题和日间用电需求问题等。在金融学领域也涌现出大量使用分位数回归的应用研究成果，主要应用领域包括风险价值（Value at Risk, VaR）研究和刻画共同基金投资类型的指数模型。,正如普通最小二乘OLS回归估计量的计算是基于最小化残差平方和一样，分位数回归估计量的计算也是基于一种非对称形式的绝对值残差最小化，其中，中位数回归运用的是最小绝对值离差估计(LAD，least absolute deviations estimator)。它和OLS主要区别在于回归系数的估计方法和其渐近分布的估计。,分位数回归参数估计的思想,分位数回归参数估计的思想,与LR估计量明显不同的QR估计量的特点在于，在QR中数据点到回归线距离的测量通过垂直距离的加权总和（没有平方）而求得，这里赋予拟合线之下的数据点的权重是1-,而赋予拟合线之上的数据点的权重则是.对于的每一个选择，都会产生各自不同的条件分位数的拟合函数，这一任务是为每一个可能的寻找适合的估计量。,中位数是一个特殊的分位数，它表示一种分布的中心位置。中位数回归是分位数回归的一种特殊情况，其他分位数则可以用来描述一种分布的非中心位置。第p个百分位数表示因变量的数值低于这一百分位数的个数占总体的p%.因此，分位数可以指定分布中的任何一个位置。,4.7.1 分位数回归的基本思想和系数估计,假设随机变量 Y 的概率分布为：（4.7.1） Y 的分位数定义为满足 F(y) 的最小 y 值，即：，（4.7.2）,图4.7.1 cs 变量的累积分布函数F(y) 图4.7.2 cs 变量的分位数分布函数q(),F(y)的分位数可以由最小化关于的目标函数得到，即：（4.7.3）其中，argmin函数表示取函数最小值时的取值， (u) u( I(u 0) 称为检查函数（check function），依据 u 取值符号进行非对称的加权，这里 u y 。,一般的分位数回归的检查函数为：,其中，为示性函数，Z是指示关系式。当分位数为0.5时，就是最小一乘回归，即中位数回归。,考察此最小化问题的一阶条件为：（4.7.4）即F() = ，也就是说F(Y)的第个分位数是上述优化问题的解。 F(y) 可以由如下的经验分布函数替代：（4.7.5）其中 y1，y2，yn 为Y 的 N 个样本观测值；I(z) 是指示函数，z 是条件关系式，当 z 为真时，I(z) = 1；当 z 为假时，I(z) = 0。式（4.7.3）中条件关系式 z 为 yi y，当 yi y 时，I(yi y) = 1，否则取值为0。,相应地，经验分位数为：，（4.7.6）式（4.7.3）可以等价地表示为下面的形式：（4.7.7）,现假设 Y 的条件分位数由 k 个解释变量组成的矩阵 X 线性表示：（4.7.8）其中，xi =(x1i，x2i，xki) 为解释变量向量，( ) =(1，2，k )是分位数下的系数向量。当在 (0, 1) 上变动时，求解下面的最小化问题就可以得到分位数回归不同的参数估计：（4.7.9）,类似OLS方法，可以通过最小化(4.7.3)式的目标函数(V)获得的第个分位点回归估计量。例如，用作为正误差项的权重，用(1 ) 作为负误差项的权重的非对称绝对值误差加权平均： (4.7.10) 当 =0.5时称为最小绝对值离差法(Least Absolute Deviations, LAD)，(4.7.10) 式的2倍就是LAD估计的精确的目标函数：针对LAD方法的回归估计是条件分位点回归的一种特殊情况，通常被人们称为“中位数回归”。分位数回归的系数估计需要求解线性规划问题，很多种方法可以对此问题进行求解。,1、条件均值（conditional mean）,例2.1.1：一个假想的社区有99户家庭组成，欲研究该社区每月家庭消费支出Y与每月家庭可支配收入X的关系。即如果知道了家庭的月收入，能否预测该社区家庭的平均月消费支出水平。为达到此目的，将该99户家庭划分为组内收入差不多的10组，以分析每一收入组的家庭消费支出。,由于不确定因素的影响，对同一收入水平X，不同家庭的消费支出不完全相同；但由于调查的完备性，给定收入水平X的消费支出Y的分布是确定的，即以X的给定值为条件的Y的条件分布（Conditional distribution）是已知的，例如：P(Y=561|X=800）=1/4。因此，给定收入X的值Xi，可得消费支出Y的条件均值（conditional mean）或条件期望（conditional expectation）：E(Y|X=Xi)。该例中：E(Y | X=800)=605,描出散点图发现：随着收入的增加，消费“平均地说”也在增加，且Y的条件均值均落在一根正斜率的直线上。,2、总体回归函数,在给定解释变量Xi条件下被解释变量Yi的期望轨迹称为总体回归线（population regression line），或更一般地称为总体回归曲线（population regression curve）。相应的函数称为（双变量）总体回归函数（population regression function, PRF）。,含义：回归函数（PRF）说明被解释变量Y的平均状态（总体条件期望）随解释变量X变化的规律。函数形式：可以是线性或非线性的。例2.1.1中，将居民消费支出看成是其可支配收入的线性函数时:,为线性函数。其中，0，1是未知参数，称为回归系数（regression coefficients）。,1、样本回归函数,问题：能否从一次抽样中获得总体的近似信息？如果可以，如何从抽样中获得总体的近似信息？在例2.1.1的总体中有如下一个样本，能否从该样本估计总体回归函数？,回答：能,该样本的散点图（scatter diagram)：,画一条直线以尽好地拟合该散点图，由于样本取自总体，可以该直线近似地代表总体回归线。该直线称为样本回归线（sample regression lines）。,样本回归线的函数形式为：,称为样本回归函数（sample regression function，SRF）。,注意：这里将样本回归线看成总体回归线的近似替代,则,相对于最小二乘估计，分位数回归模型具有四个方面的优势：（1）分位数模型特别适合具有异方差性的模型。（2）对条件分布的刻画更加的细致，能给出条件分布的大体特征。每个分位点上的回归都赋予条件分布上某个特殊点（中央或尾部）一些特征；把不同的分位点上的分位数回归集中起来就能提供一个关于条件分布的更完整的统计特征描述。并且不同分位点下所给出的参数估计本身也可能有值得进一步探讨的意义。,（3）分位数回归并不要求很强的分布假设，在扰动项非正态的情形下，分位数估计量可能比最小二乘估计量更为有效。（4）与最小二乘法通过使误差平方和最小得到参数的估计不同，分位数回归是通过使加权误差绝对值之和最小得到参数的估计，因此估计量不容易受到异常值的影响，从而估计更加稳健。,4.7.2 系数协方差的估计,一般地，分位数回归的系数估计量渐近服从正态分布，其渐近协方差依据模型的不同假定而具有不同形式。渐近系数协方差的计算在分位数回归分析中非常重要，有三种估计方法： 1独立同分布设定下协方差矩阵的直接估计方法（1）Siddiqui 差商法（2）稀疏度的核密度估计量 2独立但不同分布设定下协方差矩阵的直接估计方法（Hubert sandwich） 3自举法（Bootstrap）（1）X-Y自举法（2）残差自举方法（3）马尔可夫链边际自举法,在EViews中进行分位数回归 1. 方法选择,为了使用分位数回归方法估计方程，在方程设定对话框的估计方法中选择“QREG”，打开分位数回归估计对话框：,“Quantile to estimate”后面输入值，可以输入01之间的任意数值，默认值是0.5，即进行中位数回归。,例4.10 分位数回归,利用例3.1的消费和收入数据，我们建立如下的回归方程研究政府支出对居民消费的影响：（4.7.44）其中，cs为实际居民消费，inc为实际可支配收入，fe为财政支出，考虑到财政政策通常具有时滞的特点，模型中采用滞后一期的财政支出作为解释变量。所有变量均为剔除了价格因素的年度数据，样本区间为19782006年。为了进行比较，我们同时给出最小二乘法以及三个不同分位点的分位数回归估计结果（见表4.4）。,OLS估计结果:,分位数回归估计结果:,表4.4 最小二乘法和分位数回归结果,从估计结果可以看出，对于不同的估计方法，居民实际可支配收入、前期消费水平两个变量的弹性系数变化不大。尽管在以往的研究中，政府支出对居民消费的影响还没有得出一致的结论，但是在本例中三种估计的结果表明政府支出对居民消费的弹性值均为正，说明在我们所分析的样本区间内政府支出与居民消费之间是互补的，政府支出的增加有利于加强基础设施建设和提高社会保障水平，使居民减少储蓄，尤其是预防性储蓄，从而增加消费。最小二乘估计给出的是政府支出对消费的平均影响效果，而分位数回归给出的是消费处于不同分位水平时，政府支出对居民消费的影响。在20%，50%和80%的分位点上政府支出的弹性分别为0.048，0.034，0.026，并且后两个水平的估计是不显著的，说明当消费水平较低时，政府支出的影响相对较大，而对于较高的消费水平，政府支出的影响变小，并且是不显著的。因为当消费水平较高时，进一步提升的空间变小，政府支出对其影响也变小。,例3.6：工资差别为了解工作妇女是否受到了歧视，可以用美国统计局的“当前人口调查”中的截面数据研究男女工资有没有差别。这项多元回归分析研究所用到的变量有： W 雇员的工资（美元/小时） 1；若雇员为妇女 SEX = 0；男性 ED 受教育的年数 AGE 雇员的年龄 1；若雇员不是西班牙裔也不是白人 NONWH = 0；其他 1；若雇员是西班牙裔 HISP = 0；其他,对206名雇员的样本所进行的研究得到的回归结果为（括号内是t统计量的值）：（22.10）（-3.86） R2 = 0.