选择性样本模型课件-

4.5 4.5 受限被解释变量数据模型受限被解释变量数据模型选择性样本选择性样本 Model with Limited Dependent Variable Selective Samples Model一、社会经济生活中的选择性样本问题一、社会经济生活中的选择性样本问题二、二、“截断截断”数据计量经济学模型的最大似然估计数据计量经济学模型的最大似然估计三、三、“截断截断”数据计量经济学模型的数据计量经济学模型的Heckman两步估两步估计计四、四、“归并归并”数据计量经济学模型的最大似然估计数据计量经济学模型的最大似然估计五、选择性样本的经验判断和检验五、选择性样本的经验判断和检验选择性样本模型The Bank of Sweden Prize in Economic Sciences in Memory of Alfred Nobel 2000 for his development of theory and methods for analyzing selective samples”James J HeckmanUSA选择性样本模型“Shadow Prices, Market Wages and Labour Supply”, Econometrica 42 (4), 1974, P679-694 发现并提出发现并提出“选择性样本选择性样本”问题问题。“Sample Selection Bias as a Specification Error”, Econometrica 47(1), 1979, P153-161 证明了偏误的存在并提出了证明了偏误的存在并提出了Heckman两步修正法。两步修正法。选择性样本模型一、社会经济生活中的选择性样本问题一、社会经济生活中的选择性样本问题选择性样本模型1 1、“截断截断”（truncationtruncation）问题）问题不能从全部截面个体，而只能从一部分个体中随不能从全部截面个体，而只能从一部分个体中随机抽取被解释变量的样本观测值。机抽取被解释变量的样本观测值。分为两种情况分为两种情况:一是，所抽取的部分个体的观测值都大于或者小于某一是，所抽取的部分个体的观测值都大于或者小于某个确定值，即出现个确定值，即出现“掐头掐头”或者或者“去尾去尾”的现象，与的现象，与其它个体的观测值相比较，存在明显的其它个体的观测值相比较，存在明显的“截断点截断点”。二是，所抽取的样本观测值来自于具有某些特征的部二是，所抽取的样本观测值来自于具有某些特征的部分个体，但是样本观测值的大小与其它个体的观测值分个体，但是样本观测值的大小与其它个体的观测值相比较，并不存在明显的相比较，并不存在明显的“截断点截断点”。样本选择受到限制。样本选择受到限制。选择性样本模型2 2、“归并归并” (censoring)(censoring)问题问题将被解释变量的处于某一范围的样本观测值都用将被解释变量的处于某一范围的样本观测值都用一个相同的值代替。一个相同的值代替。经常出现在经常出现在“检查检查”、“调查调查”活动中，因此也称为活动中，因此也称为“检查检查”(censoring) 问题。问题。需求函数模型中用实际消费量作为需求量的观测值，需求函数模型中用实际消费量作为需求量的观测值，如果存在供给限制，就出现如果存在供给限制，就出现“归并归并”问题。问题。被解释变量观测值存在最高和最低的限制。例如考试被解释变量观测值存在最高和最低的限制。例如考试成绩，最高成绩，最高100，最低，最低0，出现，出现“归并归并”问题。问题。被解释变量样本观测值受到限制。被解释变量样本观测值受到限制。选择性样本模型二、二、“截断截断”数据计量经济学模型的最数据计量经济学模型的最大似然估计大似然估计选择性样本模型1 1、思路、思路如果一个单方程计量经济学模型，只能从如果一个单方程计量经济学模型，只能从“掐头掐头”或者或者“去尾去尾”的连续区间随机抽取被解释变量的连续区间随机抽取被解释变量的样本观测值，那么很显然，抽取每一个样本观的样本观测值，那么很显然，抽取每一个样本观测值的概率以及抽取一组样本观测值的联合概率，测值的概率以及抽取一组样本观测值的联合概率，与被解释变量的样本观测值不受限制的情况是不与被解释变量的样本观测值不受限制的情况是不同的。同的。如果能够知道在这种情况下抽取一组样本观测值如果能够知道在这种情况下抽取一组样本观测值的联合概率函数，那么就可以通过该函数极大化的联合概率函数，那么就可以通过该函数极大化求得模型的参数估计量。求得模型的参数估计量。选择性样本模型2 2、截断分布、截断分布如果服从均匀分布U(a, b)，但是它只能在(c, b)内取得样本观测值，那么取得每一个样本观测值的概率为随机变量分布范围内的一个常数选择性样本模型服从正态分布是标准正态分布条件概率函数选择性样本模型3 3、截断被解释变量数据模型的最大似然估计、截断被解释变量数据模型的最大似然估计选择性样本模型选择性样本模型求解该求解该1阶极值条件，即可以得到模型的参数估计阶极值条件，即可以得到模型的参数估计量。量。由于这是一个复杂的非线性问题，需要采用迭代由于这是一个复杂的非线性问题，需要采用迭代方法求解，例如牛顿法。方法求解，例如牛顿法。选择性样本模型4 4、演示例题、演示例题农村居民消费模型农村居民消费模型根据对农民消费行为的分析，发现农民的消费水根据对农民消费行为的分析，发现农民的消费水平（平（Y）既取决于来自于农业生产经营的持久收入）既取决于来自于农业生产经营的持久收入（X1），也受到来自于从事非农生产的瞬时收入），也受到来自于从事非农生产的瞬时收入（X2）的影响。现有某地区）的影响。现有某地区50户农户的人均消费、户农户的人均消费、人均持久收入和人均瞬时收入的样本观测值，试人均持久收入和人均瞬时收入的样本观测值，试图建立该地区农民消费模型。图建立该地区农民消费模型。说明：后面的估计结果如果与教科书不同，则是教科书中的数据存在错误（第说明：后面的估计结果如果与教科书不同，则是教科书中的数据存在错误（第34、43样本的样本的X2的观测值中的小数点误写为逗号），本课件的结果是正确的。的观测值中的小数点误写为逗号），本课件的结果是正确的。选择性样本模型样样本本观观测测值值选择性样本模型选择截断数据选择截断数据ML估计估计选择性样本模型将样本视为不受限制的随机抽取将样本视为不受限制的随机抽取选择性样本模型将样本视为人均消费大于将样本视为人均消费大于1500元的范围内随机抽取元的范围内随机抽取选择性样本模型将样本视为在人均消费大于将样本视为在人均消费大于1500元、小于元、小于6000元的范围元的范围内随机抽取内随机抽取选择性样本模型比较比较3种假设下的对数似然函数值可见，随着截断种假设下的对数似然函数值可见，随着截断区间的缩小，抽取同一个样本的概率增大，致使区间的缩小，抽取同一个样本的概率增大，致使对数似然函数值增大。对数似然函数值增大。选择性样本模型5 5、为什么截断被解释变量数据模型不能采用、为什么截断被解释变量数据模型不能采用普通最小二乘估计普通最小二乘估计对于截断被解释变量数据计量经济学模型，如果对于截断被解释变量数据计量经济学模型，如果仍然把它看作为经典的线性模型，采用仍然把它看作为经典的线性模型，采用OLS估计，估计，会产生什么样的结果？会产生什么样的结果？因为因为yi只能在大于只能在大于a的范围内取得观测值，那么的范围内取得观测值，那么yi的条件均值为：的条件均值为：选择性样本模型选择性样本模型由于被解释变量数据的截断问题，使得原模型变由于被解释变量数据的截断问题，使得原模型变换为包含一个非线性项模型。换为包含一个非线性项模型。如果采用如果采用OLS直接估计原模型：直接估计原模型：实际上忽略了一个非线性项；实际上忽略了一个非线性项；忽略了随机误差项实际上的异方差性。忽略了随机误差项实际上的异方差性。这就造成参数估计量的偏误，而且如果不了解解释变这就造成参数估计量的偏误，而且如果不了解解释变量的分布，要估计该偏误的严重性也是很困难的。量的分布，要估计该偏误的严重性也是很困难的。选择性样本模型三、三、“截断截断”数据计量经济学模型的数据计量经济学模型的HeckmanHeckman两步估计两步估计选择性样本模型说明说明如果对截断被解释变量数据计量经济学模型采用如果对截断被解释变量数据计量经济学模型采用最大似然估计，必须首先求得最大似然估计，必须首先求得“截断分布截断分布”，为，为此，必须存在明确的此，必须存在明确的“截断点截断点”。在实际的截断数据模型中，这个条件经常不能被在实际的截断数据模型中，这个条件经常不能被满足，诸如利用上市公司为样本研究全部企业的满足，诸如利用上市公司为样本研究全部企业的行为，就不存在明确的被解释变量的行为，就不存在明确的被解释变量的“截断点截断点”。关于这类模型的估计，关于这类模型的估计，Heckman于于1979年提出年提出了两步修正法。了两步修正法。下面以一个实例说明两步修正法的原理和步骤。下面以一个实例说明两步修正法的原理和步骤。选择性样本模型1 1、HeckmanHeckman两步修正模型两步修正模型Sample Selection Bias as a Specification Error, Econometrica 47(1), 1979, P153-161选择性样本模型模型模型为了研究为了研究企业企业经理报酬经理报酬W与影响因素与影响因素X之间的关系，在之间的关系，在上市公司上市公司中随机抽取中随机抽取n1个企业为样本，建立如下的模个企业为样本，建立如下的模型：型： - 为为了修正偏了修正偏误误，在全部企在全部企业业（包括上市和未上市）中随机（包括上市和未上市）中随机抽取抽取n2个企业为样本，建立如下的二元离散选择模型：个企业为样本，建立如下的二元离散选择模型：经理报酬模型经理报酬模型上市倾向模型上市倾向模型选择性样本模型修正原理修正原理逆米尔斯比逆米尔斯比inverse mills ratio 该模型已经修正了选择性偏误，可以采用该模型已经修正了选择性偏误，可以采用OLS进行估进行估计。计。选择性样本模型2 2、HeckmanHeckman两步估计步骤两步估计步骤具体步骤如下：具体步骤如下：第一步：利用从全部企业（包括上市和未上市）中随第一步：利用从全部企业（包括上市和未上市）中随机抽取的样本，估计上市倾向模型机抽取的样本，估计上市倾向模型；并利用估计结果；并利用估计结果计算逆米尔斯比的值。计算逆米尔斯比的值。第二步，利用选择性样本观测值和计算得到的逆米尔第二步，利用选择性样本观测值和计算得到的逆米尔斯比的值，将斯比的值，将(1)作为一个待估计参数，估计经理报作为一个待估计参数，估计经理报酬模型，得到酬模型，得到1的估计。的估计。注意，在抽取样本时间必须保证所有选择性样本包含注意，在抽取样本时间必须保证所有选择性样本包含于全部样本之中于全部样本之中。选择性样本模型四、四、“归并归并”数据计量经济学模型的数据计量经济学模型的最大似然估计最大似然估计选择性样本模型1 1、思路、思路以一种简单的情况为例，讨论以一种简单的情况为例，讨论“归并归并”问题的计问题的计量经济学模型。即假设被解释变量服从正态分布，量经济学模型。即假设被解释变量服从正态分布，其样本观测值以其样本观测值以0为界，凡小于为界，凡小于0的都归并为的都归并为0，大，大于于0的则取实际值。如果的则取实际值。如果y*以表示原始被解释变量，以表示原始被解释变量，y以表示归并后的被解释变量，那么则有：以表示归并后的被解释变量，那么则有：选择性样本模型单方程线性单方程线性“归并归并”问题的计量经济学模型为：问题的计量经济学模型为：如果能够得到如果能够得到yi的概率密度函数，那么就可以方便的概率密度函数，那么就可以方便地采用最大似然法估计模型，这就是研究这类问题地采用最大似然法估计模型，这就是研究这类问题的思路。的思路。由于该模型是由由于该模型是由Tobin于于1958年最早提出的，所以年最早提出的，所以也称为也称为Tobin模型。模型。选择性样本模型2 2、“归并归并”变量的正态分布变量的正态分布由于原始被解释变量由于原始被解释变量y*服从正态分布，有服从正态分布，有选择性样本模型3 3、归并被解释变量数据模型的最大似然估计、归并被解释变量数据模型的最大似然估计该似然函数由两部分组成，一部分对应于没有限该似然函数由两部分组成，一部分对应于没有限制的观测值，是经典回归部分；一部分对应于受制的观测值，是经典回归部分；一部分对应于受到限制的观测值。到限制的观测值。这是一个非标准的似然函数，它实际上是离散分这是一个非标准的似然函数，它实际上是离散分布与连续分布的混合。布与连续分布的混合。如何理解后一部分？如何理解后一部分？为什么要求和？选择性样本模型如果样本观测值不是以如果样本观测值不是以0为界，而是以某一个数值为界，而是以某一个数值a为界，则有为界，则有估计原理与方法相同。估计原理与方法相同。选择性样本模型4 4、演示例题、演示例题将将3个个5800视视为归并为归并数据数据选择性样本模型选择归并估计选择归并估计选择性样本模型估计结果估计结果选择性样本模型比较不受限制和归并假设下的对数似然函数值可比较不受限制和归并假设下的对数似然函数值可见，将样本中见，将样本中3个个5800元的观测值视为元的观测值视为5800元的元的归并时，归并时，抽取该观测值的概率显著增大，致使模抽取该观测值的概率显著增大，致使模型估计的对数似然函数值显著增大。型估计的对数似然函数值显著增大。选择性样本模型5 5、归并被解释变量模型最大似然估计的条件、归并被解释变量模型最大似然估计的条件构造归并数据似然函数时是以一个基本假设为条件构造归并数据似然函数时是以一个基本假设为条件的，即假设归并数据中不可观测的部分和可观测的的，即假设归并数据中不可观测的部分和可观测的部分具有相同的分布，例如都服从正态分布。部分具有相同的分布，例如都服从正态分布。如果这一条件得不到满足，就不能得到似然函数，如果这一条件得不到满足，就不能得到似然函数，最大似然估计将遇到困难。最大似然估计将遇到困难。这时，这时，Heckman两步估计是一种合适的估计方法。两步估计是一种合适的估计方法。选择性样本模型五、选择性样本的经验判断和检验五、选择性样本的经验判断和检验选择性样本模型1 1、经验判断、经验判断选择性样本问题是对微观截面个体而言的，所以选择性样本问题是对微观截面个体而言的，所以对于时间序列样本，不考虑选择性样本问题。对于时间序列样本，不考虑选择性样本问题。如果以截面上的全部个体作为样本，不考虑截断如果以截面上的全部个体作为样本，不考虑截断问题。如果按照抽样理论选取截面上的部分个体问题。如果按照抽样理论选取截面上的部分个体作为样本，尽管样本观测值处于某一范围之内，作为样本，尽管样本观测值处于某一范围之内，也不考虑截断问题。如果按照特定的规则选取截也不考虑截断问题。如果按照特定的规则选取截面上的部分个体作为样本，必须考虑截断问题。面上的部分个体作为样本，必须考虑截断问题。对于截面数据样本，是否考虑归并问题，一般根对于截面数据样本，是否考虑归并问题，一般根据样本观测值的经济背景决定。据样本观测值的经济背景决定。选择性样本模型2 2、选择性样本模型的检验、选择性样本模型的检验分布设定检验（分布设定检验（Misspecification of Proby*0）选择性样本模型的一个重要的特殊的检验选择性样本模型的一个重要的特殊的检验。即检验不能观察到实际样本观测值的样本点是否与能即检验不能观察到实际样本观测值的样本点是否与能观察的样本点同分布。观察的样本点同分布。在构造截断问题模型的似然函数时，假定被截断的在构造截断问题模型的似然函数时，假定被截断的样本点与能观察的样本点具有相同的分布；样本点与能观察的样本点具有相同的分布；在构造归并问题模型的似然函数时，也假定被不可在构造归并问题模型的似然函数时，也假定被不可观察的样本点与能观察的样本点具有相同的分布。观察的样本点与能观察的样本点具有相同的分布。选择性样本模型LR统计量统计量似然比统计量归并模型似然函数二元Probit模型似然函数截断模型似然函数如果如果LR统统计计量足量足够够小，小，就不拒就不拒绝绝具具有相同分布有相同分布的假的假设设。选择性样本模型