离散因变量和受限因变量模型ppt课件-

第七章离散因变量和受限因变量模型通通常常的的经经济济计计量量模模型型都都假假定定因因变变量量是是延延续续的的，但但是是在在现现实实的的经经济济决决策策中中经经常常面面临临许许多多项项选选择择择择问问题题。人人们们需需求求在在可可供供选选择择的的有有限限多多个个方方案案中中作作出出选选择择，与与通通常常被被解解释释变变量量是是延延续续变变量量的的假假设设相相反反，此此时时因因变变量量只只取取有有限限多多个个离离散散的的值值。例例如如，人人们们对对交交通通工工具具的的选选择择：地地铁铁、公公共共汽汽车车或或出出租租车车；投投资资决决策策中中，是是投投资资股股票票还还是是房房地地产产。以以这这样样的的决决策策结结果果作作为为被被解解释释变变量量建建立立的的计计量量经经济济模模型型，称称为为离离散散被被解解释释变变量量数数据据计计量量经经济济学学模模型型models with discretedependentvariables，或或者者称称为为离离散散选选择择模模型型(discretechoicemodel,DCM)。在在实实践践中中，还还会会经经常常遇遇到到因因变变量量遭遭到到某某种种限限制制的的情情况况，这这种种情情况况下下，获获得得的的样样本本数数据据来来自自总总体体的的一一个个子子集集，能能够够不不能能完完全全反反映映总总体体。这这时时需需求求建建立立的的经经济济计计量量模模型型称称为为受受限限因因变变量量模模型型limiteddependentvariablemodel)。这这两两类模型经常用于调查数据的分析中。类模型经常用于调查数据的分析中。7.17.1二元二元二元二元选择选择模型模型模型模型在离散在离散在离散在离散选择选择模型中，最模型中，最模型中，最模型中，最简单简单的情形是在两个可供的情形是在两个可供的情形是在两个可供的情形是在两个可供选择选择的方案中的方案中的方案中的方案中选择选择其一，此其一，此其一，此其一，此时时被解被解被解被解释变释变量只取两个量只取两个量只取两个量只取两个值值，称，称，称，称为为二元二元二元二元选择选择模型模型模型模型binarychoicemodelbinarychoicemodel。在在在在实实践生活中，我践生活中，我践生活中，我践生活中，我们经们经常遇到二元常遇到二元常遇到二元常遇到二元选择问题选择问题。例如，。例如，。例如，。例如，在在在在买车买车与不与不与不与不买车买车的的的的选择选择中，中，中，中，买车记为买车记为1 1，不，不，不，不买记为买记为0 0。能否能否能否能否买车买车与两与两与两与两类类要素有关系：一要素有关系：一要素有关系：一要素有关系：一类类是是是是车车本身所具有本身所具有本身所具有本身所具有的属性，如价的属性，如价的属性，如价的属性，如价钱钱、型号等；另一、型号等；另一、型号等；另一、型号等；另一类类是决策者所具有是决策者所具有是决策者所具有是决策者所具有的属性如收入程度、的属性如收入程度、的属性如收入程度、的属性如收入程度、对车对车的偏好程度等。假的偏好程度等。假的偏好程度等。假的偏好程度等。假设设我我我我们们要研要研要研要研讨讨能否能否能否能否买车买车与收入之与收入之与收入之与收入之间间的关系，即研的关系，即研的关系，即研的关系，即研讨讨具有某具有某具有某具有某一收入程度的个体一收入程度的个体一收入程度的个体一收入程度的个体买车买车的能的能的能的能够够性。因此，二元性。因此，二元性。因此，二元性。因此，二元选择选择模型的目的是研模型的目的是研模型的目的是研模型的目的是研讨讨具有具有具有具有给给定特征的个体作某种而不定特征的个体作某种而不定特征的个体作某种而不定特征的个体作某种而不作另一种作另一种作另一种作另一种选择选择的概率。的概率。的概率。的概率。为为了了深深化化地地了了解解二二元元选选择择模模型型，首首先先从从最最简简单单的的线线性性概概率率模型开场讨论。线性概率模型的回归方式为：模型开场讨论。线性概率模型的回归方式为：7.1.1其其中中：N是是样样本本容容量量；k是是解解释释变变量量个个数数；xj为为第第j个个个个体体特特征征的的取取值值。例例如如，x1表表示示收收入入；x2表表示示汽汽车车的的价价钱钱；x3表表示示消消费费者的偏好等。设者的偏好等。设yi表示取值为表示取值为0和和1的离散型随机变量：的离散型随机变量：式式7.1.1中中ui为相互独立且均值为为相互独立且均值为0的随机扰动项。的随机扰动项。7.1.17.1.1线线性概率模型及二元性概率模型及二元性概率模型及二元性概率模型及二元选择选择模型的方式模型的方式模型的方式模型的方式令令pi=P(yi=1)，那么，那么1-pi=P(yi=0)，于是，于是7.1.2又又由由于于E(ui)=0，所所以以E(yi)=xi，xi=(x1i,x2i,xki),=(1,2,k)，从而有下面的等式：，从而有下面的等式：7.1.3式式(7.1.3)只只需需当当xi 的的取取值值在在(0,1)之之间间时时才才成成立立，否否那那么么就就会会产产生生矛矛盾盾，而而在在实实践践运运用用时时很很能能够够超超出出这这个个范范围围。因因此此，线性概率模型经常写成下面的方式：线性概率模型经常写成下面的方式：(7.1.4)此时就可以把因变量看成是一个概率。此时就可以把因变量看成是一个概率。那么扰动项的方差为：那么扰动项的方差为：(7.1.5)或或(7.1.6)由由此此可可以以看看出出，误差差项具具有有异异方方差差性性。异异方方差差性性使使得得参参数数估估计不不再再是是有有效效的的，修修正正异异方方差差的的一一个个方方法法就就是是运运用用加加权最最小小二二乘乘估估计。但但是是加加权最最小小二二乘乘法法无无法法保保证预测值在在(0,1)之之内内，这是是线性性概概率率模模型型一一个个严重重的的弱弱点点。由由于于上上述述问题，我我们思思索索对线性性概概率率模模型型进展展一一些些变换，由由此此得得到到下下面面要要讨论的模型。的模型。假假设有有一一个个未未被被察察看看到到的的潜潜在在变量量yi*，它它与与xi之之间具具有有线性关系，即性关系，即(7.1.7)其中：其中：ui*是是扰动项。yi和和yi*的关系如下：的关系如下：(7.1.8) yi*大大于于临临界界值值0时时，yi =1；小小于于等等于于0时时，yi =0。这这里里把把临临界界值值选选为为0，但但现现实实上上只只需需xi包包含含有有常常数数项项，临临界界值值的的选选择就是无关的，所以无妨设为择就是无关的，所以无妨设为0。这样。这样 (7.1.9)其其中中：F是是ui*的的分分布布函函数数，要要求求它它是是一一个个延延续续函函数数，并并且且是是单单调调递递增增的的。因因此此，原原始始的的回回归归模模型型可可以以看看成成如如下下的的一一个个回回归模型：归模型： (7.1.10)即即yi关于它的条件均值的一个回归。关于它的条件均值的一个回归。分分布布函函数数的的类类型型决决议议了了二二元元选选择择模模型型的的类类型型，根根据据分分布布函函数数F F的的不不同同，二二元元选选择择模模型型可可以以有有不不同同的的类类型型，常常用用的的二二元元选选择择模型如表模型如表7.17.1所示：所示：表表7.1 7.1 常用的二元选择模型常用的二元选择模型 ui*对应的分布对应的分布分布函数分布函数F 相应的二元选择模型相应的二元选择模型标准正态分布标准正态分布Probit 模型模型逻辑分布逻辑分布Logit 模型模型极值分布极值分布Extreme模型模型二元选择模型普通采用极大似然估计。似然函数为二元选择模型普通采用极大似然估计。似然函数为(7.1.11)即即(7.1.12)对数似然函数为对数似然函数为(7.1.13)7.1.27.1.2二元二元二元二元选择选择模型的估模型的估模型的估模型的估计问题计问题对数似然函数的一阶条件为对数似然函数的一阶条件为(7.1.14)其其中中：fi表表示示概概率率密密度度函函数数。那那么么假假设设知知分分布布函函数数和和密密度度函函数数的的表表达达式式及及样样本本值值，求求解解该该方方程程组组，就就可可以以得得到到参参数数的的极极大大似似然然估估计计量量。例例如如，将将上上述述3种种分分布布函函数数和和密密度度函函数数代代入入式式(7.1.14)就就可可以以得得到到3种种模模型型的的参参数数极极大大似似然然估估计计。但但是是式式(7.1.14)通常是非线性的，需用迭代法进展求解。通常是非线性的，需用迭代法进展求解。二二元元选选择择模模型型中中估估计计的的系系数数不不能能被被解解释释成成对对因因变变量量的的边边沿沿影影响响，只只能能从从符符号号上上判判别别。假假设设为为正正，阐阐明明解解释释变变量量越越大大，因因变变量量取取1的的概概率率越越大大；反反之之，假假设设系系数数为为负负，阐阐明明相相应应的的概率将越小。概率将越小。例例7.1 7.1 二元选择模型实例二元选择模型实例思索思索Greene Greene 给出的斯佩克特和马泽欧给出的斯佩克特和马泽欧19801980的例子，在例子中分析了某种教学方法对成果的例子，在例子中分析了某种教学方法对成果的有效性。因变量的有效性。因变量GRADEGRADE代表在接受新教学方法代表在接受新教学方法后成果能否改善，假设改善为后成果能否改善，假设改善为1 1，未改善为，未改善为0 0。解释变。解释变量量PSIPSI代表能否接受新教学方法，假设接受为代表能否接受新教学方法，假设接受为1 1，不接受为不接受为0 0。还有对新教学方法量度的其他解释变量：。还有对新教学方法量度的其他解释变量：平均分数平均分数GPAGPA和检验得分和检验得分TUCETUCE，来分析新的，来分析新的教学方法的效果。教学方法的效果。 1模型的估计估计二元选择模型，从Equation Specification对话框中，选择Binary估计方法。在二元模型的设定中分为两部分。首先，在Equation Specification区域中，键入二元因变量的名字，随后键入一列回归项。由于二元变量估计只支持列表方式的设定，所以不能输入公式。然后，在Binary estimation method中选择Probit，Logit，Extreme value选择三种估计方法的一种。以例7.1为例，对话框如图7.2所示。图图7.2 7.2 二元二元二元二元选择选择模型估模型估模型估模型估计对话计对话框框框框例例7.17.1的估计输出结果如下：的估计输出结果如下：参参数数估估计计结结果果的的上上半半部部分分包包含含与与普普通通的的回回归归结结果果类类似似的的根根本本信信息息，标标题题包包含含关关于于估估计计方方法法ML表表示示极极大大似似然然估估计计和和估估计计中中所所运运用用的的样样本本的的根根本本信信息息，也也包包括括到到达达收收敛敛要要求求的的迭迭代代次次数数。和和计计算算系系数数协协方方差差矩矩阵阵所所运运用用方方法法的的信信息息。在在其其下下面面显显示示的的是是系系数数的的估估计计、渐渐近近的的规规范范误误差差、z-统统计计量量和和相相应应的的概率值及各种有关统计量。概率值及各种有关统计量。在回在回归结果中果中还提供几种似然函数：提供几种似然函数：loglikelihood是是对数数似似然然函函数数的的最最大大值L(b)，b是是未未知参数知参数的估的估计值。Avg.loglikelihood是是用用察察看看值的的个个数数N去去除除以以对数数似似然函数然函数L(b)，即，即对数似然函数的平均数似然函数的平均值。Restr.Loglikelihood是是除除了了常常数数以以外外一一切切系系数数被被限限制制为0时的极大似然函数的极大似然函数L(b)。LR统计量量检验除除了了常常数数以以外外一一切切系系数数都都是是0的的假假设，这类似似于于线性性回回归模模型型中中的的统计量量，测试模模型型整整体体的的显著著性性。圆括括号号中中的的数数字字表表示示自自在在度度，它它是是该测试下下约束束变量量的个数。的个数。 ProbabilityProbabilityLR LR statstat是是LRLR检验统计量量的的P P值。在在零零假假设下下，LRLR检验统计量量近近似似服服从从于于自自在在度度等等于于检验下下约束束变量的个数的量的个数的2 2分布。分布。 McFadden McFadden R-squaredR-squared是是计算算似似然然比比率率目目的的，正正像像它它的的名名字字所所表表示示的的，它它同同线性性回回归模模型型中中的的R2R2是是类似似的。它具有的。它具有总是介于是介于0 0和和1 1之之间的性的性质。利用式(7.1.10)，分布函数采用规范正态分布，即Probit模型，例7.1计算结果为(7.1.15) z = (-2.93) (2.34) (0.62) (2.39) 利用式(7.1.15)的Probit模型的系数，本例按如下公式给出新教学法对学习成果影响的概率，当PSI = 0时： (7.1.19) 当PSI = 1时： (7.1.20) 式中检验得分TUCE取均值(21.938)，平均分数GPA是按从小到大重新排序后的序列。图图7.1 7.1 新教学法新教学法新教学法新教学法对对学学学学习习成果影响的概率成果影响的概率成果影响的概率成果影响的概率2 2 估估估估计选项计选项由由由由于于于于我我我我们们是是是是用用用用迭迭迭迭代代代代法法法法求求求求极极极极大大大大似似似似然然然然函函函函数数数数的的的的最最最最大大大大值值，所所所所以以以以OptionOption选选项项可可可可以以以以从从从从估估估估计计选选项项中中中中设设定定定定估估估估计计算算算算法法法法与与与与迭迭迭迭代代代代限限限限制制制制。单单击击OptionsOptions按按按按钮钮，翻开翻开翻开翻开对话对话框如框如框如框如图图7.37.3所示。所示。所示。所示。图图7.3Options7.3Options对话对话框框框框Option对话框有以下几框有以下几项设置：置：稳健健规范差范差(RobustStandardErrors)对二元因二元因变量模型而言，量模型而言，EViews允允许运用准运用准-极大似然函数极大似然函数Huber/White或广或广义的的线性模型性模型GLM方法估方法估计规范范误差。察看差。察看RobustCovariance对话框，并从两种方法中框，并从两种方法中选择一种。一种。初始初始值EViews的默的默许值是运用是运用阅历运算法那么而运算法那么而选择出来的，适用于二元出来的，适用于二元选择模型的每一种模型的每一种类型。型。估估计法那么法那么在在Optimizationalgorithm一一栏中中选择估估计的运算法那么。默的运算法那么。默许地，地，EViews运用运用quadratichill-climbing方法得到参数估方法得到参数估计。这种运算法那么运用种运算法那么运用对数似然数似然分析二次分析二次导数的矩数的矩阵来构成迭代和来构成迭代和计算估算估计的系数的系数协方差方差矩矩阵。还有另外两种不同的估有另外两种不同的估计法那么，法那么，Newton-Raphson也运用二次也运用二次导数，数，BHHH运用一次运用一次导数，既确定迭代更新，数，既确定迭代更新，又确定又确定协方差矩方差矩阵估估计。 3 3预测预测从从从从方方方方程程程程工工工工具具具具栏栏选选择择 Procs/ForecastProcs/Forecast Fitted Fitted Probability Probability /Index/Index，然然然然后后后后单单击击想想想想要要要要预预测测的的的的对对象象象象。既既既既可可可可以以以以计计算算算算拟拟合合合合概概概概率率率率，，也也也也可可可可以以以以计计算算算算目目目目的的的的的的的的拟拟合合合合值值。像像像像其其其其他他他他方方方方法法法法一一一一样样，可可可可以以以以选选择择预预测测样样本本本本，显显示示示示预预测测图图。假假假假设设解解解解释释变变量量量量向向向向量量量量xtxt包包包包括括括括二二二二元元元元因因因因变变量量量量ytyt的的的的滞滞滞滞后后后后值值，选选择择DynamicDynamic选选项项预预测测，EViewsEViews运运运运用用用用拟拟合合合合值值得得得得到到到到预预测测值值；而而而而选选择择StaticStatic选选项项，将将将将运运运运用用用用实实践践践践的的的的滞滞滞滞后后后后的的的的yt-1yt-1得得得得到到到到预预测值测值。对对于于于于这这种种种种估估估估计计方方方方法法法法，无无无无论论预预测测评评价价价价还还是是是是预预测测规规范范范范误误差差差差通通通通常常常常都都都都无无无无法法法法自自自自动动计计算算算算。后后后后者者者者可可可可以以以以经经过过运运运运用用用用 View/ View/ Covariance Covariance MatrixMatrix显显示示示示的的的的系系系系数数数数方方方方差差差差矩矩矩矩阵阵，或或或或者者者者运运运运用用用用covariancecovariance函数来函数来函数来函数来计计算。算。算。算。可可以以在在各各种种方方式式上上运运用用拟拟合合目目的的，举举个个例例子子，计计算算解解释释变变量量的的边边沿沿影影响响。计计算算预预测测拟拟合合的的目目的的，并并用用序序列列xb中中保保管管这这个个结结果果。然然后后生生成成序序列列dnorm(-xb)、dlogistic(-xb)、dextreme(-xb)，可可以以与与估估计计的的系系数数 j相相乘乘，提提供供一一个个yi的的期期望望值值对对xi的的第第j个个分分量量的的导导数数的的估估计。计。(7.5.1)4产生残差序列产生残差序列经过经过Procs/MakeReidualSeries选项产生下面三种残差类型中的一选项产生下面三种残差类型中的一种类型。种类型。表表7.6残差类型残差类型普通残差普通残差(Ordinary)标准化残差标准化残差(Standardized)广义残差广义残差(Generalized)7.2排序排序选择模型模型当当因因变量量不不止止是是两两种种选择时，就就要要用用到到多多元元选择模模型型(multiplechoicemodel)。多多元元离离散散选择问题普普遍遍存存在在于于经济生活中。例如：生活中。例如：(1)一一个个人人面面临多多种种职业选择，将将可可供供选择的的职业排排队，用用0，1，2，3表表示示。影影响响选择的的要要素素有有不不同同职业的的收入、开展前景和个人偏好等；收入、开展前景和个人偏好等；(2)同同一一种种商商品品，不不同同的的消消费者者对其其偏偏好好不不同同。例例如如，非非常常喜喜欢、普普通通喜喜欢、无无所所谓、普普通通厌恶和和非非常常厌恶，分分别用用0，1，2，3，4表表示示。而而影影响响消消费者者偏偏好好的的要要素素有有商品的价商品的价钱、性能、收入及、性能、收入及对商品的需求程度等；商品的需求程度等；(3)一一个个人人选择上上班班时所所采采用用的的方方式式本本人人开开车，乘出租乘出租车，乘公共汽，乘公共汽车，还是是骑自行自行车。上上述述3 3个个例例子子代代表表了了多多元元选择问题的的不不同同类型型。前前两两个个例例子子属属于于排排序序选择问题，所所谓“排排序序是是指指在在各各个个选择项之之间有有一一定定的的顺序序或或级别种种类。而而第第3 3个个例例子子只只是是同同一一个个决决策策者者面面临多多种种选择，多多种种选择之之间没没有有排排序序，不不属属于于排排序序选择问题。与与普普通通的的多多元元选择模模型型不不同同，排排序序选择问题需需求求建建立立排排序序选择模模型型(ordered (ordered choice choice model)model)。下下面面我我们主主要要引引见排排序序选择模型。模型。与与二二元元选择模模型型类似似，设有有一一个个潜潜在在变量量yi*，是是不不可可观测的，可的，可观测的是的是yi，设yi有有0，1，2，M等等M+1个取个取值。7.2.1其其中中：ui*是是独独立立同同分分布布的的随随机机变量量，yi可可以以经过yi*按按下下式式得得到到7.2.2设ui*的分布函数的分布函数为F(x)，可以得到如下的概率，可以得到如下的概率7.2.3和和二二元元选择模模型型一一样，根根据据分分布布函函数数F(x)的的不不同同可可以以有有3种种常常见的的模模型型：Probit模模型型、Logit模模型型和和Extremevalue模模型型。依依然然采采用用极极大大似似然然方方法法估估计参参数数，需需求求指指出出的的是是，M个个临界界值c1,c2,cM事事先先也也是是不不确确定定的的，所所以以也也作作为参参数数和和回回归系数一同估系数一同估计。例例例例7.2 7.2 7.2 7.2 排序模型的排序模型的排序模型的排序模型的实实例例例例在在在在调调查查执执政政政政者者者者的的的的支支支支持持持持率率率率的的的的民民民民意意意意检检验验中中中中，由由由由于于于于执执政政政政者者者者执执行行行行了了了了对对某某某某一一一一收收收收入入入入阶阶层层有有有有利利利利的的的的政政政政策策策策而而而而使使使使得得得得不不不不同同同同收收收收入入入入的的的的人人人人对对其其其其支支支支持持持持不不不不同同同同，所所所所以以以以收收收收入入入入成成成成为为决决决决议议人人人人们们能能能能否否否否支支支支持持持持的的的的要要要要素素素素。经经过过调调查查获获得得得得了了了了市市市市民民民民收收收收入入入入(INC)(INC)(INC)(INC)与与与与支支支支持持持持与与与与否否否否(Y)(Y)(Y)(Y)的的的的数数数数据据据据，其其其其中中中中假假假假设设选选民民民民支支支支持持持持那那那那么么么么YiYiYiYi取取取取0 0 0 0，中中中中立立立立取取取取1 1 1 1，不不不不支支支支持持持持取取取取2 2 2 2。我我我我们们选选取取取取24242424个个个个样样本本本本进进展展展展排排排排序序序序选择选择模型分析。模型分析。模型分析。模型分析。 1 模型的估计与二元选择模型类似，从主菜单中选择Objects/New Object，并从该菜单中选择Equation选项。从Equation Specification对话框，选择估计方法ORDERED,规范估计对话框将会改动以匹配这种设定。在Equation Specification区域，键入排序因变量的名字，其后列出回归项。排序估计也只支持列表方式的设定，不用输入一个明确的方程。然后选择Normal，Logist，Extreme Value三种误差分布中的一种，单击OK按钮即可。对话框如图7.4所示。图图7.4 7.4 排序模型的排序模型的排序模型的排序模型的输输入入入入对话对话框框框框例例7.27.2估计结果如下：估计结果如下：有有两两点点需需求求指指出出：首首先先，EViews不不能能把把常常数数项项和和临临界界值值区区分分开开，因因此此在在变变量量列列表表中中设设定定的的常常数数项项会会被被忽忽略略，即即有有无无常常数数项项都都是是等等价价的的。其其次次，EViews要要求求因因变变量量是是整整数数，否否那那么么将将会会出出现现错错误误信信息息，并并且且估估计计将将会会停停顿顿。然然而而，由由于于我我们们可可以以在在表表达达式式中中运运用用round、floor或或ceil函函数数自自动动将将一一个个非非整整数数序序列列转转化化成成整整数数序序列列，因因此此这这并并不不是是一一个个很很严厉的限制。严厉的限制。估估计计收收敛敛后后，EViews将将会会在在方方程程窗窗口口显显示示估估计计结结果果。表表头头包包含含通通常常的的标标题题信信息息，包包括括假假定定的的误误差差分分布布、估估计计样样本本、迭迭代代和和收收敛敛信信息息、y的的排排序序选选择择值值的的个个数数和和计计算算系系数数协协方方差差矩矩阵阵的的方方法法。在在标标题题信信息息之之下下是是系系数数估估计计和和渐渐近近的的规规范范误误差差、相相应应的的z-统统计计量量及及概概率率值值。然然后后，还还给给出出了了临临界界值值LIMIT_1:C(2)，LIMIT_2:C(3)的的估估计计及及相相应应的的统统计计量。量。 2. 常用的两个常用的两个过程程 Make Ordered Limit Vector产生生一一个个临界界值向向量量c，此此向向量量被被命命名名为LIMITS01，假假设该称称号号已已被被运运用用，那那么么命命名名为LIMITS02，以此以此类推。推。 Make Ordered Limit Covariance Matrix产生生临界界值向向量量c的的估估计值的的协方方差差矩矩阵。命命名名为VLIMITS01，假假设该称称号号已已被被运运用用，那么命名那么命名为VLIMITS02，以此，以此类推。推。 3. 3. 预测预测由由于于排排序序选选择择模模型型的的因因变变量量代代表表种种类类或或等等级级数数据据，所所以以不不能能从从估估计计排排序序模模型型中中直直接接预预测测。选选择择Procs/ Procs/ Make Make ModelModel，翻翻开开一一个个包包含含方方程程系系统统的的没没有有标标题题的的模模型型窗窗口口，单单击击模模型型窗窗口口方方程程栏栏的的SolveSolve按按钮钮。例例7.27.2因因变变量量 y y 的的拟拟合合线线性性目目的的序序列列被被命命名名为为i_Y_0i_Y_0，拟拟和和值值落落在在第第一一类类中中的的拟拟合合概概率率被被命命名名为为Y_0_0Y_0_0的的序序列列，落落在在第第二二类类中中的的拟拟合合概概率率命命名名为为Y_1_0Y_1_0的的序序列列中中，落落在在第第三三类类中中的的拟拟合合概概率率命命名名为为Y_2_0Y_2_0的的序序列列中中，等等等等。留留意意对对每每一一个个察察看看值值，落落在在每每个个种种类类中中的的拟拟合合概概率率相相加值为加值为1 1。表表7.77.7中中Y_0_0Y_0_0，Y_1_0Y_1_0，Y_2_0Y_2_0分分别别是是支支持持、中中立立、不支持的概率，不支持的概率，Y Y，INCINC是实践样本。是实践样本。 4产生残差序列选择Proc/Make Residual Series产生广义残差序列，输入一个名字或用默许的名字，然后单击OK按钮。一个排序模型的广义残差由下式给出： (7.5.2)其中：c0 = - ，cM+1 = 。7.37.3受限因受限因受限因受限因变变量模型量模型量模型量模型现现实实的的经经济济生生活活中中，有有时时会会遇遇到到这这样样的的问问题题，因因变变量量是是延延续续的的，但但是是遭遭到到某某种种限限制制，也也就就是是说说所所得得到到的的因因变变量量的的观观测测值值来来源源于于总总体体的的一一个个受受限限制制的的子子集集，并并不不能能完完全全反反映映总总体体的的实实践践特特征征，那那么么经经过过这这样样的的样样本本观观测测值值来来推推断断总总体体的的特特征征就就需需求求建建立立受受限限因因变变量量模模型型(limited (limited dependent dependent variable variable models)models)。本本节节研研讨讨两两类类受受限限因因变变量量模模型型，即即审审查查回回归归模模型型(censored (censored regression regression models)models)和和截截断断回回归归模模型型(truncated regression models)(truncated regression models)。 7.3.1 审查回归模型 1模型的方式思索下面的潜在因变量回归模型 (7.3.1)其中：是比例系数；y*是潜在变量。被察看的数据 y 与潜在变量 y* 的关系如下： (7.3.2)换换句句话话说说，yi*的的一一切切负负值值被被定定义义为为0值值。我我们们称称这这些些数数据据在在0处处进进展展了了左左截截取取审审查查leftcensored。而而不不是是把把观观测测不不到到的的yi*的的一一切切负负值值简简单单地地从从样样本本中中除除掉掉。此此模模型型称称为规范的审查回归模型，也称为为规范的审查回归模型，也称为Tobit模型。模型。更更普普通通地地，可可以以在在恣恣意意有有限限点点的的左左边边和和右右边边截截取取审审查查，即，即(7.3.3)其其中中：，代代表表截截取取审审查查点点，是是常常数数值值。假假设设没没有有左左截截取取(审审查查)点点，可可以以设设为为。假假设设没没有有右右截截取取(审审查查)点点，可可以以设为设为。规范的。规范的Tobit模型是具有模型是具有和和的一个特例。的一个特例。2审查回归模型的极大似然估计审查回归模型的极大似然估计与与前前边边引引见见的的几几个个模模型型类类似似，可可以以采采用用极极大大似似然然法法估估计计审审查查回回归归模模型的参数，对数似然函数为型的参数，对数似然函数为(7.3.4)求求式式(7.3.4)的的最最大大值值即即可可得得参参数数 , 的的估估计计。这这里里f,F分分别别是是u的的密密度度函数和分布函数。函数和分布函数。特特别别地地，对对于于Tobit模模型型，设设uN(0,1)，这这时时对对数数似似然然函数为函数为(7.3.5)式式(7.3.5)是是由由两两部部分分组组成成的的。第第一一部部分分对对应应没没有有限限制制的的观观测测值值，与与经经典典回回归归的的表表达达式式是是一一样样的的；第第二二部部分分对对应应于于受受限限制制的的观观测测值值。因因此此，此此似似然然函函数数是是离离散散分分布布与与延延续续分分布布的的混混合合。将似然函数最大化就可以得到参数的极大似然估计。将似然函数最大化就可以得到参数的极大似然估计。例例例例7.3 7.3 7.3 7.3 审查审查模型的模型的模型的模型的实实例例例例本本本本例例例例研研研研讨讨已已已已婚婚婚婚妇妇女女女女任任任任务务时时间间问问题题，共共共共有有有有50505050个个个个调调查查数数数数据据据据，来来来来自自自自于于于于美美美美国国国国国国国国势势调调查查局局局局U.S.Bureau U.S.Bureau U.S.Bureau U.S.Bureau of of of of the the the the Census(Current Census(Current Census(Current Census(Current Population Population Population Population Survey, Survey, Survey, Survey, 1993)1993)1993)1993)，其其其其中中中中y y y y 表表表表示示示示已已已已婚婚婚婚妇妇女女女女任任任任务务时时间间， x1x1x1x1 x4x4x4x4分分分分别别表表表表示示示示已已已已婚婚婚婚妇妇女女女女的的的的未未未未成成成成年年年年子子子子女女女女个个个个数数数数、年年年年龄龄、受受受受教教教教育育育育的的的的年年年年限限限限和和和和丈丈丈丈夫夫夫夫的的的的收收收收入入入入。只只只只需需需需已已已已婚婚婚婚妇妇女女女女没没没没有有有有提提提提供供供供任任任任务务时时间间，就将任就将任就将任就将任务时间务时间作零作零作零作零对对待，符合待，符合待，符合待，符合审查审查回回回回归归模型的特点。模型的特点。模型的特点。模型的特点。 7.3.2 截断回归模型截断问题，笼统地说就是掐头或者去尾。即在很多实践问题中，不能从全部个体中抽取因变量的样本观测值，而只能从大于或小于某个数的范围内抽取样本的观测值，此时需求建立截断因变量模型。例如，在研讨与收入有关的问题时，收入作为被解释变量。从实际上讲，收入应该是从零到正无穷，但实践中由于各种客观条件的限制，只能获得处在某个范围内的样本观测值。这就是一个截断问题。截断回归模型的方式如下： 7.3.7其中：yi 只需在时才干获得样本观测值， ,为两个常数。对于截断回归模型，依然可以采用极大似然法估计模型的参数，只不过此时极大似然估计的密度函数是条件密度。 7.5.3 估计审查回归模型估计审查回归模型 1.模型的估计模型的估计为为估估计计审审查查模模型型，翻翻开开 Equation对对话话框框，从从 Equation Specification对对话话框框所所列列估估计计方方法法中中选选择择CENSORED估估计计方方法法。在在Equation Specification区区域域，输输入入被被审审查查的的因因变变量量的的名名字字及及一一系系列列回归项。审查回归模型的估计只支持列表方式的设定回归项。审查回归模型的估计只支持列表方式的设定(图图7.5)。图图7.5 审查模型的估计对话框审查模型的估计对话框在三种分布中选择一种作为误差项的分布，EViews提供三种可供选择的分布(表7.8)。表7.8 误差项的分布 StandardnormalLogisticExtremevalue (欧拉常数欧拉常数) 还需需求求在在DependentVariableCensoringPoints一一栏提提供供关关于于被被检查因因变量量的的临界界点点的的信信息息。临界界点点可可以以是是数数值、表表达式、序列，达式、序列，还可以是空的。有两种情况需求思索：可以是空的。有两种情况需求思索：临界点界点对于一切个体都是知的；于一切个体都是知的；临界点只界点只对具有具有审查察看察看值的个体是知的。的个体是知的。 1临界点对一切个体都知按照要求在编辑栏的左编辑区Left和右编辑区Right输入临界点表达式。留意假设在编辑区域留下空白，EViews将假定该种类型的观测值没有被审查。例如，在规范的Tobit模型中，数据在0值左边审查，在0值右边不被审查。这种情况可以被指定为：左编辑区： 0 右编辑区： blank 而普通的左边和右边审查由下式给出：左编辑区：右编辑区： EViews也允许更普通的设定，这时审查点知，但在察看值之间有所不同。简单地在适当的编辑区域输入包含审查点的序列名字。2临临界界点点经经过过潜潜在在变变量量产产生生并并且且只只对对被被审审查查的的观观测测值值个体知个体知在在一一些些情情况况下下，假假设设临临界界点点对对于于一一些些个个体体和和不不是是对对一一切切的的察察看看值值都都是是可可察察看看到到的的是是未未知知的的，此此时时可可以以经经过过设设置置0-1虚虚拟拟变变量量审审查查指指示示变变量量来来审审查查数数据据。EViews提提供供了了另另外外一一种种数数据据审审查查的的方方法法来来顺顺应应这这种种方方式式。简简单单地地，在在估估计计对对话话框框中中选选择择Fieldiszero/oneindicatorofcensoring选选项项，然然后后在在适适宜宜的的编编辑辑区区域域输输入入审审查查指指示示变变量量的的序序列列名名。对对应应于于审审查查指指示示变变量量值值为为1的的察察看看值值要要进进展展审审查查处处置置，而而值值为为0的察看值不进展审查。的察看值不进展审查。例例如如，假假定定我我们们有有个个人人失失业业时时间间的的察察看看值值，但但其其中中的的一一些些察察看看值值反反映映的的是是在在获获得得样样本本时时依依然然继继续续失失业业的的情情况况，这这些些察察看看值值可可以以看看作作在在报报告告值值的的右右边边审审查查。假假设设变变量量rcens是是一一个个代代表表审审查查的的指指示示变变量量，可可以以选选择择 Field is zero/one indicator ofcensoring设置，并在编辑区域输入：设置，并在编辑区域输入：左编辑区：左编辑区：blank右编辑区：右编辑区：rcens假假设设数数据据在在左左边边和和右右边边都都需需求求审审查查的的话话，对对于于每每种种方方式式的的审查运用单独的审查指示变量：审查运用单独的审查指示变量：左编辑区：左编辑区：lcens右编辑区：右编辑区：rcens这这里里，lcens也也是是审审查查指指示示变变量量。完完成成模模型型的的指指定定后后，单单击击OK。EViews将会运用适宜的迭代步骤估计模型的参数。将会运用适宜的迭代步骤估计模型的参数。例例7.3的估计结果如下：的估计结果如下： 2模型的预测与产生残差 EViews提供了预测因变量期望 E (y | x, , ) 的选项，或预测潜在变量期望 E (y*| x, , ) 的选项。从工具栏选择Forecast翻开预测对话框。为了预测因变量的期望，应该选择Expected dependent variable，并输入一个序列称号用于保管输出结果。为了预测潜在变量的期望，单击Index-Expected latent variable，并输入一个序列的称号用于保管输出结果。潜在变量的期望 E (y*| x, , ) 可以从如下关系中得到： (7.5.3) 经过选择Procs/Make Residual Series，并从残差的3种类型中进展一种，可以产生审查模型的残差序列。审查模型的残差也有3种类型，与前述类似。 3 估计截断回归模型估计一个截断回归模型和估计一个审查模型遵照同样的步骤，从主菜单中选择Quick/Estimate Equation，并在Equation Specification 对话框中，选择CENSORED估计方法。出现估计审查和截断回归模型对话框。在Equation Specification区域键入截断因变量的称号和回归项的列表，并从三种分布中选择一种作为误差项的分布。选择Truncated sample选项估计截断模型。有几点需求补充阐明：首先，截断估计只对截断点知的模型进展估计。假设用目的指定截断点，EViews将会给出错误信息，指出这种选择是无效的。其次，假设有一些因变量的值在截断点之外，EViews将会发出错误信息。而且，EViews将会自动排除掉严厉等于截断点的一切察看值。例如，假设指定零作为左截断点，假设有察看值低于零，EViews将会发出错误信息，并将排除严厉等于零的任何察看值。在在实实践践运运用用中中，我我们们应应该该根根据据要要研研讨讨的的变变量量的的数数据据类类型型选选择择适适宜宜的的模模型型。当当因因变变量量y表表示示事事件件发发生生的的数数目目，是是离离散散的的整整数数，即即为为计计数数变变量量，并并且且数数值值较较小小，取取零零的的个个数数多多，而而解解释释变变量量多多为为定定性性变变量量时时，应应该该思思索索运运用用计计数数模模型型countmodels。例例如如，一一个个公公司司提提出出恳恳求求的的专专利利的的数数目目，以以及及在在一一个个固固定定的的时时间间间间隔隔内内的的失失业业人人员员的的数数目目。在在计计数数模模型中运用较广泛的为泊松模型。型中运用较广泛的为泊松模型。7.47.4计计数模型数模型数模型数模型 7.4.1 7.4.1 泊松模型的方式与参数估泊松模型的方式与参数估泊松模型的方式与参数估泊松模型的方式与参数估计计设设每每每每个个个个观观测测值值 yi yi 都都都都来来来来自自自自一一一一个个个个服服服服从从从从参参参参数数数数为为m(xi m(xi , ,) ) 的的的的泊泊泊泊松松松松分分分分布布布布的的的的总总体，体，体，体， 7.4.17.4.1对对于于于于泊泊泊泊松松松松模模模模型型型型poisson poisson modelmodel，给给定定定定 xi xi 时时 yi yi 的的的的条条条条件件件件密密密密度度度度是是是是泊泊泊泊松松松松分分分分布：布：布：布： 7.4.27.4.2 由泊松分布的特点，由泊松分布的特点，由泊松分布的特点，由泊松分布的特点， 7.4.37.4.3 参参参参数数数数的的的的极极极极大大大大似似似似然然然然估估估估计计量量量量MLEMLE经经过过最最最最大大大大化化化化如如如如下下下下的的的的对对数数数数似似似似然然然然函函函函数数数数来得到：来得到：来得到：来得到： 7.4.47.4.4 倘倘假假设设条条件件均均值值函函数数被被正正确确的的指指定定且且的的条条件件分分布布为为泊泊松松分分布布，那那么么极极大大似似然然估估计计量量是是一一致致的的、有有效效的的、且且服从渐近正态分布。服从渐近正态分布。泊泊松松假假定定的的约约束束条条件件在在阅阅历历运运用用中中经经常常不不成成立立。最最重重要要的的约约束束条条件件是是式式7.4.3中中的的条条件件均均值值和和条条件件方方差差相相等等。假假设设这这一一条条件件被被回回绝绝，模模型型就就被被错错误误设设定定。这这里里要要留留意意泊泊松松估估计计量量也也可可以以被被解解释释成成准准极极大大似似然然估估计计量量。这这种结果的含义在下面讨论。种结果的含义在下面讨论。 7.4.2 负二项式模型的方式与参数估计对泊松模型的常用替代是运用一个负二项式(negative binomial)分布的似然函数极大化来估计模型的参数。负二项式分布的对数似然函数如下： 7.4.5其中：2 是和参数一同估计的参数。当数据过度分散时，经常运用负二项式分布，这样条件方差大于条件均值，由于下面的矩条件成立： 7.4.6 7.4.7 因此， 2 丈量了条件方差超越条件均值的程度。 7.4.3 准-极大似然估计假设因变量的分布不能被假定为泊松分布，那么就要在其他分布假定之下执行准-极大似然估计quasi-maximum likelihood, QML。即使分布被错误假定，这些准-极大似然估计量也能产生一个条件均值被正确设定的参数的一致估计，即对于这些QML模型，对一致性的要求是条件均值被正确设定。关于 QML估计的进一步的细节参见 Gourieroux， Monfort，和Trognon(1984a，1984b)。Wooldridge(1990)引见了在估计计数模型参数时QML方法的运用。也可参见关于广义线性模型(McCullagh和Nelder，1989)的扩展的相关文献。 1. 泊松准-极大似然估计假设条件均值被正确设定，泊松极大似然估计也是服从其他分布类型的数据的准-极大似然估计。它将产生参数的一致估计量。 2. 2. 指数准指数准- -极大似然估极大似然估计计指数分布的指数分布的对对数似然函数如下：数似然函数如下： 7.4.87.4.8 和和其其他他QMLQML估估计计量量一一样样，倘倘假假设设 m(xi m(xi , ,) ) 被被正正确确指指定定，即即使使 y y 的的条件分布不是指数分布，指数分布的准条件分布不是指数分布，指数分布的准- -极大似然估极大似然估计计仍是一致的。仍是一致的。 3. 正态准-极大似然估计正态分布的似然函数如下： 7.4.9 对于固定的 2和正确设定的m(xi ,)，即使分布不是正态的，正态分布的对数极大似然函数仍提供了一致的估计。4.4.负负二二二二项项式准式准式准式准- -极大似然估极大似然估极大似然估极大似然估计计最最最最大大大大化化化化式式式式7.3.127.3.12所所所所表表表表示示示示的的的的负负二二二二项项式式式式分分分分布布布布的的的的对对数数数数似似似似然然然然函函函函数数数数，对对于于于于固固固固定定定定的的的的2 2，可可可可以以以以得得得得到到到到参参参参数数数数的的的的准准准准- -极极极极大大大大似似似似然然然然估估估估计计。倘倘倘倘假假假假设设m(xim(xi, ,) )被被被被正正正正确确确确指指指指定定定定，即即即即使使使使 y y的的的的条条条条件件件件分分分分布布布布不不不不服服服服从从从从负负二二二二项项式式式式分分分分布布布布，这这个个个个准准准准- -极极极极大大大大似似似似然然然然估估估估计计量量量量仍仍仍仍是是是是一一一一致致致致的。的。的。的。例7.4 计数模型的实例本例研讨轮船发惹事故的次数与轮船的特征属性、运转时间之间的关系。因变量 y 表示平均每月轮船发惹事故数。解释变量是轮船特征属性，包括轮船类型、建造时间、运用时期等。轮船类型有5种，分别用x1x5表示，4个建造时间，分别用y1y4表示， z1 , z2表示两个运用时期，da表示运转时间。本例数据符合计数模型的条件，故采用泊松模型建模。留意到定性数据较多，为防止多重共线性，在引进虚拟变量时，需求人为地去掉一个。例如，轮船类型有5种x1x5，那么去掉x1，而在模型中只用其他4个变量x2x5，同样4个建造时间y1y4，在模型中只用其他3个变量y2y4，两个运用时期在模型中只用z2。模型如下： 7.4.10 7.5.4 7.5.4 估估估估计计计计数模型数模型数模型数模型 1. 1. 模型的估模型的估模型的估模型的估计计估估估估计计一一一一个个个个计计数数数数模模模模型型型型，翻翻翻翻开开开开EquationEquation对对话话框框框框，然然然然后后后后在在在在估估估估计计方方方方法法法法中中中中选选择择COUNTCOUNT作作作作为为估估估估计计方方方方法法法法。EViewsEViews显显示示示示计计数数数数模模模模型型型型估估估估计计对对话话框框框框( (图图7.6)7.6)。图图7.6 7.6 计计数模型的估数模型的估数模型的估数模型的估计对话计对话框框框框在在上上面面的的编编辑辑区区域域，列列出出被被解解释释变变量量和和解解释释变变量量。必必需需经经过过列列表表方方式式指指定定计计数数模模型型。模模型型的的方方式式如如方方程程7.5.4所示：所示：(7.5.4)在在Options标标签签中中，可可以以根根据据需需求求改改动动缺缺省省估估计计的的运运算算法法那那么么、收收敛敛准准那那么么、初初始始值值和和计计算算系系数数协协方方差差的的方方法。法。EViews提供的提供的5种计数模型的估计方法：种计数模型的估计方法：PoissonMLandQML；NegativebinomialML；ExponentialQML；Normal/NLSQML；NegativebinomialQML。从从上上面面的的5种种计计数数模模型型中中选选择择一一种种，并并且且对对于于NegativebinomialQML模模型型需需求求指指定定一一个个值值作作为为固固定定的的方方差差参参数数。前前4种种方方法法对对应应4种种因因变变量量的的分分布布，分分别别为为泊泊松松分分布布、负负二二项项分布、指数分布和正态分布。分布、指数分布和正态分布。例例7.4的估计结果如下：的估计结果如下：写成方程如下：写成方程如下：z=(-6.41)(-1.29)(-2.26)(-0.46)(1.13)(4.31)(4.28)(1.5)(3.13)(8.87)轮轮船船类类型型对对事事故故发发生生有有影影响响，如如类类型型是是x5的的系系数数是是正正的的，会会使使事事故故发发生生的的能能够够添添加加；建建造造时时间间y2y4的的系系数数根根本本是是递递减减的的，阐阐明明建建造造时时间间越越长长，那那么么发发惹惹事事故故的的能能够够越越大大；运运用用时时期期z2也也对对事事故故发发消消费费生生很很大大影影响响，运运用用时时间间越越长长，那那么么发发惹惹事事故故的的能能够够越越大大；运运转转时时间间ln(da)的的系系数数是是0.9，阐阐明明运运转转时时间间每每添添加加1%，那那么么发发惹惹事事故故数数量量会会添添加加0.9%，因因此此对对发发惹惹事事故故有有显显著著的影响。的影响。 2. 2. 模型的模型的模型的模型的预测预测与与与与产产生残差生残差生残差生残差选选择择ForecastForecast可可可可以以以以预预测测因因因因变变量量量量和和和和线线性性性性目目目目的的的的(xb)(xb)，b b是是是是参参参参数数数数的的的的估估估估计计值值，二二二二者者者者的的的的关关关关系系系系为为 = = exp(xb)exp(xb)。选选择择ProcMake ProcMake Residual Residual SeriesSeries，可可可可以以以以产产生生生生计计数数数数模模模模型型型型的的的的3 3种种种种类类型残差，残差型残差，残差型残差，残差型残差，残差类类型参照表型参照表型参照表型参照表7.67.6。