建立计量经济学模型的步骤和要点.doc-

建立计量经济学模型的步骤和要点| 一、理论模型的设计对所要研究的经济现象进行深入的分析，根据研究的目的，选择模型中将包含的因素，根据数据的可得性选择适当的变量来表征这些因素，并根据经济行为理论和样本数据显示出的变量间的关系，设定描述这些变量之间关系的数学表达式，即理论模型。例如上节中的生产函数就是一个理论模型。理论模型的设计主要包含三部分工作，即选择变量、确定变量之间的数学关系、拟定模型中待估计参数的数值范围。 1. 确定模型所包含的变量在单方程模型中，变量分为两类。作为研究对象的变量，也就是因果关系中的“果”，例如生产函数中的产出量，是模型中的被解释变量；而作为“原因”的变量，例如生产函数中的资本、劳动、技术，是模型中的解释变量。确定模型所包含的变量，主要是指确定解释变量。可以作为解释变量的有下列几类变量：外生经济变量、外生条件变量、外生政策变量和滞后被解释变量。其中有些变量，如政策变量、条件变量经常以虚变量的形式出现。严格他说，上述生产函数中的产出量、资本、劳动、技术等，只能称为“因素”，这些因素间存在着因果关系。为了建立起计量经济学模型，必须选择适当的变量来表征这些因素，这些变量必须具有数据可得性。于是，我们可以用总产值来表征产出量，用固走资产原值来表征资本，用职工人数来表征劳动，用时间作为一个变量来表征技术。这样，最后建立的模型是关于总产值、固定资产原值、职工人数和时间变量之间关系的数学表达式。下面，为了叙述方便，我们将“因素”与“变量”间的区别暂时略去，都以“变量”来表示。关键在于，在确定了被解释变量之后，怎样才能正确地选择解释变量。首先，需要正确理解和把握所研究的经济现象中暗含的经济学理论和经济行为规律。这是正确选择解释变量的基础。例如，在上述生产问题中，已经明确指出属于供给不足的情况，那么，影响产出量的因素就应该在投入要素方面，而在当前，一般的投入要素主要是技术、资本与劳动。如果属于需求不足的情况，那么影响产出量的因素就应该在需求方面，而不在投入要素方面。这时，如果研究的对象是消费品生产，应该选择居民收入等变量作为解释变量；如果研究的对象是生产资料生产，应该选择固定资产投资总额等变量作为解释变量。由此可见，同样是建立生产模型，所处的经济环境不同、研究的行业不同，变量选择是不同的。其次，选择变量要考虑数据的可得性。这就要求对经济统计学有透彻的了解。计量经济学模型是要在样本数据，即变量的样本观测值的支持下，采用一定的数学方法估计参数，以揭示变量之间的定量关系。所以所选择的变量必须是统计指标体系中存在的、有可靠的数据来源的。如果必须引入个别对被解释变量有重要影响的政策变量、条件变量，则采用虚变量的样本观测值的选取方法。第三，选择变量时要考虑所有入选变量之间的关系，使得每一个解释变量都是独立的。这是计量经济学模型技术所要求的。当然，在开始时要做到这一点是困难的，如果在所有入选变量中出现相关的变量，可以在建模过程中检验并予以剔除。从这里可以看出，建立模型的第一步就已经体现了计量经济学是经济理论、经济统计学和数学三者结合的思想。在选择变量时，错误是容易发生的。下面的例子都是从已有的计量经济学应用研究成果中发现的，代表了几类容易发生的错误。例如农副产品出口额 -107.660.13社会商品零售总额十0.22农副产品收购额这里选择了无关的变量，因为社会商品零售总额与农副产品出口额无直接关系，更不是影响农副产品出口额的原因。再如生产资料进口额 0.73轻工业投资0.21出口额0.18生产消费67.60进出口政策这里选择了不重要的变量，因为轻工业投资对生产资料进口额虽有影响，但不是重要的，或者说是不完全的，重要的是全社会固定资产投资额，应该选择这个变量。再如农业总产值 0.780.24粮食产量0.05农机动力0.21受灾面积这里选择了不独立的变量，因为粮食产量是受农机动力和受灾面积影响的，它们之间存在相关性。值得注意的是上述几个模型都能很好地拟合样本数据，所以绝对不能把对样本数据的拟合程度作为判断模型变量选择是否正确的主要标准。变量的选择不是一次完成的，往往要经过多次反复。 2. 确定模型的数学形式选择了适当的变量，接下来就要选择适当的数学形式描述这些变量之间的关系，即建立理论模型。选择模型数学形式的主要依据是经济行为理论。在数理经济学中，已经对常用的生产函数、需求函数、消费函数、投资函数等模型的数学形式进行了广泛的研究，可以借鉴这些研究成果。需要指出的是，现代经济学尤其注重实证研究，任何建立在一定经济学理论假设基础上的理论模型，如果不能很好地解释过去，尤其是历史统计数据，那么它是不能为人们所接受的。这就要求理论模型的建立要在参数估计、模型检验的全过程中反复修改，以得到一种既能有较好的经济学解释又能较好地反映历史上已经发生的诸变量之间关系的数学模型。忽视任何一方面都是不对的。也可以根据变量的样本数据作出解释变量与被解释变量之间关系的散点图，由散点图显示的变量之间的函数关系作为理论模型的数学形式。这也是人们在建模时经常采用的方法。在某些情况下，如果无法事先确定模型的数学形式，那么就采用各种可能的形式进行试模拟，然后选择模拟结果较好的一种。 3. 拟定理论模型中待估参数的理论期望值理论模型中的待估参数一般都具有特定的经济含义，它们的数值，要待模型估计、检验后，即经济数学模型完成后才能确定，但对于它们的数值范围，即理论期望值，可以根据它们的经济含义在开始时拟定。这一理论期望值可以用来检验模型的估计结果。拟定理论模型中待估参数的理论期望值，关键在于理解待估参数的经济含义。例如上述生产函数理论模型中有4个待估参数和、和A。其中，是资本的产出弹性，是劳动的产出弹性，近似为技术进步速度，A是效率系数。根据这些经济含义，它们的数值范围应该是 01，01，1，01并接近0，A0。二、样本数据的收集样本数据的收集与整理，是建立计量经济学模型过程中最为费时费力的工作，也是对模型质量影响极大的一项工作。从工作程序上讲，它是在理论模型建立之后进行，但实际上经常是同时进行的，因为能否收集到合适的样本观测值是决定变量取舍的主要因素之一。 1. 几类常用的样本数据常用的样本数据有三类：时间序列数据、截面数据和虚变量数据。时间序列数据是一批按照时间先后排列的统计数据，一般由统计部门提供，在建立计量经济学模型时应充分加以利用，以减少收集数据的工作量。在利用时间序列数据作样本时，要注意以下几个问题。一是所选择的样本区间内经济行为的一致性问题。例如，我们建立纺织行业生产模型，选择反映市场需求因素的变量，诸如居民收入、出口额等作为解释变量，而没有选择反映生产能力的变量，诸如资本、劳动等，原因是纺织行业属于供大于求的情况。对于这个模型，利用时间序列数据作样本时，只能选择80年代后期以来的数据，因为纺织行业供大于求的局面只出现在这个阶段，而在80年代中期以前的一个长时期里，我国纺织品是供不应求的，那时制约行业产出量的主要因素是投入要素。二是样本数据在不同样本点之间的可比性问题。经济变量的时间序列数据往往是以价值形态出现的，包含了价格因素，而同一件实物在不同年份的价格是不同的，这就造成样本数据在不同样本点之间不可比。需要对原始数据进行调整，消除其不可比因素，方可作为模型的样本数据。三是样本观测值过于集中的问题。经济变量在时间序列上的变化往往是缓慢的，例如，居民收入每年的变化幅度只有5%左右。如果在一个消费函数模型中，以居民消费作为被解释变量，以居民收入作为解释变量，以它的时间序列数据作为解释变量的样本数据，由于样本数据过于集中，所建立的模型很难反映两个变量之间的长期关系。这也是时间序列不适宜于对模型中反映长期变化关系的结构参数的估计的一个主要原因。四是模型随机误差项的序列相关问题。用时间序列数据作样本，容易引起模型随机误差项产生序列相关。这个问题后面还要专门讨论。截面数据是一批发生在同一时间截面上的调查数据。例如，工业普查数据、人口普查数据、家计调查数据等，主要由统计部门提供。用截面数据作为计量经济学模型的样本数据，应注意以下几个问题。一是样本与母体的一致性问题。计量经济学模型的参数估计，从数学上讲，是用从母体中随机抽取的个体样本估计母体的参数，那么要求母体与个体必须是一致的。例如，估计煤炭企业的生产函数模型，只能用煤炭企业的数据作为样本，不能用煤炭行业的数据。那么，截面数据就很难用于一些总量模型的估计，例如，建立煤炭行业的生产函数模型，就无法得到合适的截面数据。二是模型随机误差项的异方差问题。用截面数据作样本，容易引起模型随机误差项产生异方差。这个问题后面还要专门讨论。虚变量数据也称为二进制数据，一般取0或1。虚变量经常被用在计量经济学模型中，以表征政策、条件等因素。例如，建立我国的粮食生产计量经济学模型，以粮食产量作为被解释变量，解释变量中除了播种面积、化肥使用量、农机总动力、成灾面积等变量外，显然，政策因素是不可忽略的。1980年前后，由于实行了不同的政策，即使上述变量都没有变化，粮食产量也会发生大的变化。于是必须在解释变量中引人政策变量，用一个虚变量表示，对于1980年以后的年份，该虚变量的样本观测值为1，对于1980年以前的年份，该虚变量的样本观测值为0。也可以取0、l以外的数值，表示该因素的变化程度。例如，在工业生产模型中用虚变量表示气候对工业生产的影响，可以将不同年份气候的影响程度，分别用0、1、-1，甚至0.5、-0.5等表示。不过，这种方法应慎用，以免违背客观性。 2. 样本数据的质量样本数据的质量问题大体上可以概括为完整性、准确性、可比性和一致性四个方面。完整性，即模型中包含的所有变量都必须得到相同容量的样本观测值。这既是模型参数估计的需要，也是经济现象本身应该具有的特征。但是，在实际中，“遗失数据”的现象是经常发生的，尤其在中国，经济体制和核算体系都处于转轨之中。在出现“遗失数据”时，如果样本容量足够大，样本点之间的联系并不紧密的情况下，可以将“遗失数据”所在的样本点整个地去掉；如果样本容量有限，或者样本点之间的联系紧密，去掉某个样本点会影响模型的估计质量，则要采取特定的技术将“遗失数据”补上。准确性，有两方面含义，一是所得到的数据必须准确反映它所描述的经济因素的状态，即统计数据或调查数据本身是准确的；二是它必须是模型研究中所准确需要的，即满足模型对变量口径的要求。前一个方面是显而易见的，而后一个方面则容易被忽视。例如，在生产函数模型中，作为解释变量的资本、劳动等必须是投入到生产过程中的、对产出量起作用的那部分生产要素，以劳动为例，应该是投入到生产过程中的、对产出量起作用的那部分劳动者。于是，在收集样本数据时，就应该收集生产性职工人数，而不能以全体职工人数作为样本数据，尽管全体职工人数在统计上是很准确的，但其中有相当一部分与生产过程无关，不是模型所需要的。可比性，也就是通常所说的数据口径问题，在计量经济学模型研究中可以说无处不在。而人们容易得到的经济统计数据，一般可比性较差，其原因在于统计范围口径的变化和价格口径的变化，必须进行处理后才能用于模型参数的估计。计量经济学方法，是从样本数据中寻找经济活动本身客观存在的规律性，如果数据是不可比的，得到的规律性就难以反映实际。不同的研究者研究同一个经济现象，采用同样的变量和数学形式，选择的样本点也相同，但可能得到相差甚远的模型参数估计结果。为什么？原因在于样本数据的可比性。例如，采用时间序列数据作为