自回归预测模型-－金锄头文库

自回归模型一、预测方法综述预测方法大体上分为定性预测法、时间序列预测法和因果模型预测法。定性预测法是在数据资料掌握不多的情况下，依靠人的经验和分析能力，用系统的、逻辑的思维方法，把有关资料加以综合、进行预测的方法。定性预测法包括特尔斐法、主观概率预测法、判断预测法等方法。时间序列预测法是依据预测对象过去的统计数据，找到其随时间变化的规律，建立时序模型，以判断未来数值的预测方法。其基本思想是:过去的变化规律会持续到未来，即未来是过去的延伸。时间序列预测法包括时间序列平滑法、趋势外推法、季节变动预测法等确定型时间序列的预测方法和马尔可夫法、随机型时间序列的预测方法。因果模型预测法是把所要预测的对象同其他有关因素联系起来进行分析，制定出揭示因果关系的模型，然后根据模型进行预测。因果模型预测法包括回归分析预测法、经济计量模型法、投入产出预测法等。由于时间序列预测法和因果模型预测法都是以统计资料为依据，应用统计方法进行预测的，所以有时两者统称为统计预测。到目前为止，已有近二百种预测方法。1987年，Ledes和Farbor首次将神经网络引入到预测领域中，无论是从思想上、还是技术上都是一种拓宽和突破。常用的分析和预测方法有下面几种:(1) 投资分析方法。这是市场分析家常用的方法。(2) 时间序列分析法。这种方法主要是通过建立综合指数之间的时间序列相关辩识模型，如自回归移动平均模型(ARMA)、齐次非平稳模型(ARIMA)等来预测未来变化。(3) 神经网络预测法。神经网络是一种最新的时间序列分析方法。(4) 其他预测方法。如专家评估法和市场调查法等定性方法、季节变动法、马尔柯夫法和判别分析法等定量预测方法。传统的预测方法大都采用线性模型来近似地表达预测对象的发展规律。如最常用的AR模型预测，就是在时间序列平稳的假设基础之上，对其建立线性模型，然后采用模型外推的方法预测其未来值。然而这些方法只适用于平稳时间序列的预测。而实际应用中的时间序列往往是高度非平稳的时间序列，传统的预测方法无法取得很好的效果。RefeneS等人将神经网络预测方法和多重线性回归方法在股票市场预测中的应用进行了比较研究，指出神经网络的平滑内插特性使其能较好的拟合数据并能更好地泛化，其预测精度比统计预测方法有较大的提高。社会的需求推动着预测理论和方法的迅速发展。迄今为止已近200种的预测方法。尽管各种方法千差万别，但是在具体进行预测的过程中，都遵循可知性原理、可能性原理、连续性原理、可控性原理、反馈性原理、系统性原理等哲学高度上的一般原理二、时间序列分析法及其模型1 时间序列分析法在金融经济学的发展上，人们对金融预测做了大量的探索，取得了丰硕的成果，典型的金融预测是时间序列预测。时间序列分析法是指在研究对象的一组实测时间序列的基础上，通过各种数学手段对其进行处理，寻找出序列变化特征、发展规律与趋势，从而对未来某时刻的状态进行估计。时间序列的典型特征是相邻观测之间的依赖性，为了研究这种依赖性，提出了很多时间序列模型。传统的金融时间序列大致上有两种研究方法，一种是从基本的经济原理出发建立金融时间序列服从的数学模型，如：资本资产定价模型（CAPM）、套利定价模型（APT）、期权定价模型等。而实际上，这些理论的成功都是建立在很理想的假设上的，假设与市场的实际差距很大，因此这些理论的实际应用效果并不理想。另一种方法是从统计角度对金融时间序列进行研究。这种方法从实际数据出发，应用概率统计推断出市场的变化规律。虽然这种方法从经济学角度来看缺乏理论性，但是在实际应用中效果较好。同时，统计方法还可以对经济模型进行检验和评价。主要模型有：自回归模型（AR）、移动平均模型（MA）、自回归移动平均模型（ARMA）和齐次非平稳模型（ARIMA）。时间序列预测法是依据预测对象过去的统计数据，通过分析数据之间的依赖关系，找到其随时间变化的规律，用回归分析方法建立起描述当前时刻和过去时刻观测数据之相互关系的时序模型，以判断未来数值的预测方法。其基本思想是:过去的变化规律会持续到未来，即未来是过去的延伸。时间序列预测法包括时间序列平滑法、趋势外推法、季节变动预测法等确定型时间序列的预测方法和马尔可夫法、随机型时间序列的预测方法。2 随机模型分析随机过程模型又分为自回归过程模型和移动平均过程模型两大类。前者以其滞后变量为依据，推算其未来值，后者是以过去的误差项为依据，推算其未来值。有时需两者并用，便产生自回归移动平均模型。自回归模型（AR）在AR模型中，序列的当前值由序列的当前值和序列的前一个长度为M的窗口内序列值决定。自回归过程是一个变量在时间的某一点的变化，相对于前期的变化是线性的。一般来说相关性随着时间呈指数下降，且在比较短的周期内消失。在高频的金融时间序列中（如日交易），因为数据是最基本的交易数据，而且交易者相互影响，所以通常显示明显的自回归倾向。可以预期这个性质，因为高频率数据是基本的交易数据，而交易者的确相互影响。但是，如果以周或者月为周期，这个过程就会减少，因为当时问区间加长时，来自交易的相关作用降低。移动平均模型（MA） (3.3)这个式子说明序列的当前值由序列从当前值前推长度为N的窗口内序列值决定。在平均移动模型（MA）中，时间序列是一种未观测到的时间序列的平均移动的结果，如下： (3.4)e 为一个独立同分布的随即变量，c 为常数，且 c 1。在平均移动参数c上的限制保证了过程是可以转换的。表明未来事件不太可能影响现在的事件，而且此过程是稳定的；对于e的限制，如同 AR 过程中的e，是一个具有零均值和方差为r 的独立同分布随机变量。已观测到的时间序列C 是未来观测到随机时间序列平均移动的结果。由于平均移动过程，所有过去和短期记忆的结果存在一个线性的依赖。自回归移动平均模型（ARMA）ARMA由AR和MA两个部分组成，形式如下: (3.5)在ARMA模型中，序列的当前值由序列的当前值从当前值前推长度为N的窗口内序列值以及序列的前一个长度为M的窗口内序列值一起决定。在自回归移动平均模型中，既存在自回归项，又有平均移动项： (3.6)此模型属于混合模型，称为 ARMA( p ，q)。p 为自回归项的个数，q为平均移动项的个数。也就是，对于一个 ARMA(2，0)过程，和 AR(2)一样，而一个 ARMA(0，2)过程又和 MA(2)一样，但是 ARMA 还是一个无记忆的过程。官嘉成，沈美琴曾选取美国股市一些股票价格时间序列样本利用该模型进行分析。李民，邹捷中等曾用ARMA 模型对深沪大盘指数进行分析预测。齐次非平稳模型（ARIMA）AR 和 ARMA 两个模型合并为一个更一般的过程，即齐次非平稳模型，也称为自回归集中移动平均模型。ARIMA 模型专门用于不稳定的时间序列，这些不稳定的过程在它们的均值和方差里，有一个不稳定的倾向，但是由于采用数据的累次差分，所以其结果是平稳的。例如，因为有了长期增长因素，价格序列就是不稳定的了，它可以任意无边界的增长，以至于使价格自身不再倾向平均值。但是有效市场假说能接受的是价格或者收入的变化是稳定的。而且，一般价格的变化是用百分比表示的。在这种情况下，可以用对数差分表示，这是一阶差分的情况，在一些序列里，高阶差分可以让数据稳定。假定是一个ARMA(p,q)过程，那么被认为是(p,d,q)阶的整合ARIMA，其中，p是自回归项的个数，q是平均移动项的个数，d 是所需差分化运算的次数。如果是一个ARIMA( p,d,0)过程，那么是一个AR(p)过程，同样，如果是一个ARIMA(0,d,q)过程，则是一个MA(0,q)。典型的ARIMA(p,d,q)模型考虑整数差分。自回归条件异方差模型(ARCH)自回归条件异方差模型(ARCH，Auto Regressive Conditional Hetero skedastic)以及一般的ARCH(Generalized ARCH，GARCH)在近几年得到了广泛的使用。因为，首先，它们针对AR和MA线性依赖过程，是一族非线性的随机过程。其次，它们的分布是陡峰胖尾的，最后，实际经验表明，金融时间序列从统计上非常类似ARCH，也就是说显示了显著ARCH特征。ARCH是由Engle发展的。他认为方差尽管对于个体分布是稳定的，也会出现时间变化，条件异方差过程就是这样命名的。这个过程也是自回归的，它也具有时间依赖特征。一个样本的频率分布将是这些扩大和收缩的正态分布的平均值。因为如此，听以在时间任何一点上，它都可能出现陡峰胖尾的分布。它基本定义如下: (3.7) (3.8)这里，e是一个标准的独立同分布，f是一个常数。而且为了方便，一般而且。ARCH模型和以前讨论的AR有很大的相似性。不过ARCH是非线性的，在这里，小变化跟随着小变化，有缩小的趋势;大变化跟随着大变化，而且有放大的趋势。这导致陡峰胖尾分布。近年来的实证研究表明许多经济变量的时间序列，尤其是金融时间序列的非正态性都有着深厚的异方差根源，用GARCH模型来反映收益的分布是非常合适的。三、 AR时间序列模型在股票预测中的应用对于一般的时间序列预测，可以通过相关性分析，选择建模变量，进行回归分析预测。对于己知受到多种因素影响的单一变量预测，可以选择对该变量影响最显著的变量进行建模，如果影响因素已知，但是，影响程度并不明显，可以通过协方差分析，筛选出最少数量的互不相关，但与预测变量关系密切的变量作为建模变量。对于影响因素众多，且相关分析复杂的变量，可以采用变量时间序列的历史值进行自回归预测，此时重要的是变量选取的延迟间隔，变量选取的个数等，可以采用逐步增加变量个数的方法。1 AR(p)模型的定义： (4.1)上式所表示的数学模型为p阶自回归模型，记作AR(p)。其中p称为模型的阶，称为模型参数，为因变量，即它可由以前各期数值表示，为白噪声序列，其数学期望为零，方差为，且互不相关。它代表了不能用模型说明的随机因素。2 时间序列建模的实现过程由时间序列模型的特性可知，AR，MA，ARMA模型所适合描述的对象应是均值为零的平稳随机序列，然而实际的建模对象往往既包括平稳的随机部分，又含有确定的非随机分量。因此，在进行时间序列建模时，首先需要对观测数据序列迸行平稳化处理，使非平稳的数据序列转化为均值为零的平稳随机序列。时间序列分析是根据系统观测得到的时间序列数据，通过曲线拟合和参数估计来建立数学模型的理论和方法。它一般采用曲线拟合和参数估计方法(如非线性最小二乘法)进行。时间序列建模基本步骤是:(1) 用观测、调查、统计、抽样等方法取得被观测系统时间序列动态数据。(2) 根据动态数据作相关图，进行相关分析，求自相关函数。相关图能显示出变化的趋势和周期，并能发现跳点和拐点。跳点是指与其他数据不一致的观测值。如果跳点是正确的观测值，在建模时应考虑进去，如果是反常现象，则应把跳点调整到期望值。拐点则是指时间序列从上升趋势突然变为下降趋势的点。如果存在拐点，则在建模时必须用不回的模型去分段拟合该时间序列。 (3) 辨识合适的随机模型，对模型的阶数和参数进行辨识。由于利用解析的方法推测和确定模型的阶数比较困难，因此确定模型的阶数一般使用试凑法，从一个较低的阶数开始，逐步增加阶数，并对相应模型的参数进行辨识，直到所建立的模型精度满足要求为止。最后还需要对所建模型的适用性进行