基于核密度估计的上证A股收益率分析-

第六章第六章基于核密度估计的上证基于核密度估计的上证 A 股收益率分析股收益率分析一、模型的相关理论知识一、模型的相关理论知识（一）问题的提出（一）问题的提出经济计量研究中常用的是参数估计,即假定经济变量之间具有一定的函数关系,且函数形式是可以确定的,可以写成带参数的形式进行估计,经典的线性回归和非线性回归就属于参数估计方法。但经济变量之间的关系未必是线性关系或可线性化的非线性关系,而变量之间的真实关系到底是什么又很难确定。因而当模型及参数的假定与实际背离时,就容易造成模型设定误差。此时,基于经典假设模型所做出的预测,很难达到预期的效果。针对该问题，非参数估计方法提供了最佳的解决办法，它使我们能寻找到最精确的非线性系统来描述变量之间的内在关系。非参数估计的回归函数的形式可以任意,没有任何约束,解释变量和被解释变量的分布也很少限制,因而有较大的适应性,其目的在于放松回归函数形式的限制,为确定或建议回归函数的参数表达式提供有用的工具,从而能在广泛的基础上得出更加带有普遍性的结论。核估计就是一种非参数估计方法,主要用于对随机变量密度函数进行估计。（二）（二）核密度估计方法的原理核密度估计方法的原理设是从具有未知密度函数的总体中抽出的独立同分布样本，12,nx xxL( )f x要依据这些样本对每一去估计的值。x( )f x 密度估计最基本的方法是直方图估计，我们可以从直方图估计导出密度核估计。作直方图时，先用点把直线分成若干小的计数区间。这样，计数 1k iia 区间的端点与宽度都是固定的。记为样本点落在第 i 个计数区间iN12,nx xxL里的个数，则密度函数在里的函数估计值就取为：1,iia a( )f x1,iia akiaxaaanNxfii iii, 1,)()( 1 1L 这样的直方图估计结果是阶梯函数，如果对每个,各作一个以为中点的xx 小计数区间, 再对落在该计数区间的样本点计数，设为，则,xh xh,N x h（）密度估计为：。其与直方图不同在于它的计数区间端点划分不是( , )( ) 2N x hf xnh固定的，而是随而变，可以自始至终保持点在计数区间中间。不过此时计xx数区间宽度一般是固定的。如果引进均匀核函数，h00.5 11( )0 xKx 当其他则上述变端点计数区间的密度估计可写为：。0 11( )n iixxf xKnhh后来Parzen(1962)提出，可以将这种核函数形式放宽限制，只须积分为 1（最好还为恒正）即可。这就导出了一般的密度核估计：（6-1）11( )n iixxf xKnhh其中为核函数，h为窗宽。( )K 另外也可以从经验分布函数导出密度核估计。经验分布函数也是一种计数，不过从121( )( ,)nF xx xxxnL中小于的个数一直计到为止。利用它表示一个以为中心,窗宽为计数区间里的样本xx2h 点数,于是密度估计为： 1111( )()()2( )()( )()2x hn iix hxxxtf xF xhF xhhdF tKdF tKhhhnhh对核函数形式放宽了，一般来说，要求核函数满足以下条件： 0)(lim)(,)(sup1)(, 0)(2xxKdxxKxKdxxKxKx对于一般概率密度函数，这些条件是能满足的，所以可以选一个概率密度函数作核函数。对窗宽h的要求，显然样本数越多，窗宽应越小，但不能太小，即h是n的函数，且。在上述要求的核函数及窗宽lim ( )0,lim( ) xnh nnh nn 条件下，密度的核估计是的渐近无偏估计与一致估计。( )f x( )f x( )f x（三）几种常用的和函数（三）几种常用的和函数下面介绍几种常用的核函数：1，均匀核，00.5 11( )0 xKx 当其他2，高斯核，)2exp()2(x)K221 1x3，Epanechnikov核，2 2( )0.75(1)Kxx4，三角形核，3( )(1)Kxx5，四次方核，22 415( )(1) )16Kxx6，六次方核。33 570( )(1) )81Kxx通常在大样本的情况下，非参数估计对核函数的选择并不敏感，但是，窗宽的选择对估计的效果影响较大。一般来说，窗宽取得越大，估计的密度函h 数就越平滑，但偏差可能会较大。如果选的太小，估计的密度曲线和样本拟h 合得较好，但可能很不光滑，即方差过大。所以，窗宽的变化不可能既使核估计的偏差减小，同时又使核估计的方差较小。因此，最佳窗宽的选择标准必须在核估计的偏差和方差之间作一个权衡，即使积分均方误差达到)(xfAMISE 最小。选择h的方法有许多，比如交错鉴定选择法，直接插入选择法，在各个局部取不同的窗宽，或者估计出一个光滑的窗宽函数等等1。)(xh dxxfVarxfxfEdxxfxfExfAMISE)()()()()()(221 见于吴喜之.非参数统计M.中国统计出版社,p188-p189.= （6-2）dxxfVarxfBias)()(2可以证明，在很一般的正则条件下，使积分均方误差极小化的任何h取值一定与成比例。51n2由此得到，一般的最佳窗宽选择为（其中c为常数），通过不断51 cnh 地调整c，使得所采用的窗宽的核估计达到满意的估计结果。的两个51 cnhh 常见选择为：（6-3）51059. 1snh（6-4）51 25. 075. 0)(785. 0nqqh其中，n 为样本单位数。s 为的标准差，为数据的 0.75 分位数ix25. 075. 0qq估计值和 0.25 分位数估计值之差。因子 1.059 实际上就是，是通过最5134）（优性证明得出的，因子 0.785 是 1.059 除以 1.349 得出的，1.349 是标准正态分布的四分位数中间跨度。二、案例分析：基于核密度估计的上证二、案例分析：基于核密度估计的上证A股收益率分析股收益率分析（一）案例背景材料（一）案例背景材料中国的股票市场经过二十多年的发展，已经取得了令人瞩目的成就。在市场参与者各方的共同努力之下，市场日渐走向成熟和完善，对中国股票市场的研究也日渐深入和丰富多彩。几乎所有的关于市场的学术研究中都会涉及到股票的收益率，而在股票市场，对收益率随机过程的充分认识是做出正确投资决定的基础，因为它提供了有关资产风险的基本信息。在现代金融经济学中，线性范式一直占据着主导地位，许多经典理论都是以正态分布或对数正态分布为基础建立的。股市收益率作为反映股票市场波动性的指标，在描述股价行为的经典计量模型中，通常被假定服从正态分布。但是许多计量金融学家对这一经典假设做了大量的研究并发现，收益率的分布并不服从正态分布这一假设。事实上，大多数收益率的变化存在很明显的尖峰现象，也就是说相对正态分布而言，在均值附近的数据点特别多。许多学者认为这只不过是由一些“异常值”所引起，从而在统计分析中将这些“异常值”去掉。例如，国内学者陶亚民认为，上海股市收益率分布是服从正态分布的，但这却是在剔除了“异常点”的基础上得到的结论。然而Mandelbrot认为将这些 “异常值”值从数据中去掉是不可取的。因为“异常值”的出现并不是一种偶然现象，尖峰和厚尾现象几乎是所有股票收益率数据所共有的。这说明“异常值”本身反映了股票收益率并不服从正态分布这一假定。陈启欢也通过实证研究的方法得到我国股市收益率分布曲线并不服从正态分布。因此，在收益率分布非正态的情况下，本案例利用非参数估计中的核密度估计方法来对上证A股指数收益率的密度进行估计。（二）数据来源及说明（二）数据来源及说明本案例采用wind资讯公司提供的2005年1月至2009年11月12日期间我国上证 A股日收盘指数，共计1180个观测值为样本，运用密度估计模型来研究股指数收益率波动。2 见于罗素.戴维森,詹姆斯.G.麦金农.计量经济理论和方法M上海财经大学出版社.p580-p581.（三）模型建立与估计结果（三）模型建立与估计结果本模型的建立，采用上证A股指数日收益率为变量。，1tRttt tPPPR 1 1是第t日的收盘指数，是第t+1日的收盘指数。另外，本案例的模型估计tP1tP是通过使用R软件来实现的。1 1、收益率分布的正态性检验收益率分布的正态性检验本案例利用Shapiro-Wilk（夏皮罗-威尔克）W统计量对样本作正态性检验。在R软件中，函数shapiro.test()提供W统计量和相应的p值，当p值小于某个显著水平（比如0.05）时，则认为样本不是来自正态分布的总体；否则认为样本是来自正态分布的总体。在此，假设上证A股指数收益率服从正态分布，得出的检验结果如下： Shapiro-Wilk normality test data: x W = 0.8, p-value 2.2e-16 从上述结果可以看出，上证 A 股指数收益率不服从正态分布。2 2、核函数与窗、核函数与窗宽的宽的选择选择由于核函数在核密度估计中不敏感,满足核函数条件的高斯核、均匀核、 Ep-anch-nikov核、Biweight核的最优性几乎一致(Prakasa Rao,1983)。因此, 本文仅选取高斯核作为核函数进行估计。对于窗宽的选择，本案例先由（3）式和（4）式分别计算得出 =0.006376，=0.003952。再在选用高斯核函数的条件下，根据使积分均方1h2h误差达到最小法则，得到高斯核估计的最优窗宽为=0.006376。)(xfAMISE1h（四）非参数估计下的上证（四）非参数估计下的上证 A 股指数收益率密度函数的实际应用股指数收益率密度函数的实际应用在核估计的核函数与窗宽都确定后，就可以得到上证 A 股指数收益率的核估计密度函数的确定形式：（6- niixxxf12006376. 021exp2006376. 011811)( 5）在非参数核密度估计的情况下，收益率的期望和方差为：（6- niiniiniixndyyxhyndxhxxxhndxxf xEX1211221 2exp)(2112)(exp211)(6）（6- niiniixnhdxhxxxhndxxfxXE1212 22 2221 2)(exp211)()( 7）（6-22)()()(XEXEXVar8）通过公式（6-6），（6-7），（6-8），可以计算出核估计密度函数的期望与方差，见表 1：表表 1 1 上证上证 A A 股指数收益率非参数估计与实际的收益率的统计特征比较股指数收益率非参数估计与实际的收益率的统计特征比较从表 1 可以看出，核估计收益率的期望与原来数据的均值是相等的，但是方差却不同，核估计的方差比实际数据的方差偏大。由于本案例采用的是高斯核（正态核）函数，所以可以推导出核估计条件下的收益率分布函数是：（6- nii hxx nxXxF11)Pr()(9）由公式（6-9）可以知道在核估计密度函数下的收益率分布函数形式，因此我们就可以计算出收益率落在不同区间时概率值的大小，计算结果见表 2：表表 2 2 上证上证 A A 股指数收益率的区间概率值