基于因子分析和聚类分析的股票分析方法-

基于因子分析和聚类分析的股票分析方法【摘要】在股票投资市场不断发展的今天，由于各种限制因素，可供广大投资者选择的价值投资方式都存在不同程度上的缺陷。本文选择沪深300指数成分股作为样本，运用SPSS软件因子分析与聚类分析的方法将样本股票排名、分组，对排名高低与各个分组的股票进行了特征分析，以此探索出了一种新的股票基本面分析方法，可以在较低维度综合考虑若干股票分析指标，并把股票分类，适应不同偏好的广大投资者的投资需求。【关键词】因子分析聚类分析股票分析方法一、引言随着中国金融市场的发展，股票投资在中国早已成为了广大投资者投资组合的重要组成部分。但是，散户投资者由于信息成本等原因大多更多的侧重于技术分析，一定程度上忽视了基本面分析；其次，西方现代股票定价理论如CAPM、Fama-French三因子模型、APT理论、MM理论，甚至DCF现金流贴现法都存在着各自不容忽视的不足，以及欠缺在实践中的可行性；再次，国内机构投资者的选股理论存在较高运行成本或初始投资要求，散户投资者难以采用；国内目前实际中广泛采用的价值投资方法为主观赋权法，但此方法需要考虑的财务指标与财务数据很多，人为给定的权数客观性较弱会影响模型的准确性，也不适合散户投资者运用。基于以上的原因，提供出一个适用于新时代背景下证券投资市场的证券分析方法具有充足的必要性。本文将分析样本定为沪深300指数成分股，运用资产总计、产权比率、每股收益等十个指标进行因子分析，将原有十个指标降维成三个公共因子，然后基于降维后的数据，采用聚类分析的方法对样本股票进行分类处理，得到具有不同特征的股票分类，最后构造出一个在更低维度下综合考虑多项价值分析指标的适用于具有不同偏好的投资者的股票分析方法。二、数据来源与处理本文的研究样本为沪深300指数的三百只成分股，数据来源为Wind数据库中相应股票2013财年年度业绩报告数据，原始数据矩阵从略。为了数据的可参考性，对样本中的唯一一只ST股票“*ST大荒”进行了剔除。原因为该股票的利润总额与净利润两项指标均为负，且都是非常大的异常值，会对因子分析的结果产生显著的负面影响。本文初始使用的十个股票基本面分析指标如下：表1 因子分析模型指标三、多变量方法根据何晓群1，因子分析主要用于对指标降维，聚类分析主要用于对样品分类。本文利用因子分析和聚类分析来构建股票分析方法。下面对这两种多变量统计分析方法作简要介绍。（一）因子分析因子分析模型是利用降维的思想，由研究原始变量相关矩阵内部的依赖关系出发，把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。最早由英国心理学家C.E.斯皮尔曼提出。他发现学生的各科成绩之间存在着一定的相关性，单科成绩好的学生，往往其他各科成绩也比较好，从而推想是否存在某些潜在的共性因子，或称某些一般智力条件影响着学生的学习成绩。因子分析可在许多变量中找出隐藏的具有代表性的因子。将相同本质的变量归入一个因子，可减少变量数目，还可检验变量间具有某种潜在关系的假设。设原有p个变量，且每个变量（或经标准化处理）的均值为0，标准差均为1。现将每个原有变量用m（mp）个因子，的线性组合来表示，即得到因子模型： X =a F +a F+ +a F+ X =a F +a F+ +a F+ X =a F +a F+ +a F+ 也可用矩阵形式表示为： X=AF+ 其中： A= F称为X的公共因子，矩阵A中的元素称为因子载荷，的绝对值大，表明与的相依程度越大，或称公共因子对于的载荷量越大，称为特殊因子，表示了原有变量不能被因子解释的部分。因子分析模型的建立步骤大致为：第一，建立指标体系，构成原始矩阵Z，在保证全部指标同向化的基础上对样本数据进行标准化处理，公式如下： Z=（i=1，2，.，p；j=1，2，.，n） =X，S=（X-）（i=1，2，.，p；j=1，2，.，n）得到标准化矩阵，计算变量的简单相关系数矩阵R。第二，解特征方程|R-E|=0，计算相关矩阵的特征值，若 12p，以p1为标准确定公共因子个数P。第三，计算初始因子载荷矩阵和公共因子方差，用正交或斜交旋转的方法求得正交或斜交因子载荷矩阵；根据正交或斜交因子载荷矩阵相关系数绝对值，确定并命名公共因子。最后，计算公共因子得分和综合得分。在最小二乘法的意义下，可以得到F的估计值： =AR-1X 式中，A为因子载荷矩阵，R为原始变量的相关阵，S为原始变量向量。根据各因子的方差贡献率占p个因子总方差贡献率的比重作为权重进行加权汇总，得出各样本的综合得分。（二）聚类分析聚类分析是一种多元统计方法，它将个体或对象分类，使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。目的在于使类间对象的同质性最大化和类与类间对象的异质性最大化。我们认为，所研究的样品或指标（变量）之间是存在着程度不同的相似性（亲疏关系）。于是根据一批样品的多个观测指标，具体找出一些能够度量样品或指标之间的相似程度的统计量，以这些统计量为划分类型的依据，把一些相似程度较大的样品（或指标）聚合为一类，把另外一些彼此之间相似程度较大的样品（或指标）又聚合为另外一类。聚类方法主要有系统聚类法和K-均值法，K-均值法主要应用于比系统聚类法大得多的数据组。由于要对299只股票进行分类，本文的实证分析使用了K-均值法。 K-均值法的思想是把每个样品聚集到其最近形心（均值）类中去。这个过程由下列三步所组成：首先，把样品粗略分成K个初始类；然后进行修改，逐个分派样品到其最近均值的类中去（通常用标准化数据或非标准化数据计算欧氏距离）。重新计算接受新样品的类和失去样品的类的形心（均值）；重复第2步，直到各类无元素进出。四、实证分析股票投资中的基本面分析的共同缺点为同时需要考虑的指标过多且数据非常庞杂，不适合普通投资者使用，所以本文首先运用因子分析的方法对初始选定的十个指标进行降维处理，缩减为三个指标，在每个指标下对样本中的299只股票给出得分并构造分别的排名与综合排名。最后，运用快速聚类的方法对样本中的股票进行分类处理，使本文所构建的股票分析方法适用于具有不同投资偏好的投资者。（一）因子分析 1.数据预处理。首先，本文所选指标并非所有都为正向指标，根据范坤等2提供的方法，我们对逆向指标和适中指标进行正向化处理。指标产权比率是逆向指标，它是负债总额与所有者权益总额的比率，产权比率高，是高风险、高报酬的财务结构；产权比率低，是低风险、低报酬的财务结构，因之，我们将该指标下所有数据取负。指标资产负债率是一种适中指标，它是企业负债总额在资产总额的占比，公认的适宜水平为40%60%。我们设定50%作为阈值，将数据与50%的差的绝对值取负。其次，由于本文选取的各指标数值大小存在较大差异，单位不尽相同，需要对各指标进行标准化处理。标准化后的数据矩阵如表2，从中可以看出，十个指标变量中大部分变量之间存在高度相关，故适合进行因子分析。表2 标准化后的数据矩阵 2.确定公共因子个数并进行因子旋转。从样本相关矩阵出发进行因子分析，计算得出特征值和特征向量，选出三个特征值大于1的公共因子并对因子进行方差最大正交旋转后进行分析，输出结果如表3和表4所示：表3 因子提取及总方差贡献率表4 旋转后因子载荷阵在表3中可以看到因子模型具有三个公因子如第一、二、三行所示，累计总方差贡献率达到了83.55%，代表着因子分析模型在保持可以解释83.55%的总方差的同时达到了降维的效果。表4中的二、三、四列分别是三个特征值所对应的特征向量。可以看到表中的前六个指标：利润总额、净利润、总股本、资产总计、主营业务利润，以及主营业务收入在第一公因子1上都具有大的正载荷，可以成为公司规模因子；第七、八个指标：资产负债率与产权比率在第二公因子2上均有大的正载荷，可以成为公司偿债能力因子；第九、十指标：每股收益和净资产收益率在第三公因子3上为大的正载荷，则可以解释为公司盈利能力因子。 3.因子得分。基于以上分析，采用回归最小二乘法则可以得出旋转后因子得分矩阵，如表5所示：表5 旋转后因子得分矩阵基于表5就可得出因子得分方程： 1=0.207zscore（利润总额）+0.205zscore（净利润）+0.218zscore（总股本）+0.512zscore（资产总计）+0.180zscore（主营业务利润）+ 0.221zscore（主营业务收入） -0.022zscore（每股收益）-0.005zscore（净资产收益率）+ 0.081zscore（产权比率）+0.158zscore（资产负债率） 2=0.038zscore（利润总额）+0.031zscore（净利润）+0.061zscore（总股本）+0.098zscore（资产总计）+0.014zscore（主营业务利润）+ 0.284zscore（主营业务收入） -0.049zscore（每股收益）-0.050zscore（净资产收益率）+ 0.510zscore（产权比率）+0.590zscore（资产负债率） 3=0.014zscore（利润总额）+0.010zscore（净利润）+0.046zscore（总股本）+0.039zscore（资产总计）+0.003zscore（主营业务利润）+ 0.037zscore（主营业务收入） -0.568zscore（每股收益）-0.556zscore（净资产收益率）+ 0.062zscore（产权比率）+0.011zscore（资产负债率）将原始变量下标准化之后的数据代入上述方程就可以计算出每一只股票的各个因子的评价得分，然后以各因子方差贡献率占三个因子总方差贡献率比重作为权重进行加权汇总，得出每只股票的综合得分，即： F=（48.537F1+18.79F2+16.217F3）、83.549 最后根据综合得分就可以得到299家上市公司的综合得分排名，为从简，该表列示了前后十名的股票：表6 三因子综合得分排名 4.结果分析。从SPSS软件输出结果来看，三个因子和综合得分的取值范围为：-0.81718.861，-3.04720.585，-0.41220.536，-1.092综合得分4.710。第一因子1越大表明上市公司的规模越大，反之越小；第二因子2越大表示上市公司的偿债能力越强，反之越弱；第三因子3越大说明上市公司的盈利能力越好，反之越差。在因子一，规模因子的排名中，国有四大行工商银行、农业银行、中国银行、建设银行，及中石油、中石化包揽了前六名，同时这六家上市公司也是综合排名的前六名。影响综合排名的主要因素还是因子一，即使由于因子一的权重较大，但究其根本，还是由于上市公司的规模大小起到了决定性作用。考虑到我国股票市场现实，规模较大的公司拥有天然的较强的风险承受力与抵御力，也拥有较低的融资成本与充足的消费者资源储备，比较适合风险厌恶程度比较高的投资者，当整个市场下挫的时候这一类公司仍然有能力使其股价保持稳定。在因子二，偿债能力的排名中，由于资产负债率与产权比率较高，包括四大行