资源预览内容
第1页 / 共28页
第2页 / 共28页
第3页 / 共28页
第4页 / 共28页
第5页 / 共28页
第6页 / 共28页
第7页 / 共28页
第8页 / 共28页
第9页 / 共28页
第10页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第二讲:部分数据分析方法的第二讲:部分数据分析方法的应用(基于应用(基于spss)主讲人:邓光耀1、概述1.1数据分析的方法多种多样,具体选择哪种方法分析数据,要由数据分析的目的来定。1.2本讲叙述几种在销售等数据分析中可能用到的方法,如RFM模型、回归分析、相关分析等,这些方法都有一定的适用范围,听者不必拘泥于这些方法。1.3对于数据分析,自然要有比较深厚的数学功底,但是大家的数学基础有限,因此本讲既有必要节制性地引入数学知识,又不必对数学方法做炫耀性的滥用。2、RFM模型2.1对于销售人员,经常会遇到这样的问题:假设你的客户很多,但是由于你本人的精力与成本有限,哪么你应当通过什么样的办法辨别哪些是应当重点处理的客户?2.2根据美国数据库营销研究所Arthur Hughes的研究,客户数据库中有三个神奇的要素,这三个要素构成了数据分析最好的指标:最近一次消费(Recency),消费频率(Frequency),消费金额(Monetary)。2.3例1:我们分析2010.7.12010.12.31的交易数据,如下表:客户编号客户编号最近一次消费日期最近一次消费日期交易累计次数交易累计次数交易累计金额交易累计金额/元元12010.9.3031062522010.11.2589236432010.12.281515236242010.8.202865452010.10.1653012862010.12.101212569672010.7.231302682010.11.0674328692010.12.12510234102010.10.09425643我们先处理最近交易日期的数据,我们按照距2010.12.31日期的远近来划分等级,假设一周之内的数据设为5,如客户3的最近交易日期这分项可以设为5;大于一周且在一个月内的数据设为4,可得到客户6、9的最近交易日期这一分项可设为4;大于一个月且在两个月内设为3,可得客户2、8的最近交易日期这一分项可设为3;大于2个月且在四个月内设为2,可得客户1、5、10的最近交易日期这一分项可设为2;大于四个月且在六个月内设为1,可得客户4、7的最近交易日期这一分项可设为1。这样分类是否合理要由实践验证。依次分类如下:2,3,5,1,2,4,1,3,4,2.累计交易次数我们可以简单地按等分的办法分类,即1-3次设为1,4-6次设为2,7-9次设为3,10-12次设为4,13-15次设为5,可依次得到客户的对应数值如下: 1,3,5,1,2,4,1,3,2,2 . 对于交易金额,我们按照所谓的“帕雷托法则”(Paretos Law)来分类,即:公司80的收入来自20的顾客,不过我们不必拘泥于此法则。我们先在excel表格中按升序或者降序排列交易金额,再计算占所有客户总金额的累计比例。我们计算可得到:0.300.550.740.820.880.940.960.980.991我们做如下分类:客户3此分项为5,客户2、6此分项为4,客户5、8、10此分项为3,客户1、9此分项为2,客户4、7此分项为1.RFM模型的分类没有统一的分类标准,只能按照实际情况做大概的分类。我们综合以上步骤,可得到如下表格:客户编号客户编号RFM总分总分121252334103555154111352237644412711138333994228102237我们对此表格做简单的分析,如果销售人员的精力与成本有限,可以重点考虑满足以下条件的客户:因为相比于R,F,销售人员可能更看重M(累计金额),故取另外对总分也有一定的要求,这里我们取以上分类标准的合理性需要销售人员的实践验证。另外我们可以对其他指标做类似的分类,对客户群得到更好的管理。例如送货上门的话,应当考虑运输成本,距离近的客户要优先考虑。运输成本,可以参考河南禹州拉沙车的例子。大家也可以把此模型中的方法运用到准备考试的时间分配上,3、回归分析3.1回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法。运用十分广泛,回归分析按照涉及的自变量的多少,可分为一元回归分析和多元回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为一元线性回归分析。如果回归分析中包括两个或两个以上的自变量,且因变量和自变量之间是线性关系,则称为多元线性回归分析。3.2例2:我们回到第一讲的例子(例5),价格与销售量的关系表:我们解决以下问题:价格与销售量的函数表达式?并预测单价下降到30时的销售量?销售金额最大化时的价格与销售量分别是多少?在上一讲中我们得到如下散点图:我们建立两变量的线性回归模型: 其中 ,即服从期望为0,方差为 的正态分布。利用历史数据,我们可以得到 的值,由于历史数据可能不止两组,由gramer 法则知道(1)式的解可能不存在。数学上认为使得 最小的a,b 的值是最佳估计值。令 ,我们求它的偏导数,并令它们为零,即 这个方程组称为正规方程组,令 分别为x,y两个变量的样本均值。则有 听者不必担心数学知识太多,不好理解,前面叙述的只是方法,具体操作可以用spss软件得到回归直线的方程。我们现在在spss中输入数据,利用上面的分析功能我们可以得到以下数据:a=163.632,b=-1.388,故回归直线的方程为:y=163.632-1.388x当x=30时,我们由回归直线方程得到y=121.992.我们可得销售金额的表达式为(163.632-1.388x)x,故利用简单的配方法或者求导运算,可得价格为58.945元是销售金额最大。为了扩大回归分析的应用范围,我们在举一个例子:3.2例3:为了扩大回归分析的应用范围,我们再举一个例子:在这个例子里,我们推广到多元线性回归模型。具体的数学论证比较复杂,不过应用的还是最小二乘法,可得到解向量为:这里等式后面的均是对应的矩阵,具体是什么意思,听者可以参阅相关的资料,我们不对此公式做证明,只需要用spss求出解向量就可以了。下表为某厂商的生产数据,利用这些数据我们估计该厂商的生产函数及做相关的预测:年份年份产值产值y/万万元元资本资本k/万万元元劳动力劳动力l/人人lnylnklnl20004572031756.125.315.1620014932071776.205.335.1820025142071846.245.335.2120035182141896.255.375.2420045242221956.265.405.2720055362421996.285.495.2920065842682066.375.595.3320076613212116.495.775.3520087224422136.585.835.3620097774082146.666.015.3720108954852156.805.955.37我们采用经济学常用的柯布道格拉斯生产函数的形式来估计,即经对数变换处理后我们可以得到二元线性模型这里 是后来加上去的随机因素。利用spss软件运算得到我们整理得到我们估计当K=500,L=220时的产值,代入我们得到的生产函数可以得到Y=857,(我们可以用excel函数计算,即=4.108*power(500,0.559)*power(220,0.346)故估计产值在857万元左右,当然实际情况会受到其他因素的影响,通过模型估计的产值只是大致的数值。回归分析还有许多其他用法,暂时不提。4、相关分析4.1相关分析与回归分析有很大的类似性,很多人不清楚他们的区别。我们列出相关分析的定义。4.2相关分析(correlation analysis),相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。4.3区别:相关分析与回归分析在实际应用中有密切关系。然而在回归分析中,所关心的是一个随机变量Y对另一个(或一组)随机变量X的依赖关系的函数形式。而在相关分析中 ,所讨论的变量的地位一样,分析侧重于随机变量之间的种种相关特征。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。4.4相关系数的计算公式:这个公式上一讲出现过,现在具体到离散情形的公式:4.5我们只叙述线性相关分析:研究两个变量间线性关系的程度。用相关系数r来描述。正相关:如果x,y变化的方向一致,如身高与体重的关系,r0;一般地,|r|0.95 存在显著性相关;|r|0.8 高度相关;0.5|r|0.8 中度相关;0.3|r|0.5 低度相关;|r|0.3 关系极弱,认为不相关负相关:如果x,y变化的方向相反,如吸烟与肺功能的关系,r0;无线性相关:r=0。如果变量Y与X间是函数关系,则r=1或r=-1;如果变量Y与X间是统计关系,则-1r1。例4:下面为对应时间相同时两种股票价格指数的数据表:指数指数12841284228712888298531292978297529712738指数22021200820182039213022792189223122541990我们首先用excel画出散点图,并添加趋势线:由图可以看到这两种股票价格指数相关性很明显,假设指数1在表格中的a1到a10,指数2为b1到b10,我们用excel计算的表达式为=correl(a1:a10,b1:b10),得到r=0.889456,为高度相关的。实际上,由于股票价格指数的编制都是取某些有代表性的个股,再经过加权处理得到的。由于选择的个股可能相同或者高度相似,因此两种股票价格指数表现出高度相关性,具体表现为这两种股票价格指数会同时涨跌。数据分析还有许多其他的方法,由于实用性还不知道,因此等用到了再讲。Thank you very much!
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号