资源预览内容
第1页 / 共91页
第2页 / 共91页
第3页 / 共91页
第4页 / 共91页
第5页 / 共91页
第6页 / 共91页
第7页 / 共91页
第8页 / 共91页
第9页 / 共91页
第10页 / 共91页
亲,该文档总共91页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第八章 现象间的相关分析,目录,相关分析的概念和内容,1,相关分析指标的测定,2,一元线性回归分析,3,多元回归与曲线回归分析,4,第一节 相关分析的概念和内容,广义的相关分析包括狭义的相关分析和回归分析; 狭义的相关分析仅揭示现象之间的联系形态、联系方向和联系程度(以下所称的“相关分析”一般指狭义的相关分析); 回归分析则是在狭义相关分析的基础上,把相互联系和相互影响的事物区分为影响因素和被影响因素,进一步揭示一事物影响另一事物变动的一般水平。,一、相关关系的概念,相关关系的特点: 就事物质的规定性而言,变量之间确实存在相互依存关系,即一个变量发生变化,另一个变量必然会相应地发生变化。 就事物量的规定性而言,变量之间的依存关系表现为一定的范围,其具体数值不是惟一确定的。,相关关系与函数关系的区别与联系: 区别: 凡现象之间的关系值是惟一确定的就属于函数关系;凡现象之间的关系值不是惟一确定的则属于相关关系。 联系: 由于在观察或测量中存在误差等原因,实际工作中的函数关系有时通过相关关系表现出来; 在研究相关关系时又常常借用函数关系的形式近似地将它表达出来,以便找到相关关系的一般数量特征。 当随机因素不存在时,相关关系就转化为函数关系。因此,函数关系是相关关系的特例。,一、相关关系的概念,二、相关关系的判断,测定相关关系之前,一般在理论分析的基础上还要利用相关表和相关图粗略地判断现象之间的相关程度和相关形态。 一般的简单相关表是将具有相关关系的两个变量值按其中一个的大小顺序排列,另一个依其对应关系编排而成的统计表。,例8-1,假定已知某地区20002007年居民货币收入和购买商品支出的统计资料,据此可编制简单相关表如下:,二、相关关系的判断,相关图也称相关散点图或散点图,是将具有相关关系的两个变量值描绘在坐标图上,以横轴表示自变量,纵轴表示因变量,按两变量的对应值标出坐标点的分布状况的统计图。它是粗略观察现象之间相关程度和相关形态的一种有效工具,它为测定相关关系奠定有效基础,二、相关关系的判断,例8-2,依据表8.1的统计资料,可绘制相关散点图如下:,二、相关关系的判断,三、相关关系的种类,(一)按影响因素的多少分为单相关和复相关 (二)按相关的表现形态分为线性相关和曲线相关 线性相关也称直线相关,指相互依存的变量之间的变动近似地表现为一条直线的关系。运用相关散点图进行观察, 曲线相关也称非线性相关,指相互依存的变量之间的变动近似地表现为一条曲线,具体分析时,也可以通过相关散点图来描述。,三、相关关系的种类,三、相关关系的种类,三、相关关系的种类,(三)按线性相关的变动方向分为正相关和负相关 正相关是指自变量的数值增加(或减少)时,因变量的数值也相应地增加(或减少),即自变量与因变量的变化方向具有一致性。 负相关是指自变量数值增加时,因变量数值减少;或自变量数值减少时,因变量的数值增加,即自变量与因变量的变化方向具有不一致性,四、相关分析的主要内容,(一)判断现象之间的相关状态 (二)衡量现象相关的密切程度 (三)确定相关关系的数学表达式 (四)检验因变量估计值的误差,第二节 相关分析指标的测定,一、相关指标的选择与列联表,(一)相关指标的选择 要注意变量的测量层次,是定类层次、定序层次、还是定距层次。 要注意变量间关系的对称性。 要注意分析指标是否具有消减误差比例的意义。,一、相关指标的选择与列联表,一、相关指标的选择与列联表,(二)列联表 是由两个或两个以上的变量构成的交叉分类频数(或频率)分布表,也称交互分类表。,一、相关指标的选择与列联表,例8-3,为了研究青年人的受教育程度和愿望之间的关系,随机抽取200名青年人进行调查,其数据如表8.2所示。,一、相关指标的选择与列联表,条件次数表 表下端的合计数与表的右端合计数,称为边缘次数,其分布情况称为边缘分布。 表中的其他次数,称为条件次数,表示在自变量每个值(条件)的情况下因变量的各个值的次数。,一、相关指标的选择与列联表,例8-4,依据表8.2的资料编制而成的条件百分表如下,二、Lambda、Tau-y相关测量法,(一)Lambda相关测量法 Lambda相关测量法又称为格特曼可预测度系数,根据分析对象的不同,即变量关系是否对称,分系数和系数两种形式。 1. 系数,例8-5,为了研究青年人与其知心朋友的愿望是否有关,随机抽取青年人及其知心朋友各100名进行调查,其数据如表8.4所示:,计算结果表明,青年人与其知心朋友可能在许多方面有着共同的情趣和爱好,但在“快乐家庭”、“理想工作”、“增广见闻”三个方面只有47%的共同看法,如果以这两个变量相互预测,可以消减47%的误差。,二、Lambda、Tau-y相关测量法,例8-6,为了研究青年人的愿望是否男女有别,随机抽取100名青年人进行调查,其数据如表8.5所示:,计算结果表明,性别是影响青年人愿望的一个不可忽视的因素,但不是决定的因素,它们之间的相关性只有40%,如果用性别预测青年人的在“快乐家庭”、“理想工作”、 “增广见闻”三个方面,只能消减40%的误差。,二、Lambda、Tau-y相关测量法,Lambda相关测量法的特点: 以众值(即最多的次数)作为相关分析的准则,不考虑众值以外的次数分布; 仅用Lambda系数测量两个定类现象之间的相关关系是不够的,还必须学习和掌握其他的统计分析方法。,(二)Tau-y相关测量法,Tau-y相关测量法是一种不对称的相关测量法,即在相关分析中,必须区分自变量x和因变量y。 Tau-y相关测量法是计算tau-y系数,其计算公式为:,例8-7,计算结果表明,性别与青年人的愿望之间只有22.4%的相关性,如果用性别预测青年人的愿望,只能消减22.4%的误差。这与系数计算的结果0.40相差17.6个百分点,,三、Gamma、Dyx相关测量法,(一)Gamma相关测量法,例8-8,有4名学生的数学成绩与中文成绩如表8.6,计算结果表明,这4名学生的数学成绩与中文成绩之间有一定程度的负相关,即数学成绩较好的、可能中文成绩较差,中文成绩较好的、可能数学成绩较差。如果用数学成绩推测中文成绩,或者用中文成绩推测数学成绩只有33%的可信度。,三、Gamma、Dyx相关测量法,(二)Dyx相关测量法,三、Gamma、Dyx相关测量法,Dyx相关测量法与Gamma相关测量法异同: 基本思想相同,是依据变量之间的同序对数和异序对数的差距来测量现象之间的相关性; 不同的是Gamma相关测量法适用于对称性变量,Dyx相关测量法适用于非对称性变量,即以自变量推断因变量。,三、Gamma、Dyx相关测量法,例8-9,为了研究受教育程度与经济收入的关系,在某行业中随机抽取100名职员进行调查,其数据如表8.7所示:,三、Gamma、Dyx相关测量法,计算结果表明,该行业职员的受教育程度与经济收入有一定程度的正相关,即受教育程度越高,其职员经济收入越高。如果用职员的受教育程度推断其经济收入,可以消减37.9%的误差。,四、积矩相关测量法,积矩相关测量法是测量两个定距变量之间相关性的一种方法,它以变量的平均值作为判断的准则,在分析现象的相关关系时是计算皮尔逊(Pearson)的积矩相关系数(简写为r),说明在线性相关的条件下,两个现象之间相关关系紧密程度的指标。,四、积矩相关测量法,例8-10,依据表8.1的统计资料,计算该地区20002007 年居民货币收入和购买商品支出的积矩相关系数如下:,四、积矩相关测量法,例8-11,仍依据表8.1的统计资料,用简捷公式计算该地区20002007年居民货币收入和购买商品支出的相关系数如下:,简捷计算公式,五、相关比率测量法,相关比率测量法主要用于一个定类变量和一个定距变量的非对称性相关关系的测量,例8-12,为了研究某班学生的家庭职业背景(假定只有职员、工人和农民三类)与英语学习成绩(以百分制考核)之间的关系,随机抽取20名学生进行调查,其资料如下:,计算结果表明,学生家庭的职业背景与其英语学习成绩有较大的影响,两者的相关程度达到了83.47%。其中,出生于职员家庭的学生,学习成绩最好,平均成绩84.29分;出生于农民家庭的学生,学习成绩居于中间状况,平均成绩79.6分;出生于工人家庭的学生,学习成绩较差,平均成绩61.75分。如果用家庭职业背景推断学生成绩,可以消减69.68%的误差。,第三节 一元线性回归分析,一、回归分析的特点,回归分析与相关分析的区别与联系 联系:都是对客观事物数量依存关系的分析。 不同:概念和作用不同 回归分析的分类 按表现分为:线性回归和非线性回归 按影响因素分为:一元回归分析和多元回归分析,二、一元线性回归模型,注意: ()变量之间是非对称关系。在两个变量中,首先要区分自变量和因变量,因为因变量是倚自变量的变动而变动的。究竟哪一个是自变量,哪一个是因变量,可以根据现象之间的因果关系或研究目的而定。 ()因变量是随机变量,自变量是确定性的量,可以事先给定或控制自变量。,三、一元线性回归模型的建立,(一)回归模型的建立程序 分析变量之间的相互关系,通常是在理论分析的基础上采用相关表或相关图进行观察,再计算相关系数; 通过检验相关系数的显著性,判断相关系数的客观真实状况; 根据研究目的确定自变量和因变量; 根据搜集的统计资料估计模型参数,建立回归模型。,(二)相关系数的显著性检验,三、一元线性回归模型的建立,例8-13,以例11中的统计资料为例,对居民购买商品支出与货币收入的相关系数进行显著性检验。,三、一元线性回归模型的建立,(三)变量定位 (四)参数估计,三、一元线性回归模型的建立,例8-14,以例11表8.9中的资料为例,对某地居民购买商品支出与其货币收入建立回归模型 。,三、一元线性回归模型的建立,四、一元线性回归模型的预测应用,(一)分析自变量解释力 1. 回归方差分析,四、一元线性回归模型的预测应用,四、一元线性回归模型的预测应用,四、一元线性回归模型的预测应用,例8-15,四、一元线性回归模型的预测应用,四、一元线性回归模型的预测应用,2. 模型优劣判断 利用决定系数分析模型的优劣。决定系数也称可决系数或判定系数,即前述的相关系数的平方,是指因变量的总变差中可以被自变量解释部分的比重。,四、一元线性回归模型的预测应用,(二)测算估计标准误 估计标准误也称估计标准误差或剩余标准差,是回归直线随机离差的均方根,反映以回归直线为中心的各观察值与其估计值之间的平均离差程度,例8-16,四、一元线性回归模型的预测应用,(三)运用模型预测 如果观察值的点值在回归直线两侧呈正态分布,则可以期望:约有68.27%的点值落在回归直线sy范围内;约有95.45%的点值落在回归直线2sy范围内;约有99.73%的点值落在回归直线3sy范围内。,四、一元线性回归模型的预测应用,例8-17,四、一元线性回归模型的预测应用,第四节 多元回归与线性回归分析,一、多元线性回归模型,多元回归分析是以多元回归模型研究多个自变量与一个因变量的相互关系,从而推算或预测因变量的未知值或未来值。 多元回归分析有多元线性回归分析和多元曲线回归分析,一、多元线性回归模型,一、多元线性回归模型,例8-18,某地管理部门随机抽取10个零售贸易企业,对它们某月的商品销售额、流通费用额和利润额情况进行了调查,其资料见表8.13。,一、多元线性回归模型,这一模型表明,零售企业没有任何商品销售时,利润额为0.568万元,即要支付企业生存的固定费用;商品每销售万元,利润额增加0.0296万元;在商品销售额和其它相关条件既定的情况下,费用每增加万元,利润额增加0.2697万元。,例8-19,二、复相关系数及其显著性检验,例8-3,例8-3,三、多元线性回归分析的应用,建立了多元线性回归(也称复回归)模型以后,需要分析自变量对因变量的解释力,以便判
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号