资源预览内容
第1页 / 共57页
第2页 / 共57页
第3页 / 共57页
第4页 / 共57页
第5页 / 共57页
第6页 / 共57页
第7页 / 共57页
第8页 / 共57页
第9页 / 共57页
第10页 / 共57页
亲,该文档总共57页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1相关关系及回归分析 (1)相关关系:自变量取值一定时,因变量的取值带有一定 的两个变量之间的关系叫做相关关系 (2)回归分析:在统计中,对具有相关关系的两个变量进行 叫做回归分析回归分析是寻找相关关系中非确定关系的某种确定性,随机性,统计分析,2散点图:将n个数据点(xi,yi)(i1,2,3n)描在平面直角坐标系中,以表示具有相关关系的两个变量的 叫做散点图 3正相关与负相关:从散点图上看,点散布的位置在从 的区域内,两个变量的这种相关关系称为正相关;点散布的位置在从 的区域内,两个变量的相关关系称为负相关,左下角到右上角,左上角到右下角,图形,5线性回归模型ybxae(e称为 ),因变量y的值由自变量x和随机误差e共同确定,即自变量x只能解释部分y的变化在统计中,我们也把自变量x称为 ,因变量y称为 ,随机误差,解释变量,预报变量,系的强弱当r0时,表示两个变量 ;当r 时,认为两个变量有很强的线性相关关系,正相关,负相关,几乎不存在,0.75,7用相关指数R2来刻画回归的效果,其计算公式是 R2 R2的值越大,说明残差平方和越 小,也就是说模型拟合的效果 在线性回归模型中,R2表示解释变量对预报变量变化的 ,R2越接近于1,表示回归的效果越好,越好,贡献率,8变量的不同“值”表示个体所属的 ,这样的变量称为分类变量 9列出两个分类变量的 表,称为列联表 一般地,假设有两个分类变量X和Y,它们的值域分别为(x1,x2)和(y1,y2),其样本频数列联表如下表:,称为22列联表,不同类别,频数,10利用随机变量K2来确定在 可以认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验,其中K2,多大程度上,1有关线性回归的说法,不正确的是 ( ) A相关关系的两个变量是非确定关系 B散点图能直观地反映数据的相关程度 C回归直线最能代表线性相关的两个变量之间的关系 D散点图中的点越集中,两个变量的相关性越强,解析:散点图上的点大致分布在通过散点图中心的那条直线附近,整体上呈线性分布时,两个变量相关关系越强 答案:D,2对于事件A和事件B,通过计算得到K2的观测值k4.514,下列说法正确的是 ( ) A有99%的把握说事件A和事件B有关 B有95%的把握说事件A和事件B有关 C有99%的把握说事件A和事件B无关 D有95%的把握说事件A和事件B无关,解析:k4.5143.841,即有95%的把握认为事件A和事件B有关 当k6.635时即有99%的把握认为事件A和事件B有关 答案:B,3已知回归方程为0.50x0.81,则x25时,y的估计值为_ 解析:当x25时,y0.50250.8111.69. 答案:11.69,4在一项打鼾与患心脏病的调查中,共调查了1671人,经过计算K227.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是_的(有关,无关) 解析:K227.636.635, 有99%的把握认为“打鼾与患心脏病有关” 答案:有关,5下表是某厂14月份用水量(单位:百吨)的一组数据, 由其散点图可知,用水量y与月份x之间有较好的线性相关关系,求y与x的回归方程,【例1】 关于人体的脂肪含量(百分比)和年龄关系的研究中,得到如下一组数据: 判断它们是否有相关关系,若有,拟合一直线,解:本题涉及两个变量:年龄与脂肪含量,可以以年龄为自变量,考察脂肪含量的变化趋势,而分析相关关系通常借助散点图 以年龄作为x轴,脂肪含量作为y轴,可得相应的散点图如下图所示: 由散点图可知,两者之间具有相关关系,判断有无相关关系,一种常用的简便方法就是绘制散点图.,变式迁移 1 (2009海南、宁夏高考)对变量x,y有观测数据(xi,yi)(i1,2,10),得散点图;对变量u,v 有观测数据(ui,vi)(i1,2,10),得散点图.由这两个散点图可以判断 ( ) A变量x与y正相关,u与v正相关 B变量x与y正相关,u与v负相关 C变量x与y负相关,u与v正相关 D变量x与y负相关,u与v负相关,解析:由图可知,应选C. 答案:C,【例2】 假设关于某设备的使用年限x和所支出的维修费用y(万元),有如下的统计资料: 若由资料知y对x呈线性相关关系,试求:(1)线性回归方程x的回归系数、的值; (2)求残差平方知; (3)求相关指数R2; (4)估计使用年限为10年时,维修费用是多少? 解:y对x呈线性相关关系,转化为一元线性相关的方法,根据公式分别计算,(1)由已知数据制成下表.,即估计使用10年时维修费用大约是12.38万元,变式迁移 2 一项调查表对9个不同的x值,测得y的9个对应值如下表: 试作出该数据的散点图并由图判断是否存在回归直线,若有,则求出回归方程,解:散点图如右图所示 由图知所有数据点接近直线排列,因此,认为y对x有线性回归关系,【例3】 为了研究某种细菌随时间x变化时,繁殖个数y的变化,收集数据如下: (1)用天数x作解释变量,繁殖个数y作预报变量,作出这些数据的散点图;,(2)描述解释变量x与预报变量y之间的关系; (3)计算残差平方和、相关指数,解:(1)所作散点图如下图所示,(2)由散点图看出样本点分布在一条指数型函数yc1ec2x的周围,于是令zlny,则,(3),即解释变量天数对预报变量细菌的繁殖个数解释了99.99%.,变式迁移 3 下表是某年美国旧轿车价格的调查资科,今以x表示轿车的使用年数,y表示相应的年均价格,求y关于x的回归方程.,解:作出散点图如图1, 图1,可以发现,各点并不是基本处于一条直线附近,因此,y与x之间应是非线性相关关系与已学函数图象比较,用yebxa来刻画题中模型更为合理,令zlny;则zbxa,题中数据变成如下表所示:,相应的散点图如图2,从图2可以看出,变换后的样本点分布在一条直线附近,因此可以用线性回归方程拟合 图2,【例4】 (2009辽宁卷)某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在29.94,30.06)的零件为优质品从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:,甲厂:,乙厂:,(1)试分别估计两个分厂生产的零件的优质品率; (2)由以上统计数据填下面22列联表,并问是否有99%的把握认为“两个分厂生产的零件的质量有差异”.,思路分析:(1)根据频数分布表进行统计计算;(2)计算卡方统计量,根据临界值进行判断,(2),所以有99%的把握认为“两个分厂生产的零件的质量有差异”,本题给出两个分厂生产的零件尺寸的频数分布表,界定零件为优质品的标准,先求两个分厂生产的零件的优质品率,再通过独立性检验的方法判断两个分厂生产的零件质量之间是否存在差异,从两个方面对两个分厂生产的零件质量进行比较评价,试题的目的是考查独立性检验的基本思想与方法,考查分析问题、解决问题的能力,试题的现实意义普遍、实用性强,是一道切合考生实际的应用题.,变式迁移 4 在对人们休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人女性中有43人主要的休闲方式是看电视,另外27人的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动 (1)根据以上数据建立一个22列联表; (2)画出二维条形图; (3)检验休闲方式是否与性别有关,可靠性有多大,解:(1)22列联表如下:,(2)二维条形图如下图: (3)假设休闲方式与性别无关,则 所以有理由认为休闲方式与性别无关是不合理的,即我们有97.5%的把握认为休闲方式与性别有关,1(1)线性相关关系的理解:相关关系与函数关系不同函数关系中的两个变量间是一种确定性关系例如正方形面积S与边长x之间的关系Sx2就是函数关系相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系例如商品的销售额与广告费是相关关系两个变量具有相关关系是回归分析的前提,(2)求回归方程,关键在于正确求出系数,由于,的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误(注意回归直线方程中一次项系数为,常数项为,这与一次函数的习惯表示不同) (3)回归分析是处理变量相关关系的一种数学方法主要解决:确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;根据一组观察值,预测变量的取值及判断变量取值的变化趋势;求出回归直线方程,(4)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义,2(1)正确理解和把握分类变量的概念; (2)掌握独立性检验的方法,步骤; (3)独立性检验是一种假设检验,在对总体的估计中,通过抽取样本,构造合适的随机变量,对假设的正确性进行判断,
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号