资源预览内容
第1页 / 共27页
第2页 / 共27页
第3页 / 共27页
第4页 / 共27页
第5页 / 共27页
第6页 / 共27页
第7页 / 共27页
第8页 / 共27页
第9页 / 共27页
第10页 / 共27页
亲,该文档总共27页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
变量的相关性、回归分析、变量的相关性、回归分析、独立性检验独立性检验2021/3/101授课:XXX1.两个变量间的相关关系两个变量间的相关关系如如果果两两个个变变量量之之间间确确实实存存在在关关系系,但但又又没没有有函函数数关关系系所所具具有有的的确确定定性性,它它们们的的关关系系带带有有随机性随机性,则称这两个变量具有则称这两个变量具有 .有有相相关关关关系系的的两两个个变变量量,若若一一个个变变量量的的值值由由小小到到大大时时,另另一一个个变变量量的的值值也也是是由由小小到到大大,这这种种相相关关称称为为 ;反反之之,一一个个变变量量的的值值由由小小到到大大,另另一一个个变变量量的的值值由由大大到到小小,这这种相关称为种相关称为 .相关关系相关关系正相关正相关负相关负相关2021/3/102授课:XXX2.散点图散点图在平面直角坐标系中描点在平面直角坐标系中描点,得到关于两个变量得到关于两个变量的一组数据的图形的一组数据的图形,这样的图形叫做这样的图形叫做 .散点图散点图0 01010202030304040505060607070150150155155160160165165170170175175180180体重体重/kg身高身高/cm2021/3/103授课:XXX如果散点图中,相应于具有相关关系的两如果散点图中,相应于具有相关关系的两个变量所有观察值的数据点,分布在一条直线个变量所有观察值的数据点,分布在一条直线附近,则称这两个变量具有附近,则称这两个变量具有 ,这条直线叫做这条直线叫做 ,方程为方程为 =bx+a,其中其中b= = ,a= - b.线性相关关系线性相关关系回归直线回归直线3.回归直线方程回归直线方程0 0101020203030404050506060707015150 0155155160160165165170170175175180180体体重重/kg身身高高/cm2021/3/104授课:XXX2021/3/105授课:XXX不患肺癌不患肺癌患肺癌患肺癌总计总计不吸烟不吸烟aba+b吸烟吸烟cdc+d总计总计a+cb+da+b+c+d(2)统计中有一个非常有用的统计量统计中有一个非常有用的统计量K2(卡方)(卡方)5.独立性检验独立性检验P(K2k)0.050.01k3.8416.6352021/3/106授课:XXX题型一题型一 变量的相关性变量的相关性例例1 汽汽车车的的重重量量和和汽汽车车消消耗耗一一升升汽汽油油所行驶的路程成负相关,这说明所行驶的路程成负相关,这说明( )A.汽车越重汽车越重,每消耗每消耗1升汽油所行驶的路程越短升汽油所行驶的路程越短B.汽车越轻汽车越轻,每消耗每消耗1升汽油所行驶的路程越短升汽油所行驶的路程越短C.汽车越重汽车越重,消耗汽油越多消耗汽油越多D.汽车越轻汽车越轻,消耗汽油越多消耗汽油越多A 要透彻理解一些常见参概念的意义要透彻理解一些常见参概念的意义.2021/3/107授课:XXX题型二题型二 回归分析回归分析例例2 某某车车间间为为了了规规定定工工时时定定额额,需需要要确确定定加加工工零零件件所所花花费费的的时时间间,为为此此做做了了四四次次试试验验,根根据据试试验验数数据据得得到到如如下下图图所所示示的的散散点点图图,其其中中x表表示示零零件的个数件的个数,y表示加工时间表示加工时间. (1)求出求出y关于关于x的线性的线性 回归方程回归方程 =bx+a; (2)试预测加工试预测加工10个零个零 件需多长时间?件需多长时间?2021/3/108授课:XXX (1) = =3.5, = =3.5,所以所以b= =0.7,a=-b=3.5-0.73.5=1.05,所以线性回归方程为所以线性回归方程为 =0.7x+1.05.2021/3/109授课:XXX(2)当当x=10时,时, =0.710+1.05=8.05,故加工故加工10个零件大约需个零件大约需8.05小时小时. 求求出出回回归归直直线线方方程程后后,往往往往用用来来作作为为现现实实生生产产中中的的变变量量之之间间相相关关关关系系的的近近似似关关系系,从从而而可可用来指导生产实践用来指导生产实践.2021/3/1010授课:XXX 为为了了研研究究某某种种细细菌菌随随时时间间x变变化化繁繁殖的个数,收集数据如下:殖的个数,收集数据如下: (1)以以x为为解解释释变变量量,y为为预预报报变变量量作作这这些些数据的散点图;数据的散点图; (2)求求y关于关于x的回归方程的回归方程.天数(x)123456繁殖细菌个数(y)6122549951902021/3/1011授课:XXX用所学函数看变化趋势用所学函数看变化趋势. (1)画散点图画散点图2021/3/1012授课:XXX(2)若建立线性模型若建立线性模型 =a+bx,则得到则得到 =-56.467+34.086x,若建立指数函数模型若建立指数函数模型=menx,则得到则得到 =3.0519e0.6902x. 回回归归方方程程不不一一定定惟惟一一,该该题题还还可以用二次函数为模型可以用二次函数为模型.2021/3/1013授课:XXX题型二题型二 独立性检验独立性检验例例2 在在对对人人群群的的休休闲闲方方式式的的一一次次调调查查中中,共共调调查查了了124人人,其其中中女女性性70人人,女女性性中中有有43人人主主要要的的休休闲闲方方式式是是看看电电视视,另另外外27人人主主要要的的休休闲闲方方式式是是运运动动;男男性性中中21人人主主要要的的休休闲闲方方式式是是看看电电视视,其其余余男男性性的的主主要要休闲方式是运动休闲方式是运动. (1)根据以上数据建立一个根据以上数据建立一个22列联表列联表; (2)判判断断性性别别与与休休闲闲方方式式是是否否有有关关系系,并并说说明理由明理由.2021/3/1014授课:XXX是否有关系取决于是否有关系取决于K2的大小的大小. (1) 22列联表为列联表为看电视运动总计女432770男213354合计64601242021/3/1015授课:XXX( 2) K2= = 6.2设设H1:性别与不同运动方式有关系性别与不同运动方式有关系.假假设设H0:性性别别与与不不同同的的运运动动方方式式没没有有关关系系,在在H0的前提下,的前提下,K2应该很小应该很小,而而P(K25.024)0.025.所所以以有有97.5的的把把握握认认为为性性别别与与不不同同的的运运动动方式之间有关系方式之间有关系. 对对判判断断过过程程和和计计算算方方式式要要清清楚楚,计计算算K2时勿将时勿将(ad-bc)2中的平方运算漏掉中的平方运算漏掉.2021/3/1016授课:XXX 下面是两个变量间的一组数据:下面是两个变量间的一组数据:x1.04.06.010.014.0y19.044.040.052.053.0(1)在同一直角坐标系中画出散点图、直线在同一直角坐标系中画出散点图、直线 =24+2.5x和曲线和曲线 = ;(2)比比较较所所画画直直线线与与曲曲线线,哪哪一一条条更更能能表表现现这组数据之间的关系?这组数据之间的关系?(3)分分别别计计算算用用直直线线方方程程与与曲曲线线方方程程得得到到在在5个个x点点处处的的预预测测值值与与实实际际预预测测之之间间的的误误差差,比较两个误差绝对值之和的大小比较两个误差绝对值之和的大小.2021/3/1017授课:XXX(1)所求作图型如下:所求作图型如下:2021/3/1018授课:XXX(2)从从图图形形上上看看,曲曲线线 = 比比直直线线 =24+2.5x更能表现这组数据间的关系更能表现这组数据间的关系.(3)用用直直线线 =24+2.5x近近似似数数据据时时,误误差差绝绝对对值值的的和和为为27.5,用用曲曲线线 = 时时,误误差差绝绝对对值的和为值的和为12.5,比前者小得多,比前者小得多. 由由散散点点图图可可比比较较直直观观地地看看出出更更能能表表现现所所给给数数据据的的关关系系的的曲曲线线,再再通通过过比比较较误误差差绝绝对值之和的大小,则显得更有说服力对值之和的大小,则显得更有说服力.2021/3/1019授课:XXX1.计计算算回回归归直直线线方方程程中中的的参参数数a、b时时应应分分层进行,避免因计算错误而产生误差层进行,避免因计算错误而产生误差.2.求求线线性性回回归归方方程程之之前前,应应对对数数据据进进行行线线性相关分析性相关分析.3.回回归归分分析析的的关关键键是是根根据据散散点点图图选选择择函函数数模型,用相关系数判定哪种模型更好模型,用相关系数判定哪种模型更好.4.独独立立性性检检验验不不能能用用比比例例余余数数来来判判定定,a、b、c、d成成比比例例扩扩大大,K2的的值值是是不不同同的的,正正确确列出列出22列联表是解题的关键步骤列联表是解题的关键步骤.2021/3/1020授课:XXX学例1 (2009辽辽宁宁卷卷)某某企企业业有有两两个个分分厂厂生生产产某某种种零零件件,按按规规定定内内径径尺尺寸寸(单单位位:mm)的的值值落落在在29.94,30.06)的的零零件件为为优优质质品品.从从两两个个分分厂厂生生产产的的零零件件中中各各抽抽出出了了500件件,量量其其内内径径尺尺寸寸,得结果如下表:得结果如下表:2021/3/1021授课:XXX甲厂:甲厂: 乙厂:乙厂:分组频数29.86,29.90)1229.90,29.94)6329.94,29.98)8629.98,30.02)18230.02,30.06)9230.06,30.10)6130.10,30.14)4分组频数29.86,29.90)2929.90,29.94)7129.94,29.98)8529.98,30.02)15930.02,30.06)7630.06,30.10)6230.10,30.14)182021/3/1022授课:XXX(1)试试分分别别估估计计两两个个分分厂厂生生产产的的零零件件的的优优质质品率品率;(2)由由以以上上统统计计数数据据填填下下面面22列列联联表表,并并分分析析是是否否有有99%的的把把握握认认为为“两两个个分分厂厂生生产的零件的质量有差异产的零件的质量有差异”.甲厂乙厂合计优质品非优质品合计2021/3/1023授课:XXXP(K2k)0.050.01k3.8416.635附:附:K2= ,2021/3/1024授课:XXX (1)甲甲厂厂抽抽查查的的产产品品中中有有360件件优优质质品品,从从而而甲甲厂厂生生产产的的零零件件的的优优质质品品率率估估计计为为 =72%;乙乙厂厂抽抽查查的的产产品品中中有有320件件优优质质品品,从从而而乙乙厂厂生生产产的的零零件件的的优优质质品品率估计为率估计为 =64%.2021/3/1025授课:XXX(2) 22列联表如下:列联表如下:K2= 7.356.635,所以有所以有99%的把握认为的把握认为“两个分厂生产的两个分厂生产的零件的质量有差异零件的质量有差异”.甲厂乙厂合计优质品360320680非优质品140180320合计50050010002021/3/1026授课:XXX 素材和资料部分来自素材和资料部分来自网络,如有帮助请下载网络,如有帮助请下载!2021/3/1027
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号