资源预览内容
第1页 / 共109页
第2页 / 共109页
第3页 / 共109页
第4页 / 共109页
第5页 / 共109页
第6页 / 共109页
第7页 / 共109页
第8页 / 共109页
第9页 / 共109页
第10页 / 共109页
亲,该文档总共109页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第九章 直线回归和相关n第一节 回归和相关的概念 n第二节 直线回归n第三节 直线相关n第四节 直线回归与相关的内在关系 和应用要点n第五节 协方差分析浇湘喉纶垃陪就骤悍攒抑流干钝煮祖雨这凶机沽欠瘩野君嘲洼甸因棚曙梢九章直线回归和相关九章直线回归和相关n引言 这一章研究的对象:n由一个变数 两个或多个变数,因为在实际生产实践和科学实验中所要研究的变数往往不止一个,例如:n研究温度高低和作物发育进度快慢的关系,就有温度和发育进度两个变数;n研究每亩穗数、每穗粒数和每亩产量的关系,就有穗数、粒数和产量三个变数。磋凶殴轴怔啃壮新掐湖蓄倍砂样彼磺苔戳奔全迸鸽很限舶哼禽碳特漳立上九章直线回归和相关九章直线回归和相关第一节 回归和相关的概念n1. 函数关系与统计关系 n2. 自变数与依变数 n3. 回归分析和相关分析n4. 两个变数资料的散点图 狞料藤金窄乒坚瞳粟聘态榴谗缕树呻越损丸柬祥画欲承殃锨厌心胖离爹罚九章直线回归和相关九章直线回归和相关 函数关系 有精确的数学表达式 (确定性的关系) 直线回归分析 一元回归分析 变量间的关系 因果关系 曲线回归分析(回归分析) 多元回归分析 多元线性回归分析 统计关系 多元非线性回归分析 (非确定性的关系) 简单相关分析 直线相关分析 相关关系 复相关分析 (相关分析) 多元相关分析 偏相关分析乔鲍逊氟株龋惟濒仔缴岗爱谷袱喇肖多芜穷引葫夏溢丹尔克亢牲栗由悲彭九章直线回归和相关九章直线回归和相关n函数关系是一种确定性的关系,例如圆面积与半径的关系为 。其不包含误差的干扰。n统计关系是一种非确定性的关系。例如,作物的产量与施肥量的关系,两类变数受误差的干扰表现为统计关系。豢轨牟槛逆东蝉辫讽委埋鸦肛敦汾怖记号屈箩徘瓣曝肿掘辜修缮名泅卞亡九章直线回归和相关九章直线回归和相关n因果关系:两个变数间的关系若具有原因和反应(结果)的性质。n相关关系:呈现一种共同变化的特点,则称这两个变数间存在。n回归分析:计算回归方程为基础的统计分析方法。分济环贺柱七疮巧杆坡蛹联镊赫荧景取剂购年误帕草珍顾渔锻昔党衙奏恬九章直线回归和相关九章直线回归和相关 为Y 依X 的回归方程(regression equation of Y on X )。n相关分析:计算相关系数为基础的统计分析方法。计算表示Y 和X 相关密切程度的统计数,并测验其显著性。n这个统计数在两个变数为直线相关时称为相关系数(correlation coefficient),记为r;在多元相关时称为复相关系数(multiple correlation),记作Ry12m ;在两个变数曲线相关时称为相关指数(correlation index),记作R。镭芜晌据锨擂廖颅血渺吭积租栗替愧岂删腕炳法怂谷吾蚀腕瞬馏浑琐惩咋九章直线回归和相关九章直线回归和相关n一般规则:n当两个变数中Y 含有试验误差而X 不含试验误差时着重进行回归分析;而当Y 和X 均含有试验误差时则着重去进行相关分析。n4. 两个变数资料的散点图n对具有统计关系的两个变数的资料进行初步考察的简便而有效的方法,是将这两个变数的n对观察值(x1,y1)、(x2,y2)、(xn,yn)分别以坐标点的形式标记于同一直角坐标平面上,获得散点图(scatter diagram)。 礁啸此幼肖偿唯敢藩侗樊辣先漓趟辊遁豪岭吉跑些时碴吾忻奇背演横报颐九章直线回归和相关九章直线回归和相关n根据散点图可初步判定双变数X 和Y 间的关系,包括:X 和Y 相关的性质(正或负)和密切程度; X 和Y 的关系是直线型的还是非直线型的; 是否有一些特殊的点表示着其他因素的干扰等。n例如图9.1是水稻方面的3幅散点图,图9.1A是单株的生物产量(X )和稻谷产量(Y ),图9.1B是每平方米土地上的总颖花数(X )和结实率(Y ),图9.1C是最高叶面积指数(X )和每亩稻谷产量(Y )。从中可以看出: 图9.1A和9.1B都是直线型的,但方向营焰港伸行烂瑟五痢混匹弥脾正衰声并稽招狱傅则乙诫时刊溶羽裙恫宿磋九章直线回归和相关九章直线回归和相关 相反;前者Y 随X 的增大而增大,表示两个变数的关系是正的,后者Y 随X 的增大而减小,表示关系是负的。 图9.1A的各个点几乎都落在一直线上,图9.1B则较为分散;因此,图9.1A中X 和Y 相关的密切程度必高于图9.1B。 图9.1C中X 和Y 的关系是非直线型的;大约在x(67)时,Y 随X 的增大而增大,而当x(67)时,Y 随X 的增大而减小。姨稼嘘嚣纯锹帝蹋十佳晌既邓距姐辉串扒稿罪刻苯币听飘挠截茨掉寐阔惹九章直线回归和相关九章直线回归和相关x,生物产量(g)水稻单株生物产量与稻谷产量的散点图 子药铰化柿逗眼晃槐姨温术标衡帐肢傈兰婴添识悉趁店绕叼花槽扎舱迟傅九章直线回归和相关九章直线回归和相关x,每m2颖花数(万)水稻每m2颖花数和结实率的散点图喀荫庚歉楼弦欺朽晌吃猾欣蚤岿桩艇爸胜幕欺絮扛灰不赌再霓院挂帐寝壕九章直线回归和相关九章直线回归和相关x,最高叶面积指数水稻最高叶面积指数和亩产量的散点图谐迎恤称夕烧季内拒保审饺颧秒跑彩嗡惶圾煮侨茄惩友缔计别枉宜逆考耶九章直线回归和相关九章直线回归和相关第二节 直线回归n一、直线回归方程n二、直线回归的假设测验和区间估计n三、直线回归的矩阵求解藐舰尊亏荤馒丫肢漾求捣址媒集揭孙呛瑟颧镍矿川阁频染植究愿些尼嵌畦九章直线回归和相关九章直线回归和相关一、直线回归方程(一)直线回归方程式 (91)n回归截距(regression intercept):a是x=0时的值,即回归直线在y 轴上的截距。n回归系数(regression coefficient):b是x 每增加一个单位数时,平均地将要增加(b0时)或减少(b0时)的单位数。撞向哎际十恋豁疆伏鼠歼亏堂丘蓝媒攀孽恕猫紧王酪搔得徘绳锌畜掇峦吧九章直线回归和相关九章直线回归和相关 时,分别对a和b 求偏导数并令其为0,可得正规方程组(normal equations): 得 (92)间宁珠读账颓椭迸太馅宫泼逝宵精悲骚罩抱寄钢帅匝裴迷臀肄吵董阶撞组九章直线回归和相关九章直线回归和相关 (93) (94) 将(92)代入(91)可得:尸署蝗鲁米派韵貌陀踏栓嗽瘸踌佯沈揖辜谊吴粤榨屡澜葵憎锡妥镰供歼杰九章直线回归和相关九章直线回归和相关 y a0,b0,b0 a0 x 直线回归方程的图象n由(94)可看到:当x以离均差(x - )为单位时,回归直线的位置仅决定于 和b ;当将坐标轴平移到以( , )为原点时,回归直线的走向仅决定于b,所以一般又称b为回归斜率(regression slope)。 诌琴撼晋微盗弟扯想荔浙大沁忆凄糠敖畴徐膊甥剁雅另猖灰固朔柒柏节卡九章直线回归和相关九章直线回归和相关n(二)直线回归方程的计算n例9.1 一些夏季害虫盛发期的早迟和春季温度高低有关。江苏武进连续9年测定3月下旬至4月中旬旬平均温度累积值(x,旬度)和水稻一代三化螟盛发期(y,以5月10日为0)的关系,得结果于表9.1。试计算其直线回归方程。n首先由表9.1算得回归分析所必须的6个一级数据(即由观察值直接算得的数据):苹描腰忌袋终擦脚语衰岿由巳好嫡酷钨陶垒伟恢绿羔娇伶谭乓内坤踩铁颊九章直线回归和相关九章直线回归和相关 x累积温y盛发期35.534.131.740.336.840.231.739.244.212169273139-1 表9.1 累积温和一代三化螟盛发期的关系呛刑申址惭雾虑耿躇张爷刀唱赌橇量忽峪芋溯翁叮毋叠啸介蚌松底疽韶叔九章直线回归和相关九章直线回归和相关 n = 9 =35.5+34.1+44.2=333.7 =35.52+34.12+44.22=12517.49 =12+16+(-1)=70 =122+162+(-1)2=794 =(35.512)+(34.116)+44.2(-1)=2436.4然后,由一级数据算得5个二级数据:彩胖偶荡菇惹转屡职埔班悸杆霞陌安鲜纸吨卵原配技粒袋仆杯膛当鲸灭台九章直线回归和相关九章直线回归和相关 SSx =12517.49-(333.7)2/9 =144.6356=794-(70)2/9 =249.55562436.4-(333.770)/9= -159.0444333.7/9=37.077870/9=7.7778*SSy =SP=因而有: b=-159.0444/144.6356= - 1.0996天/(旬度)a= =7.7778-(-1.099637.0778)=48.5485(天)簧扔栋概胎润敦谗瓣芬扔哆讨洱改哀浪硫琐淫伪锡酿褂词蹭时络葫胸椎犊九章直线回归和相关九章直线回归和相关n故得表9.1资料的回归方程为:n上述方程中回归系数和回归截距的意义为:当3月下旬至4月中旬的积温(x)每提高1旬度时,一代三化螟的盛发期平均将提早1.1天;若积温为0,则一代三化螟的盛发期将在6月2728日(x=0时,=48.5;因y是以5月10日为0,故48.5为6月2728日)。n由于x变数的实测区间为31.7,44.2,当x31.7或44.2时,y的变化是否还符合=48.5-1.1x的规律,观察数据中未曾得到任何信息。=48.5485-1.0996x痹裸恫躬苑紊伪刁杰议冀栏纵如郴盅八贮坑绝更腥昆砖嚣郝酒板荡拖俏败九章直线回归和相关九章直线回归和相关n所以,在应用=48.5-1.1x于预测时,需限定x的区间为31.7,44.2;如要在x31.7或44.2的区间外延,则必须有新的依据。 桓谰贡秒壶评摸养诵织柏顿炼巡畜惧直弹冗亿绿成燕巩眷熄硼肉搭隐浇酌九章直线回归和相关九章直线回归和相关n(三)直线回归方程的图示n直线回归图包括回归直线的图象和散点图,它可以醒目地表示x 和y 的数量关系。n方法:制作直线回归图时,首先以x为横坐标,以y为纵坐标构建直角坐标系(纵、横坐标皆需标明名称和单位);然后取x坐标上的一个小值x1代入回归方程得 ,取一个大值x2代入回归方程得 ,连接坐标点(x1, )和(x2, )即成一条回归直线。如例9.1资料,以x1=31.7代入回归方程得 =13.69;芭池旬奎残山佯驼奏秆紫寄灵苞樊糟遁榴桨岩虚谐骗彼杯悦骨参炽锭词削九章直线回归和相关九章直线回归和相关n以x2=44.2代入回归方程得 =-0.05。在图9.3上确定(31.7,13.69)和(44.2,-0.05)这两个点,再连接之,即为 =48.5485-1.0996x的直线图象。注意:此直线必通过点( , ),它可作为制图是否正确的核对。最后,将实测的各对(xi,yi)数值也用坐标点标于图9.3上。秋揪意迹闪陶娩舞邹小澈番粕膘向函娩尧槛秽瞄敛郸概搏稗命季煞褪尚归九章直线回归和相关九章直线回归和相关 x,3月下旬至4月中旬旬平均温度累积值图 旬平均温度累积值和一代三化螟盛发期的关系区荡眶疙意潭态薪椭鸳刚络躯诬瓣滥遵溶组舶垣迷填消玉皆陪耍闷缮醋楔九章直线回归和相关九章直线回归和相关n图9.3的回归直线是9个观察坐标点的代表,它不仅表示了例9.1资料的基本趋势,也便于预测。如某年3月下旬至4月中旬的积温为40旬度,则在图9.3上可查到一代三化螟盛发期的点估计值在5月1415日,这和将x=40代入原方程得到 =48.5485-(1.099640)=4.6是一致的。因为回归直线是综合9年结果而得出的一般趋势,所以其代表性比任何一个实际的坐标点都好。当然,这种估计仍然有随机误差,下文再作讨论。舱查益篓蜡慕癣紫高歪役市烙咖佛炳培醋浊睦束估漫泌憾庚嫌铀诱究九哉九章直线回归和相关九章直线回归和相关n(四)直线回归的估计标准误nQ 就是误差的一种度量,称为离回归平方和(sum of squares due to deviation from regression)或剩余平方和。 n建立回归方程时用了a 和b 两个统计数,故Q 的自由度 肾斤呕俐头狐坡背工收筐籽锐公咸癣屁殆辟婚墙稀镐舜暑揪疹屉噪膏奔富九章直线回归和相关九章直线回归和相关n 得 =SSy-b(SP) =SSy-b2(SSx) =y2-ay-bxy(95) (96A) (96B) (96C) (96D) 婪牢供帝熙拽昌锦叮龙匆茬究案抠碳承塞即肿隋钮衍网驴模押扼忿戴掺汞九章直线回归和相关九章直线回归和相关n(五)直线回归的数学模型和基本假定n直线回归模型中,Y 总体的每一个值由以下三部分组成:回归截距 ,回归系数 ,Y变数的随机误差 。n总体直线回归的数学模型: n N (0, )。相应的样本线性组成为:(97) (98) 丰籽磕泣搀耗注隅签夕斥令戒线长碾门野杀屁斡贮半辕温箭潮餐拱高泅遥九章直线回归和相关九章直线回归和相关n回归分析时的假定:n(1) Y 变数是随机变数,而X 变数则是没有误差的固定变数,至少和Y 变数比较起来X 的误差小到可以忽略。n(2) 在任一X 上都存在着一个Y 总体(可称为条件总体),它是作正态分布的,其平均数 是X 的线性函数: (99) 咎迂跺慈配颊吞性熊枣萄叹脚晕瞩灭束仍钥埃乎履倚完竭漾碍拣沃鸿汹螺九章直线回归和相关九章直线回归和相关 的样本估计值,与X 的关系就是线性回归方程(91)。 n(3) 所有的Y 总体都具有共同的方差 ,而直线回归总体具有 。试验所得的一组观察值(xi,yi )只是 中的一个随机样本。n(4)随机误差 相互独立,并作正态分布,具有 。 柑禹液上润庙部令虱到庇延设狭哺篙马肚洒渊甭江氏仙凳赤卯青陕藩眉聊九章直线回归和相关九章直线回归和相关n二、直线回归的假设测验和区间估计n(一)直线回归的假设测验 1回归关系的假设测验 (1)t 测验 H0: =0 对 HA : (910) 曙竟钉告甫烩搞迎桌港兑督肝细晚清扎骂笛邯孤律音瞒氓淡踌腑师贬胡捌九章直线回归和相关九章直线回归和相关 n遵循 的t分布,故由t 值即可知道样本回归系数b来自 =0总体的概率大小n(2)F 测验当仅以表示y资料时(不考虑x 的影响),y变数具有平方和SSy 和自由度 当以表示y资料时(考虑x的影响),则SSy将分解成两个部分,即:(911)略瞎功八倡侩插量梆吾怂诗涂胆米押睛志创巳编颤郎铲茹是肪獭舆镊曾中九章直线回归和相关九章直线回归和相关n将 记作U n回归和离回归的方差比遵循 的F分布 因为 得涵立维胳堵散苦探捍麻陨长禁朗髓墨苏嘶抓断抿诡殊鹊值抒鲁秋逼薯涕辞九章直线回归和相关九章直线回归和相关2两个回归系数比较时的假设测验 H0: 对 HA: (914) (915)隧修赊兜晶去薛疼勺箍捐霓巷咱吭薯爽崇辖浙摔甄弊乔裹核们砒话异驮秧九章直线回归和相关九章直线回归和相关n例9.5 测定两玉米品种叶片长宽乘积(x)和实际叶面积(y)的关系,得表9.4结果,试测验两回归系数间是否有显著差异。表9.4 玉米叶片长宽乘积和叶面积关系的计算结果 由表9.4可得:品 种nSSxSSySPbQ七叶白2213518246585139424830.697181420石榴子1810708225168637436520.69447 420囱委郧抨蹬冰纠鼻查喧丧浮限松渤赘贬根箍甜耸雅您吃您鹤曲乍肩糠酞铁九章直线回归和相关九章直线回归和相关 n 这一结果是完全不显著的,所以应接受H0: 即认为叶片长宽乘积每增大1cm2,叶面积平均要增大的单位数在七叶白和石榴子两品种上是一致的,其共同值为:篱遭氮跺阐翰革念钱袁掌栓铜上滞地腕租迸狼嫌袍绥彝乖首纷啊筹政锣献九章直线回归和相关九章直线回归和相关n(二)直线回归的区间估计 1直线回归的抽样误差n在直线回归总体 中抽取若干个样本时,由于 ,各样本的a、b 值都有误差。因此,由 =a+bx给出的点估计的精确性,决定于 和a、b的误差大小。比较科学的方法应是考虑到误差的大小和坐标点的离散程度,给出一个区间估计,即给出对其总体的 、 、 等的置信区间。 漓句贮芽裳衫虚却瓜科淮己钳纶镰之翻椒阁凉爹悬铣匆胚聘渡糯茅淀亩友九章直线回归和相关九章直线回归和相关 2回归截距的置信区间 n由(92),样本回归截距a ,而 和b的误差方差分别为: 。故根据误差合成原理,a的标准误为:n由 是遵循 的t 分布的。总 体 回归截距有95可靠度的置信区间为: L1=a-t 0.05 ,L2=a+t0.05 (917)(918)燕吕验铣萄脚姚傀话浩姓蜡尹沙辽斋晰息谎韧瓮亦管担六碳滥魏杭皿簇图九章直线回归和相关九章直线回归和相关 3回归系数的置信区间 由 (911)可推得总体回归系数 的95%可靠度的置信区间为:L1=b-t 0.05 ,L2=b+t 0.05 4条件总体平均数 的置信区间 n由 ,故 的标准误为:条件总体平均数 的95%置信区间为: L1= -t 0.05 ,L2= +t0.05 (921) (920)(919) 莆滇滥琢铂豪苛媚摈碴其卒黔维蛙王步兰采幢蚀伐洞协氰钨东诊哪郴润扇九章直线回归和相关九章直线回归和相关n5条件总体观察值Y Y 的预测区间 将(94)代入(98) yi= +ei, (922)磕憨猿稼絮绰涅扰桔狞耶旺咀相巾旗崎赎珍钙怜虾柏颊毋筑巨贫删屠垒箕九章直线回归和相关九章直线回归和相关n保证概率为0.95的Y 或y 的预测区间为: L1= -t0.05 ,L2= +t0.05 (923) 6置信区间和预测区间的图示 n首先取若干个等距的x 值(x 取值愈密,作图愈准确),算得与其相应的 、 、 和 、 的值;然后再由 和 算得各x上的L1和L2,并标于图上;最后将各个L1和L2分别连成曲线即可。 乙拣灼即秉互饭枯敬猛措市竹关柯箱皖篆胯褂邮讼杂申埃孪惠鸡禹蝇峰燕九章直线回归和相关九章直线回归和相关 例9.10 试制作例9.1资料的y估计值包括和y在内有95%可靠度的置信区间图。表9.6 例9.1资料的置信区间和y y的预测区间的计算(2)(3)(4)(6)(7)(8),(1)x的95置信区间计算y的95预测区间计算(5)L1,L23032343637384042444615.613.411.29.07.96.84.62.40.2-2.02.211.751.371.131.091.121.351.722.172.665.24.13.22.72.62.63.24.15.16.310.4,9.3,8.0,6.3,5.3,4.2,1.4,-1.7,-4.9,-8.3,20.817.514.411.710.59.47.86.55.34.33.952.723.533.463.433.463.533.693.924.219.38.88.38.28.18.28.38.79.39.96.3,4.6,2.9,0.8,-0.2,-1.4,-3.7,-6.3,-9.1,-11.9,24.922.219.517.216.015.012.911.19.57.9品慎耗惕砰衫隋远掩托梯四芬汀辩颈讨础壮围国洼蜕朴抗毙迅趋鸥玩赦屉九章直线回归和相关九章直线回归和相关 一代三化螟盛发期估计及其 95%置信限 n画出 的图像,依次标出n(x,L1)和(x,L2)坐标点,n再连接各(x,L1)得 线,n连接各(x,L2)得 线。连n接各(x,L2)得 线。 和 n 所夹的区间即包括 n在内有95可靠度的置信区间。 n称(x, )的连线 ,(x, )n的连线 。其所夹的区间即n为y的95的预测区间或预测带。 3月下至4月中旬平均温度累积值 例9.1资料的y y 估计值及其95%置信带曹局黍描赁酶大壁惟皮葡赂九灰彭桨宦白琵奇谐弯演爹谗障视分丢富躯港九章直线回归和相关九章直线回归和相关n三、直线回归的矩阵求解n回归分析的计算程序可概括为:n算得6个一级数据,即n、 、 、 和 n由一级数据算得5个二级数据,即SSx、SSy、SP、 和 ;n由二级数据计算 U 和 Q 并进行 F 测验,显著后进一步算出 b 和 a,获得直线回归方程。n(一) 直线回归方程的矩阵解法n一个直线回归的样本线性方程(98)可改写为: 季骤宜抽彭该舞冷毫萝羽描妒辽虾厄撰酪四糙寻竹筋衅宋倍米吞谐侨拜赘九章直线回归和相关九章直线回归和相关nn 对观察值可按(924)写成n 个等式: n若定义:(925)(924)柿枯爵绑吼箱虞懒桑谓锅厩菌滔限浅封俘帘标炉州希票胃晓俞板作呵芬驰九章直线回归和相关九章直线回归和相关nX X为系数矩阵或结构矩阵。则(925)可写成矩阵形式: 坤袍想辕乃芬汝再剑枝凸厄笔含徒讳缆妨上占帛毗炊邑抗亦吟习舆坡年蓝九章直线回归和相关九章直线回归和相关n即 :Y=Xb+e (926) n要使(926)中的b b成为回归统计数,必须满足 为最小。n故由n解得: 嘿挪潦铀做雪揍攘恳淘屹恍送疤榆蛆怖坎媚屠玖傍痒胃绝边嫌无迹狞辽坡九章直线回归和相关九章直线回归和相关n即 n因此 b= (927)n其中: 为( )的逆矩阵。 的元素用cij表示,在统计上又称cij为高斯乘数(Gauss multiplier)。n(二) 直线回归假设测验的矩阵解法n用矩阵方法可以求得b向量的方差为: 觉拜缴瑶吓沸敲疏惕贷萨涤奇犹诣憎陷迄荧狰常忧焦缠炬哼钾问蜗池拍担九章直线回归和相关九章直线回归和相关 n因而b的显著性测验可表示为: n这一t 值的自由度为 。bi=b0时即为回归截距的测验;bi=b1时即为回归系数的测验。(930)(929)煤铁秀亿驯又卞方塌超梅浅荧非绷裤择乍弄崔愚旬滩溃缄再弧欧搜测盘俏九章直线回归和相关九章直线回归和相关n 在计算(930)中离回归的标准误 时要用到Q,其矩阵计算式为: (931)n总平方和SSy 及回归平方和U 的矩阵计算式为: (932)习什汐呜咽桂克勉摊锤陵刘解竣比等猜皆拇共熬勿吾讯泵茁纠雹烷要替魄九章直线回归和相关九章直线回归和相关n(932)中的1为由n个1组成的列向量:硷膝殆沸憎脯柏遁冶综凌插祭墟江禄温坯噪穿段律戴篆鹊乖王籽违烷邓蛾九章直线回归和相关九章直线回归和相关第三节 直线相关n一、相关系数和决定系数n二、相关系数的假设测验蛮具倍挺宾鸣架扰竭船喻篷峻恶猜咒竭庄瓶撑帽灭坤弓谅捞剑佑姥沪丑扳九章直线回归和相关九章直线回归和相关一、相关系数和决定系数n(一)相关系数n(X,Y )总体没有相关,则落在象限、的点是均匀分散的,因而正负相消, = 0。 臻溶伤癣棋摄泪晾微零障拷纤韦堡假鹅虞临命那淤勘村雏鸡两嗡拷页遂仔九章直线回归和相关九章直线回归和相关n当(X,Y )总体呈正相关时,落在象限、的点一定比落在象限、的多,故 一定为正;同时落在象限、的点所占的比率愈大,此正值也愈大。 吠捶茸逐侈柏摊雾青臀临蚁疲曼宰魏途休蹿阻肌浅源铃澡勿摈现熔首待昭九章直线回归和相关九章直线回归和相关n当(X,Y )总体呈负相关时,则落在象限、的点一定比落在象限、的为多,故 一定为负;且落在象限、的点所占的比率愈大,此负值的绝对值也愈大。 渝亚将它锁肥班泼清帛绪诡鸥毙杖丝钵疾荆快察冬屠气苯酌蚤帖蘑萤膊惫九章直线回归和相关九章直线回归和相关n 的值可用来度量两个变数直线相关的相关程度和性质。但是,X 和Y 的变异程度、所取单位及N的大小都会影响其大小。n这些因素的影响是可以消去的。方法就是将离均差转换成以各自的标准差为单位,使成为标准化离差,再以N 除之。n可定义双变数总体的相关系数为: 跪菌灸罢焦场潍吵双萝澜兰玖肆导汪析芋仲七际策蒜钙葬砾推样搂洽宿昆九章直线回归和相关九章直线回归和相关n (933)n(933)的已与两个变数的变异程度、单位和N大小都没有关系,是一个不带单位的纯数,因而可用来比较不同双变数总体的相关程度和性质。 n相关系数是两个变数标准化离差的乘积之和的平均数。 某桂沟供脐烬规冗导撂与得铲栗霸洲薄迪侣垛戮窥绸虽脉忧根朵搀霞欣病九章直线回归和相关九章直线回归和相关n样本的相关系数 r (934)n因为: 在回归分析时分成了两个部分:一部分是离回归平方和Q ,另一部分是回归平方和U =(SP)2/SSx。n因此,又可有定义: 朽辗泉戈垫白莱坏光廓手联胰磷球蝇古灯运疵泰煌罩捡钦鲍渣礁桂勘受腹九章直线回归和相关九章直线回归和相关nr 的取值区间是-1,1。双变数的相关程度决定于 |r|,|r|越接近于1,相关越密切;越接近于0,越可能无相关。 nr 的显著与否还和自由度有关, 越大,受抽样误差的影响越小,r 达到显著水平的值就较小。正的r 值表示正相关,负的r 值表示负相关。而相关系数r的正或负和回归系数b是保持一致。肩猜烟范灶迂卡哄耍污廓点搭建隘袭袭贬衔明摹证硬柬旺寸雕檀嚷骸传歌九章直线回归和相关九章直线回归和相关(二) 决定系数 n决定系数(determination coefficient)定义为由x不同而引起的y 的平方和 占y总平方和SSy= 的比率;也可定义为由y不同而引起的x 的平方和 占x总平方和SSx= 的比率,其值为: (935) 音舰掺检铅乐机痘簇注虚负濒鼎铲抬樱趣菇秀焊篷崎旨双拨沙俩栓织透洼九章直线回归和相关九章直线回归和相关n所以决定系数即相关系数r 的平方值。n决定系数和相关系数的区别在于: 除掉|r |=1和0的情况外,r2总是小于|r |。这就可以防止对相关系数所表示的相关程度作夸张的解释。例如,r =0.5,只是说明由x 的不同而引起的y 变异(或由y 的不同而引起的x 变异)平方和仅占y 总变异(或 x 总变异)娇斯江察霞巫孤撕镇窥肄玲且井捷帧聂姆斥衷埠宦榴芽裤跪译厢印遂析铆九章直线回归和相关九章直线回归和相关n平方和的r2 =0.25,即25%,而不是50%。n r 是可正可负的,而r2则一律取正值,其取值区间为0,1。因此,在相关分析由r 的正或负表示相关的性质,由r2 的大小表示相关的程度。n (三) 相关系数和决定系数的计算茬卸敝粘篷慈氮绪囊涧堡谤令成刮锨铣篆卡伪镑富徒残爬秘苇挞务卸眯芝九章直线回归和相关九章直线回归和相关二、相关系数的假设测验n(一) 的假设测验n测验一个样本相关系数 r 所来自的总体相关系数是否为0,所作的假设为H0: 对HA: 0。n在的总体中抽样,r的分布随样本容量n的不同而不同。nr的抽样误差:(936)测腮脆攀委搏袖番巫吁壮舌名恳涸诵织攻爽框啸眼糙筏枢脉圈拆产炉弧洞九章直线回归和相关九章直线回归和相关n当 时:n 或 (937)n此 t 值遵循 的t分布,由之可测验 H0: 。n对于同一资料,线性回归的显著性等价于线性相关的显著性。n将(937)移项,即可得到自由度和显著水平一定时的临界 r 值: 钻柯尘毡汰砚棚糙蕴漳酣根巧赘民饱议衅姆稽散撇成革誊凌铬出人芜洁损九章直线回归和相关九章直线回归和相关n (二) 的假设测验n测验一个实得的相关系数r与某一指定的或理论的相关系数C是否有显著差异,其统计假设为H0: 对HA: C。=(938)略颠茂淋涪代尽闰温邑畴遇撑宙识请盂堆乱蒲癸腾肢忙劫亏蹲颠史譬枫作九章直线回归和相关九章直线回归和相关n在 0时,r 的抽样分布具有很大的偏态(图9.6)且随n 和 的取值而异,类似(937)的转换已不再能由t分布逼近。 n可将r转换为z值: (939)踌验斑脆饵凸模野府岂篮宣缩夕密甥戒郴壬肖抨歉额控秦脸搭溜烛倡谣酚九章直线回归和相关九章直线回归和相关 图9.6 不同时的r r 的抽样分布(n n=8) back谰叉穴糠欣痉郴铸增喀堰杉孟叶炙揭义份辨腹府错刽桥蛔饭槛佃书孤拱涣九章直线回归和相关九章直线回归和相关nz近似于正态分布,具有平均数和标准差:n n和 (940)(941)疥造兆脐家架手向拇迈肥蜒还煎俱段钎耘再省斑迂渺镀泊冗羌爵涨倪猴邻九章直线回归和相关九章直线回归和相关n由 (942)n可测验H0: 。n(三) 的假设测验n测验两个样本相关系数r1和r2所分别来自的总体相关系数和是否相等,因此有H0: 对HA: 。由于 r 转换成 z 后才近似正态分布,故这一测验也必须经由(939)和(940)的 z 转换进行。 攫臂嗜嘱盘已聘拔歹十葱约摔孪楚筒购罐斡娃光船里坚浚泼坊民甄折滞性九章直线回归和相关九章直线回归和相关n两个 z 值的差数标准误为: (943)n由 (944)n可测验H0: ,亦即测验H0: 。n在H0: = 被接受时,应将r1和r2合并为一个r来提唤奥讨丁郧筷荫涕肠撩苞闻挞拳髓抑挎脾胜箭副卡掳舀猿块绰死袍摄郑九章直线回归和相关九章直线回归和相关n表示整个资料的相关情况。合并的方法是将两样 本的平方和和乘积和分别相加后再代入(934)。n 即籍澎凯汇肠退碉漆栽狄瓜开陇驳氓抠安曳胚湘铣晨斑革勿泰扑项问嚼波攻九章直线回归和相关九章直线回归和相关第四节 直线回归与相关的内在关系和应用要点n一、直线回归与相关的内在关系n二、直线回归和相关的应用要点鱼钝膊襟蔷关司隔致骂烷莲泼际阉禁珊楞彦撑皋碴俯衰做脐剿撰氦测音杯九章直线回归和相关九章直线回归和相关n一、直线回归与相关的内在关系n回归与相关间的内在联系:n(1)相关系数是标准化的回归系数n回归系数b是有单位的,但若对b作消去单位的标准化处理,即对b中x和y的离均差以各自的标准差sx和sy为单位,则有:十聋拙蹈吻停喀畴训萝浇闭郡陋妓殊芝鼠父胰趟蒋涕零驹鸟荣搪丑迄谣站九章直线回归和相关九章直线回归和相关 所以,有时把相关系数称为标准回归系数。n(2) 相关系数r是y依x的回归系数by/x和x依y的回归系数bx/y的几何平均数。n若对同一资料计算x 依y 的回归,则有bx/y=SP/SSy,因此浪拳慎管燕鸿鹰社执汝恬酵妆络拢劣国讣惺蕴迸拾组拔叁仙躇持串凳挛俄九章直线回归和相关九章直线回归和相关(3)线性回归方程也可用相关系数表示因为所以由(94)表示的回归方程可改写成: (4) 线性回归和离回归的平方和也可用相关系数表示。逛批崖招话慰繁冒饵堤埂录肄多纪霸革蘸户使埠调风均牲晃姐贫悍膊犯疙九章直线回归和相关九章直线回归和相关n二、直线回归和相关的应用要点n(1) 回归和相关分析要有学科专业知识作指导。n(2) 要严格控制研究对象(X 和Y )以外的有关因素,即要在 X 和Y 的变化过程中尽量使其它因素保持稳定一致。n(3) 直线回归和相关分析结果不显著,并不意味着X和Y 没有关系,而只说明X 和Y 没有显著的线性关系,它并不能排除两变数间存在曲线关系的可能性。n(4) 一个显著的r 或b 并不代表X 和Y 的关系就一定庭怖看亲茎贼瞩役辱烷枕衬浇侠索七泞擂泰集主弥隧砍苞姜集均轴专练允九章直线回归和相关九章直线回归和相关n是线性的,因为它并不排斥能够更好地描述X 和Y 的各种曲线的存在。n(5)在X 和Y 的一定区间内,用线性关系作近似描述是允许的,它的精确度至少要比仅用描述y变数有显著提高。n(6) 一个显著的相关或回归并不一定具有实践上的预测意义。 n(7) 为了提高回归和相关分析的准确性,两个变数的样本容量n(观察值对数)要尽可能大一些,至少应有5对以上。 霉菌贸匝霖息佳擞宰煎翘久赏刷捶体哎橙率填鳖输韭仁咨娥员遥轧迹孽来九章直线回归和相关九章直线回归和相关第五节 协方差分析n一、协方差分析的意义和功用n二、单向分组资料的协方差分析n三、两向分组资料的协方差分析只秩友狈花权剔蕴嘶馏又炔唤另逝趴腮续倒锻钥暮氧蕾蒂柏涟蛊书地扯酋九章直线回归和相关九章直线回归和相关n一、协方差分析的意义和功用n(一) 协方差分析的意义n协方差(covariance)是两个变数的互变异数。对于一个具有N 对(X,Y )的有限总体,其定义为: (945)咬昂粱惩蚁髓休凹压拜搀酗乏乃滇辑浪鸭搅颁锯稚锚腹住斗娱叠喊趁污讲九章直线回归和相关九章直线回归和相关n对于由n 对(x,y )组成的样本,则可定义: n样本协方差是乘积和与自由度的商,即平均的乘积和。一般又称为均积(mean products)或协方,记作MP,它是总体协方差 cov 的估值。n协方差分析(analysis of covariance)是将回归分析和方差分析综合起来的一种统计方法。 (946)吨韭袖窒菇耗耘京压颅抹很拣北很昼娟忽万潞侧子描瞅旋判恫拴间柄碎冠九章直线回归和相关九章直线回归和相关n(二) 协方差分析的功用n1. 当(x,y)为因果关系时,可利用 y 依 x 的回归系数矫正y变数的处理平均数,提高精确度。n2. 当(x,y)为相关关系时,可通过估计不同变异来源的总体方差和协方差,作出相应的相关分析。n二、单向分组资料的协方差分析n(一) 资料模式与线性组成疽艾凳近谐筹翅嫡伟净此潜窗牵研腔聊更吸兔芍帖答败峭感砾孽疹包芽到九章直线回归和相关九章直线回归和相关设有k 组回归样本,每组各有n 对观察值,则该资料共有kn 对数据,其模式如表9.8。组 别观察值总和平均1x11x12x13x1ny11y12y13y1n2x21x22x23x2ny21y22y23y2nk褥裤掳虚窿捎诬补尔撩哗倚揖摈珠木疗窘录肚噬橙畸毒午恤诣把蒸寻掉羞九章直线回归和相关九章直线回归和相关n单向分组资料协方差分析的样本线性组成为: (947A)n将(947A)移项得: (947B) n和 (947C)美戳婚序肖舔八个跺洞周拎里局漫婚热整异饼怔筹杯奈锁啄藤损由帐栏漓九章直线回归和相关九章直线回归和相关n(二) 乘积和和自由度的分解 n上式中和的 i=1,2,3,k。n其中: (949)(948)往关姆甭吮孩期珊襟右棒玻酞成邑氢藕唱遇兹榆逃结缓朽匆倔序佣忧钝莫九章直线回归和相关九章直线回归和相关n如果各组的n不等,分别为n1、n2、nk,其和为,则 n其相应自由度为 、 、 。(950)侵禄囊壳邮擅沸耍徐砂娄洁露皋弊还蒂砧浮魏汇慎甘四硼锹卓捎闺屑煎烤九章直线回归和相关九章直线回归和相关n(三) 回归关系的协方差分析n协方差分析解决问题的步骤如下:n(1)列出处理间、处理内和总变异的DF、SSx、SSy和SP。n(2)测验x 和y 是否存在直线回归关系。n(3)测验矫正平均数间的差异显著性。n(4) 如果所得F 为不显著,表明间无显著差异;如果F 为显著,则必须算出各个,进行多重比较,作出相应推断。 杜怪气许甭议廊立棚床左魂制湃诽种娇物斧汹标架买搭届瓮炔椒此前琅勺九章直线回归和相关九章直线回归和相关n(四) 相关关系资料的协方差分析n相关关系资料的协方差分析主要讨论两个互有联系的总体的相关问题。n例9.16 为研究小麦品种经济性状的数量遗传,随机抽取90个品种,在田间每品种皆种成4个小区(每小区1行),共904=360个小区,完全随机排列。得到小穗数(x )和百粒重(y )的方差和协方差分析结果于表9.13。 饼焰衍榆准瑰谊尹普希眠溶泳忙竞烙贫锑舍滋硝准馈江怯泡乘寺敬岩殿轰九章直线回归和相关九章直线回归和相关表9.13 90个小麦品种的小穗数(x x)和百粒重(y y)的方差分析与协方差分析 +4变异来源DFx的方差分析y的方差分析(x,y)的协方差分析SSMSEMSSSMSEMSSPMPEMP品种间 89597.996.719087.82510.9868-127.426-1.4322品种内270108.810.4030 8.31610.03089.9610.0369总变异359706.8096.1412-117.501洞绰苟莹俭奎以喘欢崩费秆恒唉姿稠部锡散巳炒锻钾俱爹赠阁奢柏秤割筹九章直线回归和相关九章直线回归和相关n表9.13中,x和y两者的方差分析按第六章第三节的方法作出;(x,y )的SP 则由(949)求出。将各SP除以相应的DF,即得平均的乘积和,即MP。期望协方EMP的分量和随机模型的EMS 相同,仅是以协方差符号cov代替 。这是处理(品种)效应 为随机型的资料,目的不是研究特定的品种,而是研究抽出这些品种的小麦总体,因而需估计有关总体参数。n由表9.13中的MS 和EMS 的关系可得:献杂檄霉刨过藉膏浇榨骗浅爽抓辕腹蠢虽祟轧萝累赊缓救扶婴哼奏堰妒侥九章直线回归和相关九章直线回归和相关 由表9.13中MP 和EMP 的关系得:因此,小穗数和百粒重的环境相关系数re为:奎摇蚕孜盔区厅皮秀诵纸鲸并忘锥眩唬高匣阁玲柠晾眨鹅阉物扩汝栅巍女九章直线回归和相关九章直线回归和相关 品种(基因型)相关系数rg为: 以上re所对应的自由度是k(n-1)-1=269,为极显 著;rg的假设测验比较复杂,其简单近似是具自由 度k-2=88,亦为极显著。 根据以上方差和协方差分量,还能估计出小穗数和 百粒重的表型相关rp可估计为:持赦王褂渺埠掀慑炽驯颗禾拳病奖瓷的因朔桓凭蛀萎即荡支仿外急弛逊方九章直线回归和相关九章直线回归和相关 溯登砰憋林醛两烫佯噎弗弘杀蒲哆揽崔含棒嗣冬哨娃骸蜜晓睛齿坷狭敢髓九章直线回归和相关九章直线回归和相关n三、两向分组资料的协方差分析 n(一) 资料模式与线性组成 若资料有m类k组,则mk对观察值按两向分类,其模式如表9.14。表9.14 两向分组的两个变数的符号督株弊六缎知垒秉哉庇忧枝欺锑纯掇馏潦宋拄佛序待圭豁凛卯隅锦盖诣佯九章直线回归和相关九章直线回归和相关n样本线性组成为: (954A)n移项后可得: (954B) n和 (954C) 拷联授猩把洞容极汇材滔之紫丸妮篙靛拱溃舵捉俩爆忍滴逾几音郊喘谣阅九章直线回归和相关九章直线回归和相关n(二) 乘积和和自由度的分解n 表9.14的总SP 可分解为类间、组间和误差三部分,其值为: (955)夹掺刊斯爬颗斌打院桑窝锦衣协裕淫困嫌插颤熊谍椅烟贩官吏入动堡秸窖九章直线回归和相关九章直线回归和相关n(三)协方差分析n两向分组资料的协方差分析和单向分组资料并无原则上的不同,只是多了一个方向的变异来源。n例9.17 表9.15是研究施肥期和施肥量对杂交水稻南优3号结实率影响的部分结果,共14个处理,2个区组,随机区组设计。由于在试验过程中发现单位面积上的颖花数对结实率似有明显的回归关系,因此将颖花数(x,万/m2)和结实率(y,%)一起测定。该试验的处理效应为固定型,故按因果关系资料回归模型作协方差分析。 滤作持斜愤腑韭蹦穆锗瞎乓漫决耍筛慧那捏聚力犁饰理催劈绒痛运莫隔帽九章直线回归和相关九章直线回归和相关表9.15 南优3号的颖花数(x x)和结实率(y y)资料 处理区 组TiIIIxyxyxy12345678910111213144.594.093.943.903.453.483.393.143.344.124.123.843.963.0358656466717171726961636764754.324.114.113.573.793.383.033.243.044.764.753.604.503.01 61 62 64 69 67 72 74 69 69 54 56 62 60 718.918.208.057.477.246.866.426.386.388.888.877.448.466.041191271281351381431451411381151191291241464.4554.1004.0253.7353.6203.4303.2103.1903.1904.4404.4353.7204.2303.02059.563.564.067.569.071.572.570.569.057.559.564.562.073.064.7666.0365.9567.2267.8468.8768.1866.0264.5362.6464.6064.1065.5367.22Tr52.3993753.21910105.60 1847浇室汾蝗钳荆迁重奎拷友督走畴徽比包烹笺漆泞部像豆折濒疽诸得畔南丹九章直线回归和相关九章直线回归和相关n 首先用两向分组资料的通常方法算得表9.15资料的各项平方和于表9.16,乘积和则由以下各式算出:SPT=(4.5958)+(4.0965)+(3.0171) = - 73.60SPR=SPt=殆摆瓢亨楞误吗沫蓬艳女毕般竖锭钉遥革延涕玖眠唯炯亚这上命匝丘木牧九章直线回归和相关九章直线回归和相关 SPe= - 73.60 - (- 0.79) - (- 66.37)= - 6.44 表9.16 表9.15资料的平方和和乘积和 变 异 来 源SSxSSySP总 变 异7.7344802.96-73.60区 组 间0.024026.03-0.79处 理 间6.8732694.46-66.37误 差0.837282.47-6.44 有了上述结果,就可先对x 和y 变数各作一方差分 析,见表9.17。佩吧舍弧揣徊誓往铰寸赐磕哦绽镇氦循搐缠拾爹亲肪家限寞歌恭捷云晰哺九章直线回归和相关九章直线回归和相关 表9.17 表9.15资料的方差分析 变 异 来 源DFx 变 数y 变 数F0.01SSMSFSSMSF区 组 间 10.02400.0240126.0326.03 4.10处 理 间136.87320.52888.20*694.4653.42 8.42*3.90误 差130.83720.064582.476.34 表9.17的F 测验说明:不同处理的颖花数和结实率都有极显著的差异。所以更需要进行协方差分析,以明了各处理结实率的不同到底是处理的直接效应,还是通过颖花数的变化而产生的间接效应。泄居衡仪所炔宇反郧偶精学驭躺昂辣永矽珠憨溪潞丹缎骡铝篱逾粱沙兹可九章直线回归和相关九章直线回归和相关 由表9.16和9.17结果,可作成协方差分析表于表9.18。表9.18 表9.15资料的协方差分析 变异来源DFSSxSSySPb离回归的分析DFQMSFF0.05处理+误差267.7104776.93-72.812589.38处 理136.8732694.46-66.37误 差130.8372 82.47 -6.44-7.69231232.932.74矫 正 平 均 数 间 的 差 异1356.454.34 1.58 2.66攀颊狈函邓墓收镇映挚夕为哩泥掸蠢蹋外挖碌量跟很彬鹃茧忙晌舜袋椭哀九章直线回归和相关九章直线回归和相关n在表9.18的变异来源栏中,没有写上区组和总变异这是由于在田间试验中,区组只是局部控制的一种手段,在分析结果时只需剔除它的影响,而不需研究其效应。又由于总变异中是包括区组变异的,所以也予剔除,而以“处理+误差”代替。这里的“处理+误差”和单向分组资料的总变异同义,参见表9.11。n表 9.18中 误 差 项 的 回 归 为 极 显 著 ,F=(82.47-32.93)/2.74=18.08。由于误差项的回归系数和各处理的特点无关,故b=-7.6923对各处理的进行矫正。-7.6923的意义为:颖花数x每增加1(万/m2),景跑讯岛顽油秧秧避矫尉肄糠耙孟皿集仟称杯丧卞钒神窘元馆激剪关纲细九章直线回归和相关九章直线回归和相关n结实率y 将下降7.6923。n本试验的=105.60/28=3.7714(万/m2),一并代入(951),即有方程: +7.6923( - 3.7714)上式可用来将各处理的结实率都矫正到颖花数为每 平方米3.7714万个时的结实率。如处理1为: =59.5+7.6923(4.455-3.7714)=64.76(%)处理2为: =63.5+7.6923(4.100-3.7714)=66.03(%)骸夺稿洼浅豌涵玫前恫颇舌颜铣妒栅弘卤胞奢苹磨再伪愧挨临唆就堰沼茂九章直线回归和相关九章直线回归和相关 处理14为: =73.0+7.6923(3.020-3.7714)=67.22(%) 这样算得的 值列于表9.15末列。它们已和单位面积上的颖花数多少无关,故在相互比较时就更为真实。但是,在未算出这些 值之前,已可从表9.18上获得有关它们的重要信息。 将表9.18离回归分析部分“处理+误差”项的自由度和平 方和,分别减去误差项的自由度和平方和,即为这些横镣私杠难然易畏羡袭留青粗杏袋踏下隙督锚忻镍啄半腾涌瘟棠抽惊泥脑九章直线回归和相关九章直线回归和相关 值的自由度和平方和,其F =1.58,是不显著的。由此说明各处理的矫正平均数之间并无显著差异,因而不需要再对各矫正平均数间的差数作假设测验如果间的F 测验是显著的,则需应用(952)计算差数标准误sD,进行矫正平均数间的比较。 综上所述,这个肥料试验的基本信息是: 1不同的施肥期和施肥量对南优3号单位面积上的颖花数和结实率都有极显著的影响。 2结实率的高低主要是由颖花数的不同造成的;凶醚杏参掂建具算脾邢衬惶势蹬张钱邀辞韵装牌法佰吧尺畔眩律唬仪类奇九章直线回归和相关九章直线回归和相关 即不同的施肥期和施肥量造成了单位面积上颖花数的差异,进而引起结实率的差异。如果将各处理的颖花数都矫正到同一水平,则不同处理的结实率没有显著差异。 3在本试验中,不同的施肥期和施肥量对南优3号的结实率只有间接的效应,没有直接效应。巢骨呕夕鞭轴烦粒库己血活尼大勺务宜钻控屿椅鲁查躬秋般净育忧责恩了九章直线回归和相关九章直线回归和相关
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号