资源预览内容
第1页 / 共167页
第2页 / 共167页
第3页 / 共167页
第4页 / 共167页
第5页 / 共167页
第6页 / 共167页
第7页 / 共167页
第8页 / 共167页
第9页 / 共167页
第10页 / 共167页
亲,该文档总共167页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
.,第六章 方差分析,应用统计学,重庆大学生物工程学院,.,基本概念,方差分析:方差分析是对两个或两个以上样本平均数差异显著性检验的方法。 例:为研究某种生物材料的生物学性能,将材料分成三组,分别与成骨细胞共培养1,7,11天后测试细胞活性。为避免误差,每组测试5个样品,试判断材料的生物学性能。,.,基本概念,.,两个样本数据平均数比较,1、当总体方差 和 已知,或总体方差 和 未知,但两样本均为大样本,2、当总体方差 和 未知,且两样本均为小样本,.,例:生产某种纺织品,要求棉花纤维长度平均在30mm以上。现有一棉花品种,以n400进行抽样,测得纤维平均长度为30.2mm,标准差为2.5mm,问该棉花品种的纤维长度是否合格?,分析:1)已知 , u检验 2)由于只能大于30mm才能合格,故单尾检验,解:(1)假设 ,即该棉花品种纤维长度不能达到纺织品生产要求含量。对,(2)选取显著水平,(3)检验计算,(4)推断,u0.05 ,显著水平上接受H0,拒绝HA。 即认为该棉花品种纤维长度不符合纺织品种生产要求,.,例 为了探讨不同窝的动物的出生重是否存在差异,随机选取4窝动物,每窝中均有4只幼仔,结果如下:,表 4窝动物的出生重(克),通过对以上数据的分析,判断不同窝别动物出生重是否存在差异。,.,方差分析的意义,k个样本均数的比较: 如果仍用t检验或u检验,需比较次数为:,例如4个样本均数需比较次数为6次。,假设每次比较所确定的检验水准为0.05, 则每次检验拒绝H0不犯第一类错误的概率为1-0.05=0.95; 那么6次检验都不犯第一类错误的概率为(1-0.05)6=0.7351, 而犯第一类错误的概率为0.2649,.,方差分析的意义,k个样本均数的比较: 如果仍用t检验或u检验,有以下问题:,1、检验过程繁琐 2、无统一的试验误差,误差估计的精确性和检 验的灵敏性低 3、推断的可靠性降低,犯第1类错误的概率增加,.,方差分析:是一类特定情况下的统计假设检验,或者说是平均数差异显著性检验的一种引伸。u 检验和t 检验可以判断两组数据平均数的差异的显著性, 而方差分析则可以同时判断多组数据平均数之间的差异的显著性。当然,在多组数据的平均数之间做比较时,可以在平均数的所有对之间做 t 检验。但这样做会提高犯型错误的概率,因而是不可取的。,.,方差分析由英国统计学家R.A.Fisher首创,为纪念Fisher,以F命名,故方差分析又称 F 检验 (F -test)。用于推断多个总体均数有无差异,.,方差分析的定义,方差分析是对两个或多个样本平均数差异显著性检验的方法。它是将测量数据的总变异按照变异来源分解为处理效应和试验误差,并做出其数量估计。,它将所有处理的观测值作为一个整体,一次比较就对多有各组间样本平均数是否有差异做出判断。如果差异不显著,则认为它们都是相同的;如果差异显著,再进一步比较是哪组数据与其它数据不同。,.,方差分析的意义,方差分析基本思想: 1、把k个总体当作一个整体看待 2、把观察值的总变异的平方和及自由度分 解为不同来源的平方和及自由度 3、计算不同方差估计值的比值 4、检验各样本所属的平均数是否相等 实际上是观察值变异原因的数量分析,.,方差分析的应用条件和用途,方差分析应用条件: 1、各样本须是相互独立的随机样本 2、各样本来自正态分布总体 3、各总体方差相等,即方差齐,方差分析基本用途: 1、多个样本平均数的比较 2、多个因素间的交互作用 3、回归方程的假设检验 4、方差的同质性检验,.,第一节 方差分析的基本原理,.,试验指标(Experimental index):试验测定的项目或者性状。 日增重、产仔数、瘦肉率 试验因素(Experimental factor):影响试验指标的因素,也称:处理因素,简称因素或因子。 1、可控因素(固定因素):人为可控 2、非控因素(随机因素):不能人为控制 试验因素的表示: 大写字母A, B, C, 等来表示,一、相关术语,.,因素水平(Level of factor):试验因素所处的特定状态或者数量等级。简称水平 水平的表示方法: 用代表该因素的字母添加下标表示,如A1,A2,B1,B2 试验处理(Treatment):实施在试验单位上的具体项目,简称处理。 单因素:试验因素的一个水平 多因素:试验因素的一个水平组合,一、相关术语,.,试验单位(Experimental unit):试验载体,即根据研究目的而确定的观测总体 重复(Repetition):一个处理实施在两个或者两个以上的试验单位上,称为处理有重复。 试验单位数称为处理的重复数,一、相关术语,.,方差分析是关于k(k3)个样本平均数的假设测验方法,是将总变异按照来源分为处理效应和试验误差,并做出其数量估计。 发现各变异原因在总变异中相对重要程度的一种统计分析方法。,二、方差分析的基本原理,.,总变异分解为组间变异和组内变异。 组内变异是个体差异所致,是抽样误差。 组间变异可能由两种原因所致, 一是抽样误差; 二是处理不同。 在抽样研究中抽样误差是不可避免的,故导致组间变异的第一种原因肯定存在;第二种原因是否存在,需通过假设检验作出推断,二、方差分析的基本原理,.,三、数学模型,每组具有n个观测值的k组样本数据资料,.,例 2.1 调查了5个不同小麦品系的株高,结果列于表21。 在这个例子中,只出现“品系”这样一个因素(factor),故称单因素。共有5 个不同的品系,我们称品系这一因素共有5个水平(level)。5个品系可以认为是5个总体,表 21的数据是从5个总体中抽出的5个样本,通过比较这5个样本,判断这5个总体是否存在差异。,表 21 5个小麦品系株高调查结果,.,例 2.2 为了探讨不同窝的动物的出生重是否存在差异,随机选取4窝动物,每窝中均有4只幼仔,结果如下:,表22 4窝动物的出生重(克),通过对以上数据的分析,判断不同窝别动物出生重是否存在差异。,.,以上两个例子的共同点是:每个实验都只有一个因素,该因素有a个水平或称为有a个处理(treatment),这样的实验称为单因素实验。 从单因素实验的每一处理所得到的结果都是一随机变量X i。对于a个处理,各重复n次(或者说做n次观察)的单因素方差分析的一般化表示方法见表23 。,表 23 单因素方差分析的典型数据,.,每一个观察值可以通过如下常用的所谓线性统计模型(linear statistical model)描述:,其中:xij 是在第 i 水平(处理)下的第 j 次观察值。是对所有观察值的一个参量,称为总平均数(overall mean)。i是仅限于对第 i 次处理的一个参量,称为第i次处理效应(treatment effect)。方差分析的目的,就是要检验处理效应的大小或有无。eij是随机误差成份。,.,上述模型中,包括两类不同的处理效应。第一类处理效应称为固定效应(fixed effect),它是由固定因素(fixed factor)所引起的效应。若因素的a个水平是经过特意选择的,则该因素称为固定因素。例如,几个不同的实验温度,几个不同的化学药物或一种药物的几种不同浓度,几个作物品种以及几个不同的治疗方案和治疗效果等。,.,在这些情况中,因素的水平是特意选择的,所检验的是关于ai 的假设,得到的结论只适合与方差分析中所考虑的那几个水平,并不能将其结论扩展到未加考虑的其它类似水平上。所以上述的那些因素:温度、药物、品种等,称为固定因素。处理这样的因素所用的模型称为固定效应模型(fixed effect model)。例2.1中的5个小麦品系是特意选择的,目的是从这5 个品系中,选出最优者,因而“品系”这个因素属于固定因素,所用的模型是固定效应模型。,.,第二类处理效应称为随机效应(ran-dom effect),它是由随机因素(random factor)所引起的效应。若因素的a 个水平,是从该因素全部水平的总体中随机抽出的样本,则该因素称为随机因素。从随机因素的a 个水平所得到的结论,可以推广到这个因素的所有水平上。处理随机因素所用的模型称为随机效应模型(random effect mo-del)。例2.2 的动物窝别,是从动物所有可能的窝别中随机选出来的,实验的目的是考查在窝别之间,出生重是否存在差异,因而“窝别”是随机因素。,.,有时固定因素和随机因素很难区分,除上述所讲的原则外,还可以从另一角度鉴别。固定因素是指因素水平,可以严格地人为控制。在水平固定之后,它的效应值也是固定的。例如,研究三种温度对胰蛋白酶水解产物的影响。因为温度水平是可以严格控制的,即每一温度水平,在各个重复之间都可以准确地控制在一个固定值上,所以在重复该实验时,水解产物的产量也是固定的。简单地说,在水平(不同温度)固定以后,其效应值(产量)也是固定的。因此,温度是固定因素。,.,随机因素的水平是不能严格地人为控制的,在水平确定之后,它的效应值并不固定。例如,在研究不同农家肥施用量对作物产量的影响试验中,农家肥是因素,不同施用量是该因素的不同水平,作物的产量是它的效应值。由于农家肥的有效成份很复杂,不能像控制温度那样,将农家肥的有效成份严格地控制在某一个固定值上。在重复试验时即使施以相同数量的肥料,也得不到一个固定的效应值。即在因素的水平(施肥量)固定之后,它的效应值(产量)并不固定,因而农家肥是一随机因素。,.,三、数学模型,.,三、数学模型,.,三、数学模型,.,四、平方和与自由度的分解,全部观测值的总变异可以用总体方差来度量。 方差即均方是离均差平方和除以自由度。 把一个实验资料的总变异按变异来源分解为相应的变异,首先要将总平方和与总自由度分解为各个变异来源的相应部分。 则考察总方差可以考察处理间方差和处理内的方差,.,四、平方和与自由度的分解,平方和的分解:,总平方和=处理间平方和处理内平方和,.,四、平方和与自由度的分解,自由度的分解:,总自由度=处理间自由度处理内自由度,.,四、平方和与自由度的分解,计算方差:,.,五、统计假设的显著性检验 F检验,F检验的目的:推断处理间的差异是否存在,.,五、统计假设的显著性检验 F检验,注意:方差分析中的F检验总是单尾检验,而且为右尾检验,.,F越大,越说明组间方差是主要方差来源, 因子影响越显著; F越小,越说明随机方差是主要的方差来源, 因子的影响越不显著,五、统计假设的显著性检验 F检验,.,eg. 某水产研究所为了比较四种不同配合饲料对鱼的饲喂效果,选取了条件基本相同的鱼20尾,随机分成4组,投喂不同饲料,经1个月以后,各组鱼的增重(g) 资料如下表,试进行方差分析,分析:1个因素,4个水平,5个重复的方差分析,.,解:,.,.,不同饲料饲喂鱼增重的方差分析表,.,二、 固定效应模型 在固定效应模型中,ai 是处理平均数与总平均数的离差,且是个常量,因而,要检验a个处理效应的相等性,就要ai 判断各是否等于0。若各ai 都等于0,则各处理效应之间无差异。因此,零假设为:,备择假设为: HA:ai0(至少有1个i)。若接受H0,则不存在处理效应,每个观察值都是由平均数加上随机误差所构成。若拒绝H0,则存在处理效应,每个观察值是由总平均数、处理效应和误差三部分构成。,.,例 2.1 调查了5个不同小麦品系的株高,结果列于表21。 在这个例子中,只出现“品系”这样一个因素(factor),故称单因素。共有5 个不同的品系,我们称品系这一因素共有5个水平(level)。5个品系可以认为是5个总体,表 24的数据是从5个总体中抽出的5个样本,通过比较这5个样本,判断这5个总体是否存在差异。,表 21
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号