资源预览内容
第1页 / 共52页
第2页 / 共52页
第3页 / 共52页
第4页 / 共52页
第5页 / 共52页
第6页 / 共52页
第7页 / 共52页
第8页 / 共52页
第9页 / 共52页
第10页 / 共52页
亲,该文档总共52页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
,第7部分: 方差分析(ANOVA),第7部分: 方差分析 (ANOVA),目的:提供一种比较两个以上总体均值的客观方法。目标:理解、应用和解释: 单向ANOVA (单变量) 平衡ANOVA (多变量) GLM (一般线性模型)采用Minitab进行ANOVA/GLM分析,什么是方差分析?,用来确定因变量(“ Y”)与单个或多个自变量(“ Xs”)间关系的统计显著性的方法,其中(“ Xs”)具有两个或多个水平。是确定每一水平的响应变量值的均值是否来自同一总体的一种方法。(它们有所不同吗?)筛选潜在的关键少数“ Xs”的方法,ANOVA适于自变量为离散变量、因变量为连续变量的情形。,ANOVA的概念 比较多个平均值的工具 (用于连续响应数据!),组内变差 (噪音),ANOVA确定不同水平的平均值间的差异(组间变差)是否大于各水平内部产生的变差(组内变差)的合理预期这就是其名字的来源,当前,间距,新工序,总变差,水平1,水平2,组间信号比内部噪音大吗?,是否记得第一阶段关于偏移与漂移的讨论?,组内变差 (噪音),ANOVA计算的比例:,组间变差(信号) (),总变差,SS = 平方和 (变差的量度),=,信号,噪音,在分析阶段,您已经学习了怎样使用“t检验”方法来比较两个样本平均值的差异。(是否记得“ 双样本” t-检验?)例:保险成本项目 您怎样比较不同地区保险成本的平均值?五个地区的成本有差异吗?,是否记得t-检验?,平均值:,地区运作保险成本 ($K),我们需要进行10次独立的比较以检验每对平均值。(AB, AC, AD, AE, BC, BD, BE, CD, CE, DE)即使所有平均成本都相同,仍有5%的机率来否定H0,并推断其中的一对平均值不相等。如果此检验步骤重复10次,错误地得出至少有一对平均值有差异结论的风险就会很高(比5%高得多)。,采用t检验进行多重比较的问题,所有可能的 “ 双样本” t-检验问题:,ANOVA给出了同时比较五个平均值的单一假设检验。,因素 - 自变量 (X) 水平或设置 - 因素的离散值或因素的设置平衡数据 - 各因素不同水平的每一个组合都具有相等数量的样本或观测值。上例即为平衡数据,因为对于X的每个水平,都有两个观测值(响应变量Y值)。 非平衡数据 - 各因素不同水平的每一个组合并非都具有相等数量的样本或观测值。,方差分析术语,因素X有两个水平,40和150。,因素“ X” 有两个水平(40和150),但在此例中,150 水平有三个Y值,而40水平只有一个Y值。,方差分析的类型,单向ANOVA:单因素(“ X”)有两个以上水平 (设置),以及一个连续的因变量 (Y)- 确定因素水平如何影响总的响应变差。平衡ANOVA:多个具有多水平的因素(两个以上“Xs”)、一个连续的因变量(“ Y”)- 确定每个因素对整个响应变差有多大影响。GLM:与平衡ANOVA相同,只是GLM具有非平衡数据。DOE (试验设计):在进行设计的试验中,确定各因素不同水平的哪些组合对响应变 量的变差影响最大。,运用ANOVA来回答这样一个问题:因素(“X”)水平对响应变量(“ Y”)的总变差有多大影响?,使用方差分析的三种假设,1. 对于因素水平的每一组合, 残差值的均值为0.0这意味着我们所拟合的方程(或模型)正确,没有其它变量影响结果。,“ 观测” 值(圆圈)和“ 预计”值(数组平均值,水平线)间的差额为“ 残差”。,假设 (续),残差必须独立,并呈正态分布残差(或误差)即是实际观测的“ Y”值和预计的数学模型的“ Y”值。残差表明模型何处与数据不相匹配。当比较平均值时,正态性往往不成问题。因为中心极限定理表明,平均值趋向正态分布。当比较变差时,正态性非常重要。(方差齐性:对于正态数据,应用“ Bartlett”检验法,对于非正态数据,应用“ Levene”检验法),2.,假设 (续),间距,I级,II级,另一个需要关注的问题(除平均值的相等性之外)是方差的相等性。“ X” 转变成不同水平时,可能降低变差,提高Z值。可以用Bartlett或Levene检验法来检验方差的相等性。,注:因素在水平II上的方差很大,掩盖了不同水平平均值之间真正的差异。,3. 方差必须相等 (或接近相等),实际问题:,一位开发工程师用一种特殊的粘合剂将两个部件粘在一起。另外还有两种可使用的粘合剂,但需要更高级的过程控制。如果其中的一种显示出平均抗剪强度不低于20,则值得更换粘合剂供应商、并改进过程控制水平。,针对此例,运行Minitab 并打开文件:L:6sigmaminitabtrainingminitabsession 2adhesive.mtw独立数据存储在C1-C3栏中;堆叠数据及下标在C4和C5栏中。,数据组如下:,首先将数据制图!,GraphPlot,如图填写对话框:,单击 OK,选择 “ Options” 并通过检查 对话框添加 “ Jitter”,散点图 “ 图形胜过千言万语”,观察图形:1. 三种粘合剂的平均值看上去是否相同?2. 是否有抗剪强度超过20的粘合剂?3. 三种粘合剂的方差是否相同?,配方B(水平3)看上去具有比当前粘合剂或配方A都要高的抗剪强度。但是,直观上的差异并不意味差异具有统计显著性 - 我们需要进一步的分析,以确认这种图形分析的结果。并请注意:对于不同的粘合剂,方差并未表现出显著的不同。,采用ANOVA证明统计显著性,由于随机因素的影响,粘合剂的抗剪强度会产生一些波动,要证明其统计显著性,我们必须表明平均值的差异比偶然出现的差异大。1. 测量的响应值(因变量)是什么?粘合剂抗剪强度2. 评估的因素是什么?仅一个因素 - 粘合剂类型3. 我们想知道什么结果?- 三种类型的粘合剂 (水平)是否存在差异?- 新型粘合剂的平均抗剪强度大于20吗?4. 我们将采用什么分析工具,为什么? 单向ANOVA单因素 (粘合剂类型) 三个水平 (当前,配方A,配方B) 这三种粘合剂是否有差异?5. 零假设和备择假设是什么?Ho: 1=2=3 Ha: 至少一个 i 与其它不等,x,水平 1,9 12 14 13 18,18 15 14 17 15,21 19 21 16 23,水平 2,水平 3,9 12 14 13 18 18 15 14 17 15 21 19 21 16 23,1 1 1 1 1 2 2 2 2 2 3 3 3 3 3,水平,数据,总和 平均值 (总平均),减去 (数据-总平均)平方差,平方和 (SStotal),我们怎样计算ANOVA结果:,SS,=,B,j,(,),j,g,j,x,x,1,2,SS,=,T,j,=,1,n,j,(,),i,g,ij,x,1,2,n,g = 组数 (水平) n = 组中的样本数,ANOVA (续),Fcalculated =,ANOVA计算F统计值:,记住:计算的F-统计值是两个方差的比例,如果总体平均值间没有差异,则计算得的F-比率应约为1.0最后,将算出的F-比率与F表中列出的F值相比较。表中的F建立在样本容量和风险之上(通常=0.05)。如果F算出的=F表中的, ,总体平均值间的差异具有统计显著性(您可以有95%的置信度相信差异不是偶然产生)。如果F算出的,_,_,_,Minitab的ANOVA菜单选项,在使用Minitab 分析有关粘合剂问题的数据之前,我们来看一看Minitab 中ANOVA菜单选项。 Stat ANOVA:,单因素,水平 2 (仅用于堆叠数据),双因素,水平 2多因素与多水平 (平衡数据)多因素与多水平 (非平衡数据),平衡ANOVA和普通线性模型(GLM)可以比较多达9 个因素和50个响应值。GLM是您能用来分析非平衡数据的唯一工具。,(不同水平的数据存于不同栏中),让我们用Minitab以粘合剂为例运行ANOVA,Stat ANOVA One-way,采用 单向 ANOVA,因为只有一个因素,或 “ X”,即 粘合剂,选择选项,以在工作表中存储残差和由模型而得的预测值,残差是因素某一水平的均值与观测值间的差异。针对此粘合剂实例,前7个残差的计算如下:,残差计算,残差量化模型的误差 - 模型不能与数据组很好地拟合。,ANOVA会话窗口,由于p-值 = 0.005, 至少一个粘合剂抗剪强度平均值有差异 (我们接受 Ha)。,请记住, 我们的最初问题是确定不同类型的粘合剂是否具有不同的抗剪强度。 在ANOVA表中,小于0.05的P值表明各水平间存在显著差异。,实际显著性 - 记住我们的第二个问题 - 是否其中有一个新型粘合剂的抗剪强度大于20? 通过分析95%的信置区间, 我们可以看出,性能最好的粘合剂为水平3, 其值为(17.5, 22.5)。 虽然粘合剂3比当前的粘合剂要好,且平均值最可能的估计值为20,但没有很高的置信度认为平均值至少是20。 也许恰当的方法是,收集有关粘合剂3的更多数据,以获得平均值的更好估计值,即更窄的置信区间(记住,我们只有5个数据)。,采用Minitab的多因素ANOVA分析,情形 : 六个西格玛小组有项任务 将“订单处理”的周期时间从目前的平均值10.8分钟降低到9.0分钟。 “ 工作人员的经验”、 “ 班次” 和电话接收中心(“地区” )被初步列为能影响周期时间的潜在“Xs” .下表列出了来自该公司三个不同电话接收中心的数据:打开文件: L:6sigmaminitabtrainingminitabsession 2cqcycle.mtw,注: 各因素不同水平的每一个组合(“单元”)都有5个观测值,共有90个观测值(3*3*2*5 = 90),首先 - 我们将数据制图,创建三个图表 - 周期时间与地区- 周期时间与班次- 周期时间与经验 Graph Plot,单击 OK,单击“ Options” 添加Jitter.,图形向我们显示什么信息?,东海岸办公室平均订单处理周期时间比其它各地的平均值高。当平均周期时间低时,波动也低。,熟练工比新手看上去要快,尽管波动很大, 第二个班的周期时间比另两班要短一些。,查察数据的另一种方式 采用框图!,我们进行分析,记住, 我们试图分析区域、员工经验和班次三项因素是否对订单处理周期时间存在任何影响,另外,我们具有平衡数据。零假设和备择假设为:H0: 因素对响应变量值没有影响(无差异)。Ha: 因素对响应变量值有显著影响(有差异) 。Stat ANOVA Balanced ANOVA,在因素间插入“ pipes”就是命令Minitab将各因素的每个组合都在分析中考虑。 在键盘上“ pipe”就是反斜杠键的上档.,我们还将单击“ Graphs” ,以生成残差用于分析。,见下页,残差图,采用 “ Graphs” 选项,您可以得到残差图及其相关分析。,除检验残差的正态性外,检查“残差对拟合值 ” 及“残差对变量” 是否存在任何趋势。单击 OK ,进行分析,ANOVA表的说明,注意,区域、员工经验和班次对于“ 周期时间”有最大的影响(请看它们的F值)。区域与员工经验间的相互作用也很显著,因为P0.05。,显著因素的 p-值 0.05,影响显著的 “ X”,利用会话窗口中的ANOVA输出,确定在工序中是否有任何因素促成差异的形成。,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号