资源预览内容
第1页 / 共296页
第2页 / 共296页
第3页 / 共296页
第4页 / 共296页
第5页 / 共296页
第6页 / 共296页
第7页 / 共296页
第8页 / 共296页
第9页 / 共296页
第10页 / 共296页
亲,该文档总共296页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1 1武汉工程职业技术学院培训中心培训中心培训中心培训中心 刘美刘美刘美刘美统计基础统计基础2 2武汉工程职业技术学院一、基本概念二、描述性统计三、数据的图示方法四、统计量与抽样分布五、数据的收集与整理六、参数估计主要内容主要内容3 3武汉工程职业技术学院一、基本概念一、基本概念(一)基本概念1、统计学(statistics):收集、处理、分析、解释数据并从中得出结论的科学。2、描述统计(descriptive statistics):研究数据收集、处理和描述的统计学分支。3、推断统计(inferential statistics) :研究如何用样本数据来推断总体特征的统计学分支。4、总体(population):包含所研究的全部个体(数据)的集合,称为总体。根据所包含的单位数目是否可数可以分为有限总体和无限总体,区分有限总体和无限总体的目的是判别每次抽样是否独立4 4武汉工程职业技术学院5、样本(sample):从总体中抽取的一部分元素的集合称为样本。6、样本量(sample size):构成样本的元素的数目称为样本量或样本容量。7、参数(parameter):用来描述总体特征的概括性数字度量称为参数。参数包括均值、标准差、比例等。一般用希腊字母表示。8、统计量(statistics):用来描述样本特征的概括性数字度量称为统计量。通常用英文字母表示。 一、基本概念一、基本概念5 5武汉工程职业技术学院二、描述性统计二、描述性统计6 6武汉工程职业技术学院二、描述性统计二、描述性统计例题:13. 计算下列数据的中位值:23, 33, 35, 45, 55, 56, 66, 78 a. 50 b. 45 c. 55 d. 40(4)众数、中位数、均值三者之间的关系 众数是一组数据分布的峰值,不受极端值的影响,但缺点是有可能不唯一,适合于分类数据的集中趋势测度值;中位数是一组数据中间位置上的代表值,在数据分布偏斜程度较大时适合作为数值型数据集中趋势的测度值;均值利用了数据的全部信息,当数据对称或接近对称时,应选择均值作为集中趋势的代表值。7 7武汉工程职业技术学院(5)众数、中位数、均值三者之间的关系二、描述性统计二、描述性统计对称分布:均值=中位数=众数右偏分布:均值中位数众数左偏分布:均值中位数5且np(1-p)5),且p值适中(0.1p580,则认为钢筋抗拉强度的平均值有提高。6565武汉工程职业技术学院6.2 假设检验假设检验统计分析方法运用过程中蕴含的两条基本原理:(1)带有概率性质的反证法原理为此可以建立两个命题,在假设检验中称为假设:原假设(零假设):关于样本所属总体(指参数值)与假设总体(指参数值)之间无差异的假设,记为H0;备择假设(或对立假设):和原假设相反的假设。指的是关于当前样本所属的总体(指参数值)与假设总体(指参数值)有差异的假设,是根据样本信息期待证实的假设,是否定了原假设后应当采取的假设,记为H1。6666武汉工程职业技术学院6.2 假设检验假设检验统计分析方法运用过程中蕴含的两条基本原理:(1)带有概率性质的反证法原理H0和H1地位是不对等的,不能随意交换。因而,在一般情况下,H0要取那个在实践中应该受到保护,有足够证据时才能否定的论断或“不证自明”的论断作为原假设。在对参数进行检验时,我们将把相等的、无差别的、等号成立相等的、无差别的、等号成立的结论作为原假设,记为H0;将待判定、待证明的、不相等、有差别待判定、待证明的、不相等、有差别的结论作为备择假设,设为H1。对于参数检验的问题,原假设一定是“等于”某值,备择假设中永远只可能是“大于”、“小于”或“不等于”这三种情况。6767武汉工程职业技术学院6.2 假设检验假设检验(2)小概率事件原理带有概率性质的反证法原理中,所谓的明显不合理情况指的就是竟然出现了小概率事件。按照常识,在假设H0成立的条件下,与大概率事件相比,小概率事件在一次试验中几乎不会发生,如果它发生了,说明最初的假设“H0是成立的”并不正确,因此应该拒绝H0。但与此同时,应该注意的是,在处理假设检验问题时,未考虑特殊情况,虽说小概率事件在一次试验中几乎不会发生,但不等于不会发生,它仍然有发生的可能性。所以,根据小概率事件发生而做出的拒绝H0的判断有犯错误的可能。6868武汉工程职业技术学院假设检验是先对总体参数提出一个假设值,然后利用样本信息推断这一假设是否成立。095%095%拒绝原假设拒绝原假设不拒绝原假设不拒绝原假设小概率事件原理:小概率事件在一次试验中是几乎不会发生的。假设检验是利用小概率事件原理,进行反向推断(反证法)6.2 假设检验假设检验6969武汉工程职业技术学院联系假设检验与区间估计都属于推断统计的内容,都是根据样本信息推断总体信息。假设检验与区间估计的联系与区别:假设检验与区间估计的联系与区别:区别区间估计是利用大概率原理推断出总体参数的范围,输出是数值(一个区间)。假设检验是以小概率原理为基础,对总体的状况所做出的假设进行判断,输出的是结论(拒绝或不能拒绝)。 6.2 假设检验假设检验7070武汉工程职业技术学院6.2.2 假设的步骤(1)建立原假设和备择假设;(2)给出犯两类错误的概率、;(3)从实际出发确定什么样的差别是有意义的,即确定。(4)根据检验参数的类型和已知条件,选择检验统计量。(5)计算样本量。(6)数据采集。(7)计算检验统计量。(8)使用以下三种方法之一做出是否拒绝原假设的判断。置信区间法:根据样本统计量计算总体参数的置信区间,原假设的参数值未落入置信区间,拒绝原假设,否则不能拒绝原假设。临界值法:将检验统计量的值与拒绝域的临界值相比较,落在拒绝域中拒绝原假设,否则不能拒绝原假设。p值法:由检验统计量计算p值,p值小于拒绝原假设,否则不能拒绝原假设。6.2 假设检验假设检验7171武汉工程职业技术学院(1)建立假设)建立假设一对假设:原假设(H0 )和备择假设(H1 )H0与H1地位是不对等的假设检验使用了反证法原理先假定H0是正确的,如果样本观测值出现了与应有的结果明显矛盾的情况,则说明“H0正确”这个假设是错误的,于是拒绝H0 ,这是强结论;如果没有出现矛盾的情况,我们不能说接受H0 ,只能说没有足够的证据拒绝H0 ,这是弱结论。一般情况下,我们把相等的、无差别的的结论作为原假设,所以,等于一定包含在原假设中;备择假设只可能是“大于”、“小于”、“不等于”三种情况。6.2 假设检验假设检验7272武汉工程职业技术学院假设检验的基本形式(以均值检验为例)假设假设双侧检验双侧检验单侧检验单侧检验左侧检验左侧检验右侧检验右侧检验原假设原假设H0:= 0H0: 0H0: 0备择假设备择假设H1: 0H1: 06.2 假设检验假设检验7373武汉工程职业技术学院6.2 假设检验假设检验原假设与备择假设建立示例:例1:原来的热轧带肋钢筋生产线生产的钢筋平均抗拉强度为580MPa,标准差为9MPa。经过调整参数后,希望钢筋抗拉强度能有所提高。项目团队实施改进后抽取了25根钢筋,测得钢筋平均抗拉强度为605 MPa。问:能否断言钢筋平均抗拉强度确有提高?试建立原假设和备择假设。7474武汉工程职业技术学院6.2 假设检验假设检验例2:某厂规定产品必须经过检验合格后才能出厂,其不合格率p0不得超过5%。现从一批产品中随机抽取200个进行检验,发现16个不合格品,问该产批产品能否出厂?试建立原假设和备择假设。7575武汉工程职业技术学院样题样题42在2010年足球世界杯上,章鱼保罗大显身手,在8次重要的比赛中,它对于胜负的预测全部正确。统计学家怀疑究竟章鱼是偶然猜对还是章鱼真能神机妙算(或另有隐情),需要建立怎样的假设检验?A进行“单比率”检验,H0:比率p=0.5 vs H1:比率p0.5B进行“单比率”检验,H0:比率p=0.5 vs H1:比率p0.5D进行“单比率”检验,H0:比率p=0 vs H1:比率=17676武汉工程职业技术学院(2)给出犯两类错误的概率)给出犯两类错误的概率,假设检验是根据样本做出是否拒绝原假设的决策。我们希望:当原假设成立时,我们没有拒绝它;当原假设不成立时,我们拒绝它。而样本是随机的,我们有可能犯下面两类错误:决策结果决策结果实际情况实际情况H0正确正确H0不正确(不正确(H1正确)正确)未拒绝未拒绝H0正确决策,正确决策, 概率为概率为1-, 1-也称也称置信水平或置信度。置信水平或置信度。第第类错误,也称类错误,也称“取伪取伪”错错误,概率为误,概率为。拒绝拒绝H0第第类错误,也称类错误,也称“弃真弃真”错误,错误,概率为概率为, 也称为显著性水平。也称为显著性水平。正确决策,正确决策, 概率为概率为1-, 1-称称检出力或检出功效。检出力或检出功效。原假设被拒绝时,原假设被拒绝时,才可能会犯第才可能会犯第类错误;类错误;原假设未被拒绝时原假设未被拒绝时,可,可能会犯第能会犯第类错误。样本量类错误。样本量n一定时,一定时, 减小,减小,会增大;会增大; 增大,增大,会减小,只有增大样本量会减小,只有增大样本量才能才能同时减小同时减小 和和。6.2 假设检验假设检验7777武汉工程职业技术学院6.2 假设检验假设检验(3)确定要从实际出发确定什么样的差别是有意义的。017878武汉工程职业技术学院(4)选择检验统计量,确定统计工具)选择检验统计量,确定统计工具检验统计量类型的选择实际上就是确定统计量抽样分布的形式。基于以下两点:要检验的参数已知条件如,方差已知的单正态总体的均值检验,选择Z统计量,使用“单样本Z”检验。6.2 假设检验假设检验7979武汉工程职业技术学院(5)计算样本量检验问题实际就是判断样本是来源于哪个总体。不同样本量样本均值分布对比图不同样本量样本均值分布对比图n=1n=256.2 假设检验假设检验8080武汉工程职业技术学院(5) 计算样本量计算样本量样本量的计算公式见蓝皮书P158,例总体标准差已知,单样本Z检验的样本量计算公式:结论:要同时降低犯两类错误的风险,必须增大样本量;总体方结论:要同时降低犯两类错误的风险,必须增大样本量;总体方差变大,要保持原来的风险,必须增大样本量;拟检查差异变小,差变大,要保持原来的风险,必须增大样本量;拟检查差异变小,必须增大样本量。必须增大样本量。样本量的大小取决于决策错误的风险、总体标准差的大小、拟检查的差异大小这三个方面的因素。6.2 假设检验假设检验8181武汉工程职业技术学院例: 假设钢筋抗拉强度服从正态分布,原钢筋平均抗拉强度 2000Kg,标准差300kg,调整参数后若平均抗拉强度2150Kg,就认为钢筋抗拉强度是否有所提高。问:判断钢筋抗拉强度是否有所提高需要多大的样本量?1、建立假设 H0:2000 H1: 2000 2、确定 =0.05 =0.13、确定取=2150-2000=150kg因为:Z0.95=1.645 Z0.9=1.28,带入公式:4、手动计算样本量:Minitab计算样本量:统计计算样本量:统计功效和样本数量功效和样本数量单样本单样本Z6.2 假设检验假设检验8282武汉工程职业技术学院(6)数据采集)数据采集根据计算的样本量采集样本样本尽可能覆盖各种变异源的波动范围不同批次不同操作人员不同设备不同外部环境.6.2 假设检验假设检验8383武汉工程职业技术学院(7)计算检验统计量)计算检验统计量检验统计量是根据样本计算得到的,是对样本信息的概括。检验统计量是对总体参数的点估计值,但这个点估计值只有标准化后才能反映样本的点估计值与假设的总体参数相比差多少个抽样标准差。注:我们平时所说的检验统计量就是指标准化的检验统计量。如,方差已知的单正态均值检验,统计量Z的计算:6.2 假设检验假设检验8484武汉工程职业技术学院A:H1: 0B:H1: Z0.95=1.645 ,落入拒绝域,所以拒绝原假设。4、钢筋平均抗拉强度确实有提高。临界值临界值拒绝域H0:2000 6.2 假设检验假设检验8686武汉工程职业技术学院(8)判断方法二)判断方法二置信区间法置信区间法例:假设钢筋抗拉强度服从正态分布,原钢筋平均抗拉强度 2000Kg,标准差300kg,调整参数后抽取了25根,测得平均抗拉强度2150。问:能否断言钢筋平均抗拉强度有所提高? =0.05(1)求置信区间的下限(2)置信区间的下限2051.32000, 置信区间中不包含原假设参数2000,所以拒绝原假设。(3)钢筋平均抗拉强度确实有提高。6.2 假设检验假设检验8787武汉工程职业技术学院(8)判断方法三)判断方法三P值值p值是概率,是在原假设成立的前提下,出现目前样本状况或对原假设更为不利状况的概率。目前样本状况的信息通过检验统计量体现,对原假设更不利的状况与备择假设的类型有关。所以,P值与检验统计量和备择假设的类型有关。6.2 假设检验假设检验8888武汉工程职业技术学院(8)判断方法三)判断方法三P值法值法A:H1: 0B:H1: 0C:H1: 0ppp/2p/26.2 假设检验假设检验8989武汉工程职业技术学院例: 假设钢筋抗拉强度服从正态分布,原钢筋平均抗拉强度 2000Kg,标准差300kg,调整参数后抽取了25根,测得平均抗拉强度2150。问:能否断言钢筋平均抗拉强度有所提高?假定=0.05,=0.2。2、计算检验统计量4、p ,所以拒绝原假设。5、钢筋平均抗拉强度确实有提高。1、H0:2000 3、计算p值p6.2 假设检验假设检验9090武汉工程职业技术学院p值与样本量值与样本量n的关系的关系当样本量n越大时,检验统计量的绝对值就越大,p值就越小,就越有可能拒绝原假设。p值与检验统计量、备择假设类型有关,而检验统计量与样本量n有关,所以p与样本量n有关。6.2 假设检验假设检验9191武汉工程职业技术学院例:某公司生产铝盘,铝盘上镀磁性材料厚度要求为例:某公司生产铝盘,铝盘上镀磁性材料厚度要求为505mm,从,从生产线取生产线取20万个数据,均值为万个数据,均值为50.3mm,标准差,标准差1mm,进行假设检,进行假设检验判断该生产线生产是否正常,结果验判断该生产线生产是否正常,结果p0.05,我们能否认为该生产,我们能否认为该生产线生产不正常?线生产不正常?样本量太小,不能发现差别。样本量太大,则太过灵敏,没有实际意义。样本量很重要的,报告p值的同时,也要报告样本量。6.2 假设检验假设检验9292武汉工程职业技术学院连续数据连续数据正正态态分分布布或或大大样样本本非非正正态分布态分布小小样样本本且且非非正态分布正态分布均值检验均值检验单样本单样本Z单样本单样本t双样本双样本t配对配对t单因子方差分析单因子方差分析方差检验方差检验单方差单方差双方差双方差等方差等方差非参数检验非参数检验离散数据离散数据比例检验比例检验单比率单比率双比率双比率卡方卡方假假设设检检验验正态分布正态分布参数检参数检验验6.2.3 假设检验的类型假设检验的类型9393武汉工程职业技术学院单总体均值检验(与某一具体值比较)单总体均值检验(与某一具体值比较)双总体均值差检验双总体均值差检验配对检验配对检验多总体均值检验多总体均值检验6.2.4 均值检验均值检验9494武汉工程职业技术学院单总体单总体独立性检验独立性检验正态性检验(小样本)正态性检验(小样本)双总体或多总体双总体或多总体独立性检验独立性检验样本内数据独立样本内数据独立样本间数据独立样本间数据独立正态性检验(小样本)正态性检验(小样本)两组或多组数据都服从正态分布两组或多组数据都服从正态分布等方差检验等方差检验对均值检验,样本量对均值检验,样本量n30时,可以不进行正态性检验。时,可以不进行正态性检验。6.2.4 均值检验均值检验9595武汉工程职业技术学院独立性检验独立性检验样本内数据独立样本内数据独立样本量样本量40 质量工具质量工具 运行图运行图样本量样本量40 40 统计统计 非参数统计非参数统计 游程检验游程检验样本间数据独立样本间数据独立统计统计 基本统计量基本统计量 相关相关正态性检验正态性检验统计统计 基本统计量基本统计量 正态性检验正态性检验等方差检验等方差检验统计统计 方差分析方差分析 等方差检验等方差检验6.2.4 均值检验均值检验9696武汉工程职业技术学院1.单总体均值检验流程单总体均值检验流程大样本大样本?n=30总体方差是否已知总体方差是否已知总体是否总体是否服从正态分布服从正态分布总体方差是否已知总体方差是否已知将样本容量将样本容量增加到增加到30或非参数检验或非参数检验用样本方差代替用样本方差代替用样本方差代替用样本方差代替是是否否是是否否是是否否是是否否单样本Z单样本t或单样本z单样本Z单样本t9797武汉工程职业技术学院1.单总体均值检验单总体均值检验检验法条件H0H1检验统计量拒绝域Z检验已知大样本或正态小样本 00= 0 0Z 1-Z Z 1-/2Z检验未知大样本 0 0= 0 0Z 1-Z Z 1-/2t检验未知正态小样本0 0= 0 0t 1-(n-1)t t 1-/2(n-1)9898武汉工程职业技术学院例(蓝书 P115)抽查面粉的装包重量,其每包重量在正常生产条件下均值为20Kg,标准差为0.1Kg,某日在生产的产品中抽查16包。问当日生产的面粉均值是否正常?(BS_面粉重量.mtw)n质量工具运行图 正态性检验 因为n Z 1-/2因为=0.05 所以临界值Z0.975=1.96 ,拒绝域为:|Z| 1.96结论:拒绝原假设,该天面粉均值不正常。结论:拒绝原假设,该天面粉均值不正常。1.单总体均值检验单总体均值检验9999武汉工程职业技术学院检验聚类性的近似检验聚类性的近似P值值0.05:出现了差别细微的成堆出现了差别细微的成堆数据。数据。混合的近似混合的近似P值值0.05:数据中有很多相同的值。数据中有很多相同的值。检验趋势的近似检验趋势的近似P值值0.05:有连续上升或下降趋势。有连续上升或下降趋势。检验振动的近似检验振动的近似P值值 t 1-/2(n-1)。t0.975(15)=2.131 ,拒绝域为:|t| 2.131结论:该天面粉均值不正常。结论:该天面粉均值不正常。1.单总体均值检验单总体均值检验独立性检验(略)正态性检验(略)建立假设:H0:=20 H1: 20102102武汉工程职业技术学院2.两总体均值检验流程均值检验均值检验独立样本独立样本配对样本配对样本大样本大样本小样本、正态小样本、正态方差已知方差已知方差已知方差已知方差未知方差未知Z检验检验方差相等方差相等大样本或大样本或正态小样本正态小样本配对配对T检验检验方差未知方差未知Z检验检验Z检验检验方差不等方差不等双双T检验检验(勾选等方差勾选等方差)双双T检验检验(不勾选等方差不勾选等方差)注:注:minitab工具中无工具中无“双双z检验检验”, 所以用所以用“双双t检验检验”代替。代替。103103武汉工程职业技术学院独立双总体与配对总体的区别独立双总体与配对总体的区别两组数据针对两组个体数据无需对应样本观测值彼此不影响两组数据样本量可以不同两组数据是针对一组个体处理前后或两种不同处理的结果样本数据成对出现,一一对应样本数据组间不独立两组数据样本量一定相同独立双总体配对总体104104武汉工程职业技术学院3.两总体均值差检验两总体均值差检验检验检验法法条件条件H0H1检验统计量检验统计量拒绝域拒绝域Z检验检验1,2已知已知1= 21= 21= 2 121z1-zz1- /2t检验检验未知但相未知但相等等1= 21= 21= 2 121t1- (n+m-2)tt1- /2(n+m-2)近似近似t检验检验1,2未知且不未知且不相等相等1= 21= 21= 2 121t1-()tt1- /2 ()3.两总体均值差检验两总体均值差检验检检验法验法条件条件H0H1检验统计量检验统计量拒绝域拒绝域Z检验检验1,2已知已知1= 21= 21= 2 121z1-zz1- /2105105武汉工程职业技术学院3.两总体均值差检验两总体均值差检验106106武汉工程职业技术学院检验检验法法条件条件H0H1检验统计量检验统计量拒绝域拒绝域t检验检验未知未知但相等但相等1= 21= 21= 2 121t1- (n+m-2)tt1- /2(n+m-2)3.两总体均值差检验两总体均值差检验107107武汉工程职业技术学院检验检验法法条件条件H0H1检验统计量检验统计量拒绝域拒绝域近似近似z检验检验1,2未知未知m,n大大样本样本 121z1-zz1- /2F检检验验108108武汉工程职业技术学院例(蓝书 P128) 一家冶金公司用氧气取代空气吹入活化泥以改善BOD,在两种处理的废水中,分别抽取样品如下:( BS_生物氧需求量)问:改用氧气是否能显著降低BOD含量?统计基本统计量双样本t空气184194158218186218165172191179氧气163185178183171140155179175p=0.029基本统计量单样本t P=0.035方法一:使用原始列,使用配对t检验统计基本统计量配对t P=0.035 配对t检验注:如果将此问题误当作是普通的双样本均值检验,得到P=0.901,结论为两种分析方法无显著差异。这是因为不同矿物之间的差异(组内差异)很大,掩盖了两种测量方法间的差异(组间差异)。可见,如果将配对观测数据误作为普通两样本数据来分析,很容易犯第二类错误(纳伪)而得不到正确结论。4.配对样本检验配对样本检验112112武汉工程职业技术学院(1)方差检验的前提条件样本量一般在30以上正态性检验单总体方差检验总体服从正态分布:标准法总体为任何连续分布:调整法双总体方差检验两总体均服从正态分布:F检验总体为任何连续分布:Levene检验多总体等方差检验各总体均服从正态分布:Bartletts检验总体为任何连续分布:Levene检验5.方差检验方差检验113113武汉工程职业技术学院方差检验单总体双总体多总体正态?正态?正态?统计基本统计量单方差(标准法p值)统计基本统计量单方差(调整法p值)统计基本统计量双方差(F检验p值)统计基本统计量单方差(levene检验p值)统计方差分析等方差检验(Bartletts检验p值)统计方差分析等方差检验(levene检验p值)是是是否否否5.方差检验方差检验114114武汉工程职业技术学院5.方差检验方差检验115115武汉工程职业技术学院根据备择假设的类型和给出临界值, 确定拒绝域:5.方差检验方差检验116116武汉工程职业技术学院H0H1拒绝域样本量应大于30,若总体服从正态分布,检验统计量5.方差检验方差检验117117武汉工程职业技术学院例(蓝书 P136 例题5-12 BS_轴杆长度.mtw)已知,轴杆长度原来的标准差0=0.1,随机抽取的30根轴杆测量长度,问:轴杆的标准差是否确实有降低?(=0.05)(1)正态性检验 p=0.511(2)建立假设:H0:0.1 H1: 0.1 (3)计算检验统计量:(4)由于备择假设的类型为左侧检验,所以拒绝域的形式为: (5)检验统计量16.45 p 0左侧检验:H1: p 0.6(2)计算检验统计量:因为 ,所以采用近似Z检验:(3)由于备择假设的类型为右侧检验, 拒绝域的形式为 ZZ1- =0.05时, Z1- =1.645(4)检验统计量Z=0.913基本统计量单比率 P=0.193,不能拒绝原假设。不勾选此项,计算机自动按二项分布精确计算;勾选此项,按正态分布近似计算;一般情况下,不必选此项,除非样本量特别大。6.比率检验比率检验130130武汉工程职业技术学院例(蓝书P163例题6-1修改)随机抽取5000位小学生进行视力检测,其中3100位近视。问:是否可以认为小学生近视比率超过6成?(=0.05)(1)建立假设 H0: =0.6 H1: 0.6(2)计算检验统计量:因为 , 所以采用近似Z检验(3)由于备择假设的类型为右侧检验, 拒绝域的形式为 ZZ1- =0.05时, Z1- =1.645(4)检验统计量Z=2.881.645 ,落入拒绝域,拒绝原假设。(5)结论:小学生近视比率超过6成。6.比率检验比率检验131131武汉工程职业技术学院例(蓝书 P167 例题6-2)分别从两种工艺条件下抽取1500片及1800片芯片,A种工艺条件下有340片一等品,B种工艺条件下有350件一等品。问:A工艺条件下比B工艺条件下有较高的一等品率吗?(=0.05)(1)建立假设 H0:1= 2 H1: 1 2(2)计算检验统计量:因为样本量较大,所以采用近似Z检验(3)由于备择假设的类型为右侧检验, 拒绝域的形式为 ZZ1- =0.05时, Z1- =1.645(4)检验统计量Z=2.2671.645 , 落入拒绝域,拒绝原假设。(5)结论:A工艺条件下比B工艺条件下有较高的一等品率。6.比率检验比率检验132132武汉工程职业技术学院统计基本统计量双比率 P=0.012,拒绝原假设。例(蓝书 P167 例题6-2)分别从两种工艺条件下抽取1500片及1800片芯片,A种工艺条件下有340片一等品,B种工艺条件下有350件一等品。问:A工艺条件下比B工艺条件下有较高的一等品率吗?(=0.05)一般情况下,不必选此项,除非样本量特别大。6.比率检验比率检验133133武汉工程职业技术学院例(蓝书 P168 例题6-3)甲乙两种品牌的手机,访问使用甲品牌的顾客800位,340位满意;访问使用乙品牌的顾客600位,180位满意。问:甲品牌的顾客满意率比乙品牌的顾客满意率高5%以上吗?(=0.05)(1)建立假设 H0: 1- 2 =0.05 H1: 1- 2 0.05(2)计算检验统计量:因为样本量较大,所以采用近似Z检验(3)由于备择假设的类型为右侧检验, 拒绝域的形式为 ZZ1- =0.05时, Z1- =1.645(4)检验统计量Z=2.9291.645 , 落入拒绝域,拒绝原假设。(5)结论:甲品牌的顾客满意率比乙品牌的顾客满意率高5%以上。6.比率检验比率检验134134武汉工程职业技术学院统计基本统计量双比率例(蓝书 P168 例题6-3)甲乙两种品牌的手机,访问使用甲品牌的顾客800位,340位满意;访问使用乙品牌的顾客600位,180位满意。问:甲品牌的顾客满意率比乙品牌的顾客满意率高5%以上吗?(=0.05)6.比率检验比率检验135135武汉工程职业技术学院双比率检验和置信区间双比率检验和置信区间 样本样本 X N 样本样本 p1 340 800 0.4250002 180 600 0.300000差值差值 = p (1) - p (2)差值估计差值估计: 0.125差值的差值的 95% 置信下限置信下限: 0.0828883差值差值 = 0.05(与与 0.05) 的检验的检验: Z = 2.93 P 值值 = 0.002结论: P=0.002,拒绝原假设。6.比率检验比率检验136136武汉工程职业技术学院例:(蓝书P142例5-15)考察温度对烧碱产品得率的影响,选择四种不同的温度进行试验,在同一温度下进行了5次试验。显著性水平0.05,判断温度对烧碱产品得率是否有显著影响。ANOVA_单因子.MTW温度0C60657075得率Yij%90959691929396908891979389929489929592886.3 方差分析方差分析137137武汉工程职业技术学院(1)因子:对指标有影响的因素。常用大写字母表示。上例中温度对烧碱产品得率有影响,温度是因子,记为A。(2)水平:在试验中因子所处的状态称为因子的水平。用因子的字母加下标表示。上例中有四个温度,即因子A有4个水平,分别用A1、A2、A3、A4表示。(3)试验条件(处理):在一次试验中,每个因子总取一个特定的水平,若干因子各取一个特定的水平构成的组合称其为一个试验条件。上例中只有一个因子,每一个水平就是一个试验条件。(4)指标:衡量试验条件好坏的量称为指标,用y表示。上例中的烧碱产品的得率即为指标。基本概念基本概念138138武汉工程职业技术学院试验中只有一个因子A,有r个水平,每一水平下进行m次重复试验,结果用yi1、yi2,yim(r=1,2,r表示)。记第i水平下的数据均值为 ,总均值为 。方差分析需要满足三个条件:(1)在水平Ai下, yi1、yi2,yim是来自正态分布N(,2)的一个样本,其中诸i就是要比较的对象。(2)在不同水平下的方差相等。(3)各数据yij相互独立。只要试验次序随机化一般可满足。满足上述三个条件,诸总体均值是否相等的问题归结为一个假设检验问题:单因子方差分析的模型单因子方差分析的模型139139武汉工程职业技术学院单因子方差分析的基本思想单因子方差分析的基本思想(1)平方和分解上述n=rm个数据之间的波动可用总偏差平方和SST表示:(2)因子A的水平不同引起组间偏差平方和:(3)随机误差用组内偏差平方和表示: 可以证明:SST=SSA+SSe140140武汉工程职业技术学院单因子方差分析的基本思想单因子方差分析的基本思想(2)自由度与均方和(平均偏差平方和)上述诸平方和的大小与数据个数有关,需要引入自由度的概念:SST、SSA、SSe的自由度分别用dfT、dfA、dfe表示:在SST的n=rm个偏差中有故SST的自由度为n-1。在SSA的r个偏差中有故SSA的自由度为r-1。在SSe的n=rm个偏差中有r个关系式故SSe的自由度为n-r。将因子或误差的偏差平方和除以自由度称为均方和:MSA=SSA/dfA,MSe=SSe/dfe。141141武汉工程职业技术学院单因子方差分析的基本思想单因子方差分析的基本思想(3)F比与拒绝域当MSA比MSe大很多时,可以认为因子A是显著的。F=MSA/MSe(4)方差分析表手动计算示例 MINITAB实现来源偏差平方和自由度均方和F比因子ASSAdfA=r-1MSA=SSA/dfAF=MSA/MSe误差eSSedfe=n-rMSe=SSe/dfe总计TSSTdfT=n-1142142武汉工程职业技术学院单因子方差分析单因子方差分析单因子方差分析需要具备的条件(非常重要):(1)各水平下的观测值独立;)各水平下的观测值独立;(2)各水平下的观测值服从正态分布;)各水平下的观测值服从正态分布;(3)不同水平下的观测值等方差。)不同水平下的观测值等方差。例(蓝书P142 ANOVA_单因子.mtw)检验方差是否相等。143143武汉工程职业技术学院数据服从正态:Bartletts检验数据非正态连续:Levene检验正态分布检验(图形 概率图多个,可以一次完成多组数据的正态性检验)统计方差分析等方差检验Bartletts检验,p=0.996,不能拒绝原假设结论:四种温度对应得率的方差相等的。5.方差检验方差检验144144武汉工程职业技术学院如果在一个试验中需要同时考虑两个因子A和B,设因子A有r个水平,因子B有s个水平,有n个总体,n=rs个不同的试验条件。例6-16 现有4条生产线生产同一种垫片,为了解不同生产线的垫片的断裂强度有无明显差异,现分别用5种不同的温度进行试验。在假定不同条件下垫片的断裂强度分别服从等方差的正态分布,分别分析不同生产线及不同温度对垫片的断裂强度均值有无显著影响。如果有影响,在什么条件下垫片的断裂强度最大?两因子方差分析两因子方差分析生产线1234断裂强度温度70088.689.595.790.6温度75086.088.086.692.6温度80087.089.188.892.4温度85089.391.993.191.8温度90081.284.085.795.1145145武汉工程职业技术学院1、交互作用的概念在农田试验中,考虑两个因子,每个因子皆为2水平。A:浇水。低水平,水少;高水平,水多。B:施肥。低水平,肥少,高水平,肥多,以产量为响应变量(单位:kg),列表如下: 表 1 可加模型数据表 A B水少水多肥少100120肥多130150两因子方差分析两因子方差分析146146武汉工程职业技术学院主效应:忽略其他因子的影响,因子主效应:忽略其他因子的影响,因子A在高、低两水平对在高、低两水平对Y的影的影响称为因子响称为因子A的主效应。的主效应。不考虑因子B,A处于低水平时的产量平均值为(100+130)/2=115kg,A处于高水平的产量平均值为(120+150)/2=135kg。产量由115kg提高到135kg完全是因子A的作用,称因子A的“主效应”为20kg。不考虑因子A,当因子B(肥料)处于高水平时的效应为(150+130)/2=140kg,当因子B(肥料)处于低水平时的效应为(100+120)/2=110kg ,因子B的主效应为30kg。两因子方差分析两因子方差分析147147武汉工程职业技术学院当因子B(肥料)处于高水平时因子A的效应为150-130=20kg,当因子B(肥料)处于低水平时因子A的效应仍然为130-110=20kg,二者完全相同。 同样,当因子A(水)处于高水平时因子B的效应为150-120= 30kg,当因子A处于低水平时因子B的效应为130-100=30kg,二者也相同。上述情况说明因子A对因子B效应的没有影响,因子B对因子A效应也没有影响,称两因子没有交互作用。绘制两因子交互作用图,则显示两条平行的直线。(数据文件)两因子方差分析两因子方差分析148148武汉工程职业技术学院两因子方差分析两因子方差分析149149武汉工程职业技术学院另一组数据: 表 2 有交互作用数据表 A B水少水多肥少100120肥多130170两因子方差分析两因子方差分析150150武汉工程职业技术学院由于A处于低水平时的产量平均值为(100+130)/2=115kg,A处于高水平时的产量平均值为(120+170)/2=145kg。称因子A的“主效应”为145-115=30kg。同样可以算出因子B的主效应:因子B的主效应=(130+170)/2-(100+120)/2=40kg。当因子B处于高水平时,因子A的主效应为270-230=40kg,当因子B处于低水平时,因子A的主效应为220-20=20kg,二者大不相同。两因子方差分析两因子方差分析151151武汉工程职业技术学院两因子方差分析两因子方差分析152152武汉工程职业技术学院两因子方差分析两因子方差分析无交互作用的双因子方差分析rs-1总和(r-1)(s-1)误差s-1因子Br-1因子AF值均方平方和自由度波动源手工计算 MINITAB计算示例153153武汉工程职业技术学院例,不同城市有关部门完成任务的情况统计如下(TBL_及时率.mtw)列联表的用途很多,多总体比率检验只是列联表应用之一。问:三个城市完成任务的及时率是否有显著差别?城市及时不及时A200100B300100C15090分析:“三个城市完成任务的及时率是否有显著差别”的问题,可以转化为另外一种说法:完成任务的及时情况是否与城市有关?即“完成任务情况”这个因子是否与“城市”这个因子相互独立?所以,多个总体比率是否相等的检验就转化为因子间是否独立的检验。6.4 列联表与卡方检验列联表与卡方检验154154武汉工程职业技术学院城市城市及时及时不及时不及时合计合计A200100300B300100400C15090240合计合计650290940列联表独立性检验原理:(1)建立假设: H0: 因子A与因子B相互独立 H1:因子A与因子B不独立 (2)确定检验统计量: OijO.jOi.n6.4 列联表与卡方检验列联表与卡方检验155155武汉工程职业技术学院 (2)确定检验统计量: 城市及时不及时合计A200(0.22)100 (0.098)300 (0.32)B300(0.29)100 (0.131)400 (0.43)C150(0.18)90 (0.079)240 (0.25)合计650 (0.69)290 (0.31)9406.4 列联表与卡方检验列联表与卡方检验156156武汉工程职业技术学院(2)确定检验统计量: 城市及时不及时合计A200(0.22940=207.45)100 (0.098940=92.55)300 (0.32)B300(0.29940=276.6)100 (0.131940=123.4)400 (0.43)C150(0.18940=165.96)90 (0.079940=74.04)240 (0.25)合计650 (0.69)290 (0.31)9406.4 列联表与卡方检验列联表与卡方检验157157武汉工程职业技术学院(2)确定检验统计量: 6.4 列联表与卡方检验列联表与卡方检验158158武汉工程职业技术学院 (3)确定拒绝域: (4)依据卡方的值是否落入拒绝域或p值是否小于做出结论。 6.4 列联表与卡方检验列联表与卡方检验159159武汉工程职业技术学院(1)建立假设:H0: 因子A与因子B相互独立 H1:因子A与因子B不独立(2)确定检验统计量: (3)显著性水平为的拒绝域 :(4)检验统计量12.2595.99,拒绝原假设。6.4 列联表与卡方检验列联表与卡方检验160160武汉工程职业技术学院47. 为了判断A 车间生产的垫片的变异性是否比B 车间生产的垫片的变异性更小,各抽取25 个垫片后,测量并记录了其厚度的数值,发现两组数据都是正态分布。下面应该进行的是:A 两样本F 检验B 两样本T 检验C 两样本配对差值的T 检验D 两样本Mann-Whitney 秩和检验样题样题161161武汉工程职业技术学院49. 原来本车间生产的钢筋抗拉强度不够高,经六西格玛项目改进后,钢筋抗拉强度似有提高。为了检验钢筋抗拉强度改进后是否确有提高,改进前抽取8 根钢筋,改进后抽取10 根钢筋,记录了他们的抗拉强度。希望检验两种钢筋的抗拉强度平均值是否有显著差异。经检验,这两组数据都符合正态分布。在检查两样本的方差是否相等及均值是否相等时,用计算机计算得到下列结果。样题样题162162武汉工程职业技术学院57为了研究全国主要城市银行对第二套住房发放贷款宽严程度是否相同。调查了北京、上海和深圳三个城市的黄金商业区的四大银行贷款综合情况,记录了申请总数、批准数和未批准数:城市申请总数批准数未准数北京23640196上海23052178深圳19767130总计663159504样题样题163163武汉工程职业技术学院 批准数 未准数合计1 40 196236 56.60179.40 4.8671.535252178230 55.16174.84 0.1810.057367130197 47.24149.76 8.2612.606合计 318 1008 1326卡方 = 17.508, DF = 3, P 值 = 0.001基于该结果,正确的解释是:A三城市的银行对第二套住房发放贷款宽严程度没有什么不同B三城市的银行对第二套住房发放贷款宽严程度显著不同C该问题自由度太小,得不出结论D以上都不对样题样题164164武汉工程职业技术学院47众所周知,驾龄不到3年的司机发生重大交通事故的比率是很高的。从M市保险公司交强险的统计部门获得2009年的如下信息(小事故及协调处理的事故未列其中):将驾龄按“小于3年”、“3年至10年”、“10年以上”分为三类(C1),将司机总人数(C3),出过事故的司机数(C2)分别统计,补充计算得出“无事故司机数(C4)”及“出事故的司机比率(C5)”。粗略统计可以看出,驾龄小于3年的司机人数大约占总司机数的20%,但事故数占45%左右,驾龄小于3年的司机的事故率显著高于后两种驾龄的司机。如何用统计分析方法确认不同驾龄的事故发生比率有显著的不同呢?样题样题165165武汉工程职业技术学院正确的方法是:A将C2及C3两列数据放入卡方检验表,进行卡方检验B将C2及C4两列数据放入卡方检验表,进行卡方检验C将C2及C5两列数据放入卡方检验表,进行卡方检验D将C3及C3两列数据放入卡方检验表,进行卡方检验样题样题166166武汉工程职业技术学院6.5 非参数检验非参数检验参数检验1、寻找数据不独立的因素。2、样本量大时,采用时间序列分析。非参数检验数据独立 数据不独立正态分布非正态分布167167武汉工程职业技术学院参数检验非参数检验均值检验比率检验正态性检验方差检验游程检验秩和检验符号检验假假设设检检验验符号秩检验若数据服从正态分布,则参数检验和非参数检验均可使用,但非参数检验的检出力比参数检验的小。6.5 非参数检验非参数检验168168武汉工程职业技术学院1.符号检验法符号检验法例1:现有两款手机,价格及功能基本相同,但设计外形不同。经抽样调查,发现在12人中,喜欢A的有2人,喜欢B的有10人,问喜欢两种品牌的人数有显著差别吗?1、小样本情况分析:设喜欢A的比率为p。 H0:p=0.5 H1:p0.5n30单比率检验使用的是大样本近似正态的分析方法。169169武汉工程职业技术学院(1)小样本情况(n30)记喜欢A的为“”,喜欢B的为“”。()号的个数服从p=0.5的二项分布。例1:现有两款手机,价格及功能基本相同,但设计外形不同。经抽样调查,发现在12人中,喜欢A的有2人,喜欢B的有10人,问喜欢两种品牌的人数有显著差别吗?符号化1.符号检验法符号检验法170170武汉工程职业技术学院正号个数概率正号个数概率01234560.00020.00290.01610.05370.12080.19340.22567891011120.19340.12080.05370.01610.00290.0002n=12,p=0.5的二项分布0 1 2 3 4 5 6 7 8 9 10 11 120.200.10正号个数概率取0.05拒绝法则:若正号的个数小于3或大于9,则拒绝原假设。1.符号检验法符号检验法171171武汉工程职业技术学院1、建立假设: H0:p+=0.5 H1:p+0.52、计算n+和n-的个数;3、令s=minn+,n-4、查表(红书P558/蓝书P570)得下临界值s;5、当ss时,拒绝原假设。小结:符号检验法的解题步骤1.符号检验法符号检验法172172武汉工程职业技术学院1、建立假设: H0:p+=0.5 H1:p+0.52、上例中n+=2和n-=10的个数;3、令s=minn+,n-,则s=24、查表(红书P558/蓝书P570)n=12,取0.05,查表得下临界值s=2;5、s=s=2,拒绝原假设,即认为喜欢A的人数与喜欢B的人数显著不同。小结:符号检验法的解题步骤1.符号检验法符号检验法173173武汉工程职业技术学院例2:现有两款手机,价格及功能基本相同,但设计外形不同。经抽样调查,发现在100人中,喜欢A的有20人,喜欢B的有80人,问喜欢两种品牌的人数有显著差别吗?(2)大样本情况分析:加号个数的抽样分布可以用正态分布来近似。喜欢A的人数服从p=0.5的二项分布1.符号检验法符号检验法174174武汉工程职业技术学院(2)大样本情况可以用正态分布近似,手动计算步骤如下:结论:拒绝原假设,即认为喜欢A手机的人数与喜欢B手机的人数显著不同。1.符号检验法符号检验法175175武汉工程职业技术学院(2)大样本情况MINITAB计算如下:1.符号检验法符号检验法176176武汉工程职业技术学院(2)大样本情况MINITAB计算如下:结果:单比率检验和置信区间单比率检验和置信区间 p = 0.5 与 p 0.5 的检验样本 X N 样本 p 95% 置信区间 精确 P 值 1 20 100 0.200000 (0.126656, 0.291843) 0.0001.符号检验法符号检验法177177武汉工程职业技术学院例3:抽查面粉的装包重量,抽查了16包,其观测值如下表所示,试检验平均重量与原来设定的20kg是否有显著差别?(3)中位数符号检验法20.2119.9520.1520.0719.9119.9920.0820.1619.9920.1620.0919.9720.0520.2719.9620.06中位数符号检验法的基本思想是:样本中高于中位数的用+表示,低于中位数的用-表示,等于中位数不计入。全部+和-的和即为样本量n,根据n查附表8(红书p558),得下临界值S,如果出现S=min(n+,n-) S的情况,则拒绝原假设。1.符号检验法符号检验法178178武汉工程职业技术学院(3)中位数符号检验法H0:m=20 H1:m2020.2119.9520.1520.0719.9119.9920.0820.16+-+-+19.9920.1620.0919.9720.0520.2719.9620.06-+-+-+共10个+号,6个减号,共16个数据,查附表8,得S=3(=0.05),由于S=min(n+,n-)=6S,所以不能拒绝原假设,即认为面粉的平均重量与原来设定的20kg没有显著差别。1.符号检验法符号检验法179179武汉工程职业技术学院(3)中位数符号检验法MINITAB计算如下:统计非参数单样本符号结论:面粉的平均重量与原来设定的20kg没有显著差别。中位数的符号检验中位数的符号检验: 面粉重量面粉重量 中位数 = 20.00 与 20.00 的符号检验 N 下方 相等 上方 P 中位数面粉重量 16 6 0 10 0.4545 20.061.符号检验法符号检验法180180武汉工程职业技术学院注意:本例中应首先对数据进行独立性和正态性检验。经检验,数据独立且服从正态分布,此时应优先考虑采用参数检验方法,即用单样本t检验(总体标准差未知)。单样本t检验结果如下:单样本单样本 T: C9 mu = 20 与 20 的检验 平均值变量 N 平均值 标准差 标准误 95% 置信区间 T P C9 16 20.0669 0.1026 0.0257 (20.0122, 20.1216) 2.61 0.020结论:P=0.02 T2=95,或B组数据秩和为48非参数Mann-WhitenyMann-Whitney 检验和置信区间检验和置信区间: A组寿组寿命命, B组寿命组寿命 N 中位数A组寿命 10 7.150B组寿命 8 4.800ETA1-ETA2 的点估计为 2.300ETA1-ETA2 的 95.4 置信区间为 (0.900,6.601)W = 123.0在 0.0145 上,ETA1 = ETA2 与 ETA1 ETA2 的检验结果显著P=0.0145,拒绝原假设,认为两组数据均值有显著差异。2.秩和检验法及秩和检验法及Mann-Whitney检验法检验法188188武汉工程职业技术学院Wilcoxon符号秩检验法是对单样本中位数(或均值)的检验,但基本思想与双总体均值相等性检验的非参数检验方法Mann-Whitney检验法类似,也是要求秩和,然后根据秩和进行判断。1、将数据从小到大排序;2、用每一个数据减去中位数得到差值;3、对所有差值分别取绝对值;4、对差值的绝对值排秩;5、分别计算低于中位数的数据差值绝对值的秩和与高于中位数的数据差值绝对值秩和;6、取n1=min(n+,n-),n2=max( n+,n-),查附表9,得下界T1和上界T2;7、若秩和小于等于下界或大于等于上界,则拒绝原假设。3.单样本单样本Wilcoxon符号秩检验法符号秩检验法189189武汉工程职业技术学院例5:装配车间每日完成记录仪的台数如表所示,车间主任宣称他们平均产量已超过35台,能确认他的说法吗?日期123456789101112产量323839334032413438403942步骤一:建立假设H0:m=35 H1:m35步骤二:用每日产量分别减去35,计算差值。产量323839334032413438403942差值-334-25-36-13547绝对值334253613547排秩4.54.57.529.54.51114.59.57.5123.单样本单样本Wilcoxon符号秩检验法符号秩检验法190190武汉工程职业技术学院3.单样本单样本Wilcoxon符号秩检验法符号秩检验法步骤三:分别计算小于中位数35的数据差值绝对值的秩和与大于中位数35的数据差值绝对值的秩和。产量323839334032413438403942差值-334-25-36-13547绝对值334253613547排秩4.54.57.529.54.51114.59.57.512小于中位数小于中位数35的数据差值绝对值的秩和的数据差值绝对值的秩和=4.5+2+4.5+1=12大于中位数大于中位数35的数据差值绝对值的秩和的数据差值绝对值的秩和=4.5+7.5+9.5+11+4.5+9.5+7.5+12=66。191191武汉工程职业技术学院步骤四:低于中位数35的数据个数为4个,高于中位数35的数据个数为8个,取n1=4,n2=8,查附表9(=0.05),得T1=16,T2=36,由于低于中位数的数据的秩和为12,高于中位数的数据的秩和为66,所以拒绝原假设,认为日产量确实已经超过35台。MINITAN计算如下:统计非参数单样本WilcoxonWilcoxon 符号秩检验: 日产量 中位数 = 35.00 与中位数 35.00 的检验 Wilcoxon 估计中 N 检验 N 统计量 P 位数日产量 12 12 66.0 0.019 37.25P=0.038,拒绝原假设,即认为日产量确实已经超过35台3.单样本单样本Wilcoxon符号秩检验法符号秩检验法192192武汉工程职业技术学院本例也可以使用单样本符号检验法。中位数的符号检验中位数的符号检验: 日产量日产量 中位数中位数 = 35.00 与与 35.00 的符号检验的符号检验 N 下方下方 相等相等 上方上方 P 中位数中位数日产量日产量 12 4 0 8 0.1938 38.50 采用单样本符号方法检验,P=0.1938,则不能拒绝原假设,即认为日产量没有明显超过35台。从上述比较中可以看出,单样本Wilcoxon符号秩检验法利用的样本信息比单样本符号检验法要多,所以检出力更强。3.单样本单样本Wilcoxon符号秩检验法符号秩检验法193193武汉工程职业技术学院4.多样本均值相等性检验多样本均值相等性检验(1)Kruskal-Wallis检验法(2)Mood中位数检验法(3)Friedman检验法194194武汉工程职业技术学院(1) Kruskal-Wallis检验法原理:将多组样本数据混合在一起,求出各数据在整个数据集中的秩,再按各组分别求出秩和,比较各组的秩和是否差别很大来判断多样本中心位置是否有显著差异。例6:某轧钢车间对四种不同供应商提供的原材料轧出来钢板进行断裂强度测试,各种原材料所抽取的样本量不全相等。试检验四组不同原料生产的钢板之间平均断裂强度是否有显著差异?(NP_四组钢板.MTW)如果四组数据独立、正态且等方差,可用参数检验方法中的方差分析。但断裂强度_D不符合正态分布,只能采用非参数检验方法。4.多样本均值相等性检验多样本均值相等性检验195195武汉工程职业技术学院(1) Kruskal-Wallis检验法统计非参数 Kruskal-WallisKruskal-Wallis 检验检验: 断裂强度断裂强度 与与 材料材料 在 断裂强度 上的 Kruskal-Wallis 检验材料 N 中位数 平均秩 ZA 16 1865 42.6 2.86B 18 1803 25.2 -1.76C 11 1842 31.1 -0.07D 17 1780 28.0 -0.95整体 62 31.5H = 8.90 DF = 3 P = 0.031H = 8.91 DF = 3 P = 0.031(已对结调整)P=0.031,拒绝原假设,认为四组数据均值有显著差异。(对结的解释见红书P219)4.多样本均值相等性检验多样本均值相等性检验196196武汉工程职业技术学院Kruskal-Wallis检验法优点:相当于秩和检验,灵敏度高,样本量不必很大;缺点:易受异常观测值影响。4.多样本均值相等性检验多样本均值相等性检验197197武汉工程职业技术学院(2) Mood中位数检验法原理将各组样本数据全部混合起来,求出整个数据集合的中位数M,然后对于各组数据计算出“观测值比M大”的个数和“观测值比M小”的个数,将这些数据汇总起来得到一个列联表。对列联表进行卡方检验,就可以断言各组的中心位置是否有显著差别。优点:对异常观测值不敏感,有异常观测值时建议使用次 方法。缺点:相当于符号检验,灵敏度低,样本量大;4.多样本均值相等性检验多样本均值相等性检验198198武汉工程职业技术学院A组B组C组D组18471744203217441813184318781712195518571842178019041882189617321846177117212073185418581735175218981826184318471838177418192013186718441550199918531684179217471833170820311789189718551922190618031768194417121726186317461729191219291803180319781777小于等于M大于MA组B组C组D组总体中位数M18433 1311 66 511 74.多样本均值相等性检验多样本均值相等性检验199199武汉工程职业技术学院MINITAB计算如下:Mood 中位数检验中位数检验: 断裂强度断裂强度 与与 材料材料 断裂强度 的 Mood 中位数检验卡方 = 8.70 DF = 3 P = 0.034 单组 95.0% 置信区间材料 N 中位数 Q3-Q1 -+-+-+-+-A 3 13 1865 59 (-*-)B 11 7 1803 110 (-*-)C 6 5 1842 161 (-*-)D 11 6 1780 212 (-*-) -+-+-+-+- 1740 1800 1860 1920整体中位数 = 18434.多样本均值相等性检验多样本均值相等性检验200200武汉工程职业技术学院5.数据独立性检验数据独立性检验数据间相互独立是指连续观测的一些数据之间,后面的数据不受前面数据的影响。方法链检验法,也称游程检验法。以均值(或中位数)为分界值:+-+-+-接连相同的符号组成的一串相同字符称为一个“链”。负号链3个正号链3个201201武汉工程职业技术学院1、建立假设H0:数据是相互独立的 H1 :数据不是相互独立的2、计算链的个数上例中有3个负号链和3个正号链,共6个链。3、计算+和-号的个数上例中低于均值的数据有7个(负号的个数),高于均值的数据有7个(正号)的个数。4、查附表10,从左上角(=0.05,双侧检验)表中得临界值为3,从右上角表中得13,总链数为6,没有落入拒绝域,不能拒绝原假设,说明数据独立。5.数据独立性检验数据独立性检验202202武汉工程职业技术学院在MINITAB中检验数据独立性的方法有两种:1、统计质量工具运行图18471813195519041846185418981838186718531833189719061944186319125.数据独立性检验数据独立性检验203203武汉工程职业技术学院4个P值全大于等于0.05,说明数据独立。5.数据独立性检验数据独立性检验204204武汉工程职业技术学院在MINITAB中检验数据独立性的方法有两种:1、统计非参数游程检验18471813195519041846185418981838186718531833189719061944186319125.数据独立性检验数据独立性检验205205武汉工程职业技术学院游程检验游程检验: 断裂强度断裂强度_A 断裂强度_A 游程检验游程高于及低于的分界值 K = 1876.88观测到的总游程数 = 8期望的总游程数 = 8.8757 个观测值高于 K, 9个低于* N 值太小,因此下列近似值可能无效。P 值 = 0.645P=0.645,数据独立。5.数据独立性检验数据独立性检验206206武汉工程职业技术学院假设检验方法应用分类假设检验方法应用分类 medianmedian1-1-stdstd1-1-sampleZsampleZ 已知1-1-sampleTsampleT 未知 的 CICI 1-Variance1-Variance1-1-proportionproportionNP-1-signNP-1-signNP-1-Signed NP-1-Signed Rank WilcoxonRank Wilcoxon1-11-12-2-sampleTsampleT2 variances2 variancesF-test ( Normal)Levenes test (任意分布)2-2-proportionproportionNP-NP-Mann-WhitneyMann-WhitneymultiplemultipleANOVAANOVAF-test( )%WelchsANOVAANOVA- -等方差等方差2 variances2 variancesBartlett (Normal)=0.01Levenes test (任意分布)Chi-SqrTestChi-SqrTest列联表Tables-Cross Tabulation (原始数据)Tables-Chi-sq Test (摘要数据)NP- NP- Kruskal WallisKruskal WallisNP- NP- MoodMood MedianMedianV207207武汉工程职业技术学院Two-sample T for strength_After vs strength_Before N Mean StDev SE Meanstrength_After 10 531.45 9.84 3.1strength_Before 8 522.44 5.88 2.1Difference = mu (strength_After) - mu (strength_Before)Estimate for difference: 9.0125095% lower bound for difference: 2.10405T-Test of difference = 0 (vs ): T-Value = 2.28 P-Value = 0.018 DF = 16A. 改进后平均抗拉强度有提高,但抗拉强度的波动也增加了。B. 改进后平均抗拉强度有提高,但抗拉强度的波动未变。C. 改进后平均抗拉强度无提高,但抗拉强度的波动增加了。D.改进后平均抗拉强度无提高,抗拉强度的波动也未变。样题样题208208武汉工程职业技术学院6.6 相关分析和回归分析相关分析和回归分析变量之间的关系通常有两种类型:一种类型是变量之间的关系是确定的,可用某种函数来表达。另一种类型是变量之间是某种不确定的关系,称之为相关关系。在变量存在相关关系时,一种情况是变量都是随机变量,彼此间地位相同,任一个变量既可以做因变量也可以做自变量;另一种情况是某些变量是可以测量和控制的非随机变量,称之为自变量,另一个变量是随机变量,是因变量,二者地位不同,不能互换。相关分析主要用来衡量变量之间线性相关的密切程度衡量变量之间线性相关的密切程度,回归分析则定量给出变量间变化规律定量给出变量间变化规律,可以提供变量相关关系的经验公式,且可以判明所建立的回归方程的有效性。多元回归还可以判断出哪些是重要的变量,哪些是次要的变量。209209武汉工程职业技术学院6.6.1 相关分析相关分析相关分析就是对两个变量之间线性关系的描述和度量。相关分析就是对两个变量之间线性关系的描述和度量。(1)变量之间是否存在关系?(2)如果存在关系,它们之间是什么样的关系?(3)变量之间的关系强度如何?(4)样本所反映的变量之间的关系能否代表总体变量之间的关系?两个假定:(1)两个变量之间是线性关系(2)两个变量都是随机变量210210武汉工程职业技术学院6.6.1 相关分析相关分析1、绘制散点图获得两个连续变量之间关系的大体印象;2、通过求解相关系数说明两个变量相关程度。例(蓝书P256例9-1):某市场分析员进行了一项研究,分析某地区居民的每月家庭消费支出y与每月家庭收入x之间的关系。现从该地区随机抽取了16个家庭组成一个样本。试判定该地区居民的每月家庭消费支出y与每月家庭收入x是否相关?如果相关,那么相关系数是多少?并在显著性水平为0.05时,给出y与x的一元线性回归方程,判定方程是否有效?当家庭收入为8000元时,预测消费支出y的大致范围。(数据文件:REG_收入与支出.MTW)。211211武汉工程职业技术学院相关系数(相关系数(Pearson相关系数)相关系数)相关系数是用来描述两个变量线性相关程度的一种度量。若相关系数是根据总体数据计算得到的,称为总体相关系数,记为;若相关系数是根据样本数据得到的,称为样本相关系数,记为r。设(x1,y1)(xn,yn)为抽样得到的来自两个总体的配对随机样本数据,则相关系数定义为:212212武汉工程职业技术学院相关系数(相关系数(Pearson相关系数)相关系数)对r的几点说明:(1)r的取值范围在-1+1之间,|r|=1,两变量为函数关系,r=0,说明二者不存在线性相关关系;(2)r具有对称性;(3)r数值大小与x和y的原点及尺度无关;(4)r仅仅是x与y之间线性关系的一个度量,不能用于描述非线性关系;(5)r虽然是两个变量之间线性关系的一个度量,却并不一定意味着x与y一定有因果关系。213213武汉工程职业技术学院相关系数(相关系数(Pearson相关系数)相关系数)相关系数r取值不同的x,y相关散点图:r=1r=-1214214武汉工程职业技术学院相关系数(相关系数(Pearson相关系数)相关系数)相关系数r取值不同的x,y相关散点图:r=0.8r=-0.8215215武汉工程职业技术学院相关系数(相关系数(Pearson相关系数)相关系数)相关系数r取值不同的x,y相关散点图:r=0.4r=-0.4216216武汉工程职业技术学院相关系数(相关系数(Pearson相关系数)相关系数)相关系数r取值不同的x,y相关散点图:r=0r=0217217武汉工程职业技术学院相关系数(相关系数(Pearson相关系数)相关系数)相关系数r的假设检验步骤:(1)建立假设:假定变量总体相关系数为,则:(2)确定检验统计量及在原假设成立条件下的分布:218218武汉工程职业技术学院相关系数(相关系数(Pearson相关系数)相关系数)(3)拒绝域分别为:例9-1红书P562(蓝书P574)附表12给出了|r|的临界值r。如果实际计算的|r| r ,则拒绝原假设。MINITAB实现219219武汉工程职业技术学院相关系数(相关系数(Pearson相关系数)相关系数)多个变量间的相关系数矩阵:例:(蓝书P288例9-5)某种水泥在凝固时放出的热量与水泥中4种化学成分物质x1,x2,x3,x4的含量有关。现记录了13组数据,试分析四种化学成分之间的相关性。(数据文件:REG_Hald数据.MTW)(1)绘制多变量矩阵图图形矩阵图(2)多变量相关性分析统计基本统计量相关220220武汉工程职业技术学院6.6.2 一元线性回归模型一元线性回归模型1、一元线性回归方程的建立自变量:在回归分析中,用来预测或用来解释变量的一个或多个变量,称为自变量,用x表示。因变量:在回归模型中,被预测或被解释的变量,用y表示。回归模型:描述因变量y如何依赖自变量x和误差项的方程,称为回归模型。只涉及一个自变量的一元线性回归模型。221221武汉工程职业技术学院6.6.2 一元线性回归模型一元线性回归模型假定:(1)自变量x视为非随机变量; (2)当自变量x取某特定值时,对应的y值服从正态分布,且对于不同的自变量x值是等方差的; (3)回归方程实际上是自变量x取值与随机变量y的均值之间的关系式,称为总体的回归直线方程,如下图所示:xyx1x2xn12n222222武汉工程职业技术学院6.6.2 一元线性回归模型一元线性回归模型总体的回归直线方程可表示为:223223武汉工程职业技术学院实际观测值yi与拟合值 的差异称为残差,用ei表示。残差的主要用途:(1)残差分析。(2)确定评估最佳拟合直线的准则。使残差平方和最小作为最佳拟合直线的评价准则,称为最小二乘法。6.6.2 一元线性回归模型一元线性回归模型224224武汉工程职业技术学院通过最小二乘法得到的回归方程 具有如下性质:6.6.2 一元线性回归模型一元线性回归模型回归系数具有如下性质:(1)斜率b是1的无偏估计量,服从正态分布。即(2)截距a是0的无偏估计量,服从正态分布。即225225武汉工程职业技术学院6.6.2 一元线性回归模型一元线性回归模型例9-1MINITAB实现方法:方法一:统计回归回归方法二:统计回归拟合线图226226武汉工程职业技术学院6.6.2 一元线性回归模型一元线性回归模型回归方程拟合出来以后,需要进行统计分析以解决以下四个问题:1、给出回归方程的显著性检验,从总体上判断回归方程是否有效;2、给出回归方程总效果好坏的度量标准;3、当回归方程效果显著时,进行各个回归系数的显著性检验,判定回归方程中哪些自变量是显著的,哪些自变量是不显著的,将效应不显著的自变量删除,以优化模型;4、残差诊断检验数据是否符合对于回归的基本假定,检验整个回归模型与数据拟合得是否很好,是否能进一步改进回归方程以优化模型。227227武汉工程职业技术学院一元线性回归显著性检验一元线性回归显著性检验H0:模型无意义 H1:模型有显著意义XY228228武汉工程职业技术学院一元线性回归显著性检验一元线性回归显著性检验H0:模型无意义 H1:模型有显著意义229229武汉工程职业技术学院一元线性回归显著性检验一元线性回归显著性检验230230武汉工程职业技术学院一元线性回归显著性检验一元线性回归显著性检验来源偏差平方和自由度均方和F比回归SSRdfR=1MSR=SSR/dfRF=MSR/MSE残差SSEdfE=n-2MSE=SSE/dfE总计TSST=SSR+SSEdfT=n-1简单线性回归的方差分析表231231武汉工程职业技术学院一元线性回归显著性检验一元线性回归显著性检验例9-1 回归方程的显著性检验232232武汉工程职业技术学院一元线性回归方程总效果度量一元线性回归方程总效果度量R2衡量回归方程解释观测数据变异的能力,数值越接近1代表模型拟合得越好。在简单线性回归中,当只有一个自变量时, R2就是样本相关系数的平方。当多一个自变量加入模型时,不管这个变量影响是否显著不管这个变量影响是否显著, R2会增大,从R2增大看不出新增加的自变量是否有意义。应用去修正R2:R2与 差距小,说明模型拟合效果好。 233233武汉工程职业技术学院残差标准差是从观察值与拟合回归线的平均偏离程度来度量回归效果。由于正态分布均值加减2倍标准差将包含大约95%的数据,因此,以回归线为中心,上下各距离2倍s为距离画出平行线区域将包含大约95%数据。一元线性回归方程总效果度量一元线性回归方程总效果度量例:残差标准差S大小的解释234234武汉工程职业技术学院一元线性回归方程回归系数显著性检验一元线性回归方程回归系数显著性检验只有一个自变量时,ANOVA中的F检验与t检验的结果完全等价。当自变量不止一个时,F检验是对回归总效果的检验,检验是分别对每个自变量的显著性检验。235235武汉工程职业技术学院回归方程的残差诊断回归方程的残差诊断例:(蓝书例:(蓝书P270P270例例9-29-2)。)。REG_ _残差分析残差分析.MTW.MTW236236武汉工程职业技术学院回归方程的残差诊断回归方程的残差诊断例:(蓝书P270例9-2)。REG_残差分析.MTW回归方程P值SR-SqR-Sq(调整)Y1 = 3.000 + 0.5001 X10.0021.2366066.7%62.9%Y2 = 3.001 + 0.5000 X20.0021.2372166.6%62.9%Y3 = 3.002 + 0.4997 X30.0021.2363166.6%62.9%Y4 = 3.002 + 0.4999 X40.0021.2357066.7%63%237237武汉工程职业技术学院回归方程的残差诊断回归方程的残差诊断例:(蓝书P270例9-2)。238238武汉工程职业技术学院例:(蓝书P270例9-2)。REG_残差分析.mtw回归方程的残差诊断回归方程的残差诊断239239武汉工程职业技术学院回归方程的残差诊断回归方程的残差诊断回归模型必须进行残差诊断。残差应满足以下假定:(1)具有时间独立性;(2)来自稳定受控总体;(3)对输入因子的所有水平有相等的总体方差;(4)符合正态分布eiN(0,2),i=1,2,n。240240武汉工程职业技术学院回归方程的残差诊断回归方程的残差诊断残差诊断主要使用图形的方法,有四种图形:(1)残差对于观测值顺序的散点图:以残差为纵轴,以时间T为横轴;(2)残差对于拟合值的散点图:以残差为纵轴,以拟合值为横轴;(3)残差的正态概率图:在正态概率纸上,以累积百分比为纵轴,以残差为横轴;(4)残差对于各自变量的散点图:以残差为纵轴,以各自变量为横轴。241241武汉工程职业技术学院常见残差图类型:(1)(2)(3)(4)回归方程的残差诊断回归方程的残差诊断242242武汉工程职业技术学院回归方程的残差诊断回归方程的残差诊断例9-1 残差图分析:(1)残差与观测值:观察残差对于以观测值顺序为横轴的散点图,重点考察图中残差值是否随机地在水平轴上下无规则地波动着。若是随机波动,说明残差值间是相互独立的。(2)残差与拟合值:重点考察图中残差是否保持着等方差性,是否有“漏斗型”或“喇叭型”。若有“漏斗型”或“喇叭型”出现,则应对相应变量y做某种变换。(3)正态概率图:观察残差是否符合正态分布。(4)看残差对于以各自变量为横轴的散点图:考察图中残差是否有弯曲趋势。若有弯曲趋势,则应增加高次项。243243武汉工程职业技术学院回归方程的残差诊断回归方程的残差诊断三种残差形式:(1)正规残差与y量纲一致,很难断定某点处的残差绝对值是否偏大。(2)标准化残差考虑自变量观测值到自变量平均值之间的距离等因素得到,可近似看成是相互独立的服从标准正态分布的随机变量,绝对值一般不超过2。(3)删后残差在全部数据中删除本数据而保留其他数据进行回归时对本观测值得到的残差。在假定模型已经 正确的条件下,观察每个单一观测值对于模型的作用及影响。REG_收入与支出.mtw的残差。244244武汉工程职业技术学院利用回归方程进行预测利用回归方程进行预测1、预测x=x0时因变量y的平均响应(置信区间)以点估计值a+bx0为基础的平均响应的1-置信区间为:245245武汉工程职业技术学院利用回归方程进行预测利用回归方程进行预测2、预测x=x0时因变量y的个别响应(预测区间)个别相应可看做平均响应再加上随机误差,在原来平均值的周围以为标准差所形成的波动。246246武汉工程职业技术学院利用回归方程进行预测利用回归方程进行预测3、预测x=x0时因变量y的个别响应近似公式当x离xbar不太远且n较大时,可得到y的1-的近似预测区间:247247武汉工程职业技术学院利用回归方程进行预测利用回归方程进行预测例9-1 当家庭收入x=80(百元)时,预测消费支出y。(1)以点估计预测x=80(百元)时,因变量y的平均响应。(2)以置信区间预测x=80(百元)时,因变量y的个别响应。248248武汉工程职业技术学院多元线性回归多元线性回归1、多元线性回归的一般方法例:(蓝书P278例9-3)某手机厂研究如何提高线路板焊接制程的拉拔力问题。根据过去的经验知道,拉拔力可能与烘烤温度、烘烤时间和涂抹的焊膏量有关,先从制程中收集了20批数据,试建立拉拔力与各因素的回归模型。(数据文件:REG_拉拔力.MTW)如果发现在残差对预测值的残差图中出现了喇叭口或弯曲的情况,可使用宏指令%boxcoxregres进行判断是否需要对y进行变换。其使用规则是:(1)所有自变量连续存放,第一个自变量左侧有一列全为1的常数;(2)格式为:%boxcoxregres Y x1-xn249249武汉工程职业技术学院多元线性回归多元线性回归修改模型:回归方程为 拉拔力 = 10.0 + 0.247 温度 + 4.44 焊膏量自变量 系数 系数标准误 T P常量 10.041 5.700 1.76 0.096温度 0.24656 0.04621 5.34 0.000焊膏量 4.4406 0.3204 13.86 0.000S = 1.13357 R-Sq = 94.5% R-Sq(调整) = 93.8%方差分析来源 自由度 SS MS F P回归 2 372.83 186.41 145.07 0.000残差误差 17 21.84 1.28合计 19 394.67来源 自由度 Seq SS温度 1 126.02焊膏量 1 246.80250250武汉工程职业技术学院多元线性回归分析的改进模型方法多元线性回归分析的改进模型方法例:(蓝书P285例9-4)在制冷过程中,氨气量非常重要。历史经验表明,氨气的损失量可能与反应过程中的气流、水温及酸浓度有关。现希望求得氨损失量对于气流、水温及酸浓度间的回归方程。REG_氨损失量.MTW251251武汉工程职业技术学院多元线性回归分析的改进模型方法多元线性回归分析的改进模型方法残差与拟合值出现喇叭口现象。调用宏指令命令:%boxcoxregres c6 c2-c5在=1时,曲线落在水平虚线上方,需要进行变换。取=0.5252252武汉工程职业技术学院多元线性回归分析的改进模型方法多元线性回归分析的改进模型方法253253武汉工程职业技术学院多元线性回归分析的自变量筛选多元线性回归分析的自变量筛选例:(蓝书P288例9-5)某种水泥在凝固时放出的热量y(卡/克)与水泥中的4中化学成分物质x1、x2、x3、x4的含量有关。现记录了13组数据,试建立热量y与化学成分间的回归模型。REG_Hald数据.MTW自变量 系数 系数标准误 T P 方差膨胀因子常量 62.41 70.07 0.89 0.399x1 1.5511 0.7448 2.08 0.071 38.496x2 0.5102 0.7238 0.70 0.501 254.423x3 0.1019 0.7547 0.14 0.896 46.868x4 -0.1441 0.7091 -0.20 0.844 282.513S = 2.44601 R-Sq = 98.2% R-Sq(调整) = 97.4%方差分析来源 自由度 SS MS F P回归 4 2667.90 666.97 111.48 0.000残差误差 8 47.86 5.98254254武汉工程职业技术学院多元线性回归分析的自变量筛选多元线性回归分析的自变量筛选处理方法:(1)逐个删除变量(2)根据变量之间的相关关系确定删除的变量(3)多变量变量聚类255255武汉工程职业技术学院多元线性回归分析的自变量筛选多元线性回归分析的自变量筛选逐步回归(1)向前选择法:先选入对y影响最大者(P值最小者),再从其余自变量中寻找影响次最大者,直到无任何变量p值小于指定的选入值。(2)向后选择法:开始引入全部自变量,从p值最大的变量开始逐个删除,直到不能删除为止。(3)逐步(向前和向后):自变量逐个引入,边引入边检查已引入自变量中最大的p值是否已大于指定的删除值,若大于指定的删除值,则从模型中删除该项,在重复上述过程,直到不能再引入也不能再删除自变量为止。256256武汉工程职业技术学院多元线性回归分析的自变量筛选多元线性回归分析的自变量筛选最佳子集把所有可能自变量的子集进行回归的结果都列出来供选择。选择的依据是:R-Sq, R-Sq(调整)越大且二者越接近越好,Cp越接近参数个数(包括常数项)越好,s值越小越好。257257武汉工程职业技术学院补充内容补充内容变异源分析258258武汉工程职业技术学院知识大纲知识大纲VI.六西格玛改进方法和工具分析(18)A.探测性数据分析1.多变量研究使用多变量研究解释位置型、周期型和时序型变量;设计调查最大波动源的抽样计划;建立并解释多变量图。(应用)2.测量并建立变量间的关系模型1)一元和多元最小二乘线性回归:计算回归方程、应用并解释回归统计量的假设检验;使用回归模型进行估计和预测;分析估计中的不确定性(带有非线性参数的模型不包括在考试范围中)。(评估)2)一元线性相关性:计算和解释相关系数和它的置信区间;应用并解释相关系系数的假设检验;理解相关性和因果关系之间的区别(连环相关性不包括在考试范围内)。(评估)3)诊断、分析变量间的关系模型中的残差。(分析)259259武汉工程职业技术学院知识大纲知识大纲B.假设检验1.假设检验的基本概念1)统计的与实际的显著性定义,比较并对比统计的和实际的显著性。(评估)2)显著性水平、检出力、第一类错误和第二类错误应用和解释统计检验的显著性水平,检出力,第一类错误和第二类错误。(评估)3)样本量理解怎样计算一个给定的假设检验的样本量。(应用)2.点估计和区间估计定义和解释估计量的系数和偏移;从统计数据中计算、解释并得出结论,如标准差、容差区间、置信区间;理解置信区间和预测区间之间的区别。(分析)260260武汉工程职业技术学院知识大纲知识大纲3.均值、方差和比率检验应用关于均值、方差和比率的假设检验,并解释得出的结果。(评估)4.成对检验定义、确定可应用类型,并应用成对数据对参数进行假设检验。(评估)5.拟合检验定义、确定可应用类,应用卡方检验并解释结果。(评估)6.方差分析定义、确定可应用类型,应用方差分析解释得出的结果。(评估)261261武汉工程职业技术学院知识大纲知识大纲7.列联表(Contingency Table)定义、确定可应用类型,并构建可能因素表,用它来确定统计显著性。(评估)8.非参数检验定义、确定可应用类型,并构建各种非参数检验,包括Moods Median、Levenes检验、Kruskal-wallis、Menn-Whitney等。(分析)262262武汉工程职业技术学院样题样题24 美国工程师的项目报告中提到,在生产过程中,当华氏度介于(70,90)之间时,产量获得率(以百分比计算)与温度(以华氏度为单位)密切相关(相关系数为0.9),而且得到了回归方程如下:Y = 0.9X + 32。黑带张先生希望把此公式中的温度由华氏度改为摄氏度。他知道摄氏度(C)与华氏度(F)间的换算关系是:C = 5/9 ( F 32)请问换算后的相关系数和回归系数各是多少?A. 相关系数为0.9,回归系数为1.62B. 相关系数为0.9,回归系数为0.9C. 相关系数为0.9,回归系数为0.5D. 相关系数为0.5,回归系数为0.5263263武汉工程职业技术学院样题样题57. 在选定Y 为响应变量后, 选定了X1,X2,X3 为自变量,并且用最小二乘法建立了多元回归方程。在MINITAB 软件输出的ANOVA 表中,看到P-Value=0.0021。在统计分析的输出中,找到了对各个回归系数是否为0 的显著性检验结果。由此可以得到的正确判断是:A 3 个自变量回归系数检验中,应该至少有1 个以上的回归系数的检验结果是显著的(即至少有1 个以上的回归系数检验的 P-Value 小于0.05),不可能出现3 个自变量回归系数检验的 P-Value 都大于0.05 的情况B 有可能出现 3 个自变量回归系数检验的 P-Value 都大于0.05 的情况,这说明数据本身有较多异常值,此时的结果已无意义,要对数据重新审核再来进行回归分析。C 有可能出现 3 个自变量回归系数检验的 P-Value 都大于0.05 的情况,这说明这3 个自变量间可能有相关关系,这种情况很正常。DANOVA 表中的P-VALUE=0.0021 说明整个回归模型效果不显著,回归根本无意义。264264武汉工程职业技术学院样题样题60. 为了判断两个变量间是否有相关关系,抽取了30 对观测数据。计算出了他们的样本相关系数为0.65,对于两变量间是否相关的判断应该是这样的:A 由于样本相关系数小于 0.8,所以二者不相关B 由于样本相关系数大于 0.6,所以二者相关C 由于检验两个变量间是否有相关关系的样本相关系数的临界值与样本量大小有关,所以要查样本相关系数表才能决定D 由于相关系数并不能完全代表两个变量间是否有相关关系,本例信息量不够,不可能得出判定结果265265武汉工程职业技术学院样题样题61. 响应变量Y 与两个自变量(原始数据)X1及X2 建立的回归方程为: y = 2.2 + 30000x + 0.0003x由此方程可以得到结论是:A. X1对Y 的影响比X2对Y 的影响要显著得多B. X1对Y 的影响比X2对Y 的影响相同C. X2对Y 的影响比X1对Y 的影响要显著得多D. 仅由此方程不能对X1及X2对Y 影响大小作出判定266266武汉工程职业技术学院样题样题64. 回归方程 中,Y 的误差的方差的估计值为9,当X = 1时,Y 的95%的近似预测区间是:A. (23,35)B. (24,36)C. (20,38)D. (21,39)267267武汉工程职业技术学院样题样题54相关性分析是对变量间的相关关系的研究,而相关系数r表示出两者的线性关系强弱。假设某位黑带研究电镀过程中镀层厚度与温度的关系,根据结果计算,相关系数r=0.254,请选出以下正确的一项叙述:A镀层厚度与温度肯定是相关的B镀层厚度与温度存在微弱相关C镀层厚度与温度是负相关的D不能得出肯定的结论268268武汉工程职业技术学院样题样题55下面是对X和Y两组数据进行“散点图”和“相关分析”的结果:相关分析:Y,XY和X的Pearson相关系数=-0.933P值=0.000能够得出的最确切的结论为:AX是Y的重要影响因素BX、Y两组数据有较强的因果关系C两组数据有强的相关性D目前无法得出任何结论,只有进一步进行回归分析,才能进行判断269269武汉工程职业技术学院样题样题107在进行回归分析时,要对残差进行分析和诊断,这样做的目的是:A通过残差的分布形态判断是否还存在其他潜在的关键XB通过残差分布的随机性,判断所选择的回归模型是否合适C通过残差的分布,判断X对Y影响是否显著D通过残差的分布,判断是否有远离模型的异常观测值存在270270武汉工程职业技术学院样题样题54相关性分析是对变量间的相关关系的研究,而相关系数r表示出两者的线性关系强弱。假设某位黑带研究电镀过程中镀层厚度与温度的关系,根据结果计算,相关系数r=0.254,请选出以下正确的一项叙述:A镀层厚度与温度肯定是相关的B镀层厚度与温度存在微弱相关C镀层厚度与温度是负相关的D不能得出肯定的结论271271武汉工程职业技术学院样题样题57为了研究全国主要城市银行对第二套住房发放贷款宽严程度是否相同。调查了北京、上海和深圳三个城市的黄金商业区的四大银行贷款综合情况,记录了申请总数、批准数和未批准数:城市申请总数批准数未准数北京23640196上海23052178深圳19767130总计663159504272272武汉工程职业技术学院样题样题 批准数未准数合计140 196236 56.60179.40 4.8671.535252178230 55.16174.84 0.1810.057367130197 47.24149.76 8.2612.606合计 318 1008 1326卡方 = 17.508, DF = 3, P 值 = 0.001基于该结果,正确的解释是:A三城市的银行对第二套住房发放贷款宽严程度没有什么不同B三城市的银行对第二套住房发放贷款宽严程度显著不同C该问题自由度太小,得不出结论D以上都不对273273武汉工程职业技术学院样题样题58为了检验一批二极管寿命的平均值是否比原来的5000小时确有提高,从生产线上随机抽取25只二极管,记录了它们的寿命。经检测,这批数据是相互独立的,分布大体上是对称的,但却不服从正态分布。在25只二极管中,有8只寿命小于5000小时,用非参数检验中的“符号检验法”得不出“有显著提高”的结论,这时应该:A数据不服从正态分布是不正常的,因此可以肯定是数据抽样过程有毛病,应再次抽样,重新进行判定B相信符号检验的结果,寿命的平均值并未比原来的5000小时有提高C用同一批数据,使用非参数检验中的单样本“Wilconxon符号秩检验法”再次判断,有可能判断为“确有提高”D用同一批数据,使用非参数检验中的“Minn-Whitney检验法”再次判断,有可能判断为“确有提高”274274武汉工程职业技术学院样题样题59M车间的人数是将厚度为60毫米的厚钢板热压为厚度为45毫米的薄钢板,每块钢板都要大约40秒才能完成热压。为了检验厚钢板温度对于热压时间是否有显著影响,选定了1300、1260、1220三种初始温度,各热压10块厚钢板,共记录了3组总计30个热压时间数据。在分析时,准备使用单因子的方差分析ANOVA以比较平均热压时间是否有显著差异。为此应考虑验证下列条件:1)3组数据都满足独立性2)3组数据都满足正态性3)合并后的30个数据满足正态性4)经检验,可以认为3组数据的方差是相等的正确的要求是:A应验证1)2)B应验证1)2)4)C应验证1)3)4)D应验证1)2)3)4)275275武汉工程职业技术学院样题样题60在验证原因时,下列哪一种假设检验方法不需要先对有关数据进行正态性检验?At检验B配对t检验CMann-Whitney检验DF检验61某工程师在对弹簧生产过程进行工艺改进后生产,改进后的工艺生产出的弹簧至少比原来的弹簧平均强度高出50牛顿。假设工艺改进前后生产出的弹簧强度数据服从正态分布,且前后方差基本没有变化。问采用什么方法验证工程师的结论?At检验 BF检验C卡方检验 D以上都不对276276武汉工程职业技术学院样题样题62一位工程师想知道一种压滤机完成压滤工作的平均周期时间是否大于55分钟。已知过程正态、独立、方差未知。最恰当的假设检验方法是:A单边单样本t检验B双边单样本t检验C单边单样本Z检验D双样本t检验277277武汉工程职业技术学院样题样题63抗拉强度是A产品的关键质量特性之一,三条生产线同时生产A产品,项目组想知道三条生产线所产出的A产品之抗拉强度是否具有统计意义上的差异,且其中有一条生产线的数据为非正态,下面哪种分析方法更适合?At检验BMann-Whitney检验C单因子方差分析DKruskal-Wallis检验278278武汉工程职业技术学院样题样题64皮肤科医生发明了一种改进配方的治疗顽固牛皮癣的外用药膏,希望验证新配方确实比老配方在杀灭癣菌效果上更好,选定40人双腿对称患牛皮癣的病人(假设每个病人用药前双腿上表皮癣菌相同),对每一人的双腿随机选定使用老配方和新配方,双腿皆同时涂抹了三周后,对双腿分别记录了表皮癣菌的含量。下面应该进行的检验是:A双样本均值相等性检验B配对样本t检验CF检验D方差分析279279武汉工程职业技术学院样题样题280280武汉工程职业技术学院样题样题105对生产线中两条同类型生产线的质量检验发现:一号生产线生产的800个产品中有26个不良品,二号生产线的1200个产品中共有48个不良品。为了比较这两条生产线的优劣,可以运用的量化分析方法是:A双样本t检验B双样本比率检验C双样本非参数Mann-Whitney检验D列联表卡方检验281281武汉工程职业技术学院样题样题107在进行回归分析时,要对残差进行分析和诊断,这样做的目的是:A通过残差的分布形态判断是否还存在其他潜在的关键XB通过残差分布的随机性,判断所选择的回归模型是否合适C通过残差的分布,判断X对Y影响是否显著D通过残差的分布,判断是否有远离模型的异常观测值存在282282武汉工程职业技术学院样题样题40某产品的制造周期平均为20天,小李团队通过分析影响周期的多个因子,并进行了针对性的改进,为了验证改进措施是否有效,小李收集了改进措施实施后的30个订单的制造周期数据,数据服从正态分布。请问,接下来应该采用什么方法进行分析?A单边单样本t检验B双边单样本t检验C单比率检验D单方差检验41为了判断不同的生产线所加工的产品厚度是否有显著差异,特选取了企业的四条生产线,从四条生产线的产品中分别随机抽取了10个样本,测量其厚度。通过检验,数据服从正态分布,且满足等方差条件,接下来应该进行的是:A单因子方差分析(one-way ANOVA)B卡方检验C双比率检验D双因子方差分析(two-way ANOVA)283283武汉工程职业技术学院样题样题43X与Y两公司生产同种型号的液晶电视屏幕,为了检验液晶电视屏幕的平均寿命是否相等,各取16块液晶电视屏幕,在高温及潮湿环境下测量了它们的寿命。经检验,两组数据都非正态分布,但X公司的数据开平方根后可以变换为正态,而Y公司的数据取倒数才能变为正态分布,这时候应该:A先使用Levenes检验确认两批数据的方差是否相等,再用两样本t检验,根据方差是否相等两种不同条件,判断均值的相等性B将两组数据都取对数后,看是否能再用Box-Cox变换将它们化为正态分布C按配对检验方法,将两组数据对应的差值求出,对差值再进行单样本检验D使用非参数方法中的Mann-Whitney方法284284武汉工程职业技术学院样题样题44对于人工培植的蘑菇,设想增加催化酶用量(即浓度由10Mg/M2增加到15Mg/M2)可能获得增产效果。为此进行了试验,选用20块培养基,左半侧用浓度10Mg/M2,右半侧用15Mg/M2,记录了两组共40个数据,下面应该进行的检验是:A双样本均值相等性检验B配对样本t检验CF检验D方差分析285285武汉工程职业技术学院样题样题286286武汉工程职业技术学院样题样题46分别从A,B两种工艺条件下随机抽取1500片及1800片芯片,其中A种工艺条件下有340片为一等品,B种工艺条件下有350片为一等品,在=0.05下,检验A种工艺条件是否比B种工艺条件有较高的一等品率,采用哪种工具?A双样本T检验B双比率检验C方差分析检验D卡方检验287287武汉工程职业技术学院样题样题48黑带小张想了解模具改进前后管径尺寸的波动情况是否发生了变化,分别抽取了改进前后各50个样本的管径数据,合适的检验方法是:A双样本t检验B配对t检验C双方差检验D双比率检验49某团队希望了解焊接工艺中的温度(x1)、时间(x2)和焊锡量(x3)对焊接强度的影响,该过程已经积累的大量历史数据,该团队拟采用回归技术分析三个因素的影响程度,请问在进行回归分析时,以下哪种处理方法是正确的?A针对焊接强度(y)对三个影响因素分别建立回归方程B先分析三个因素之间的相关关系,然后用最佳子集法建立y对三个因素的线性回归模型,然后根据模型诊断结果对模型进行改进C先建立y和三个因素的线性回归模型,剔除不显著的因素,即可构建所需模型D先建立y和三个因素的非线性回归模型,剔除不显著因素,即可构建所需模型288288武汉工程职业技术学院样题样题289289武汉工程职业技术学院样题样题290290武汉工程职业技术学院样题样题下列选项中,结论及其判断依据描述最准确的是:A所采取的改进措施有效。因为双样本T检验中的P值=0.0200.05,即改善后损纸量有显著下降,同时等方差检验表明改进后方差显著减少B所采取的改进措施无效。因为双样本T检验中的P值=0.0200.05,即改善后损纸量无显著下降,同时等方差检验表明改进后方差无显著变化C所采取的改进措施有效。因为双样本T检验中的P值=0.0200.05,即改善后损纸量有显著下降,同时等方差检验表明改进后方差无显著变化D所采取的改进措施无效。因为双样本T检验中的P值=0.0200.05,即改善后损纸量无显著下降,同时等方差检验表明改进后方差显著减少291291武汉工程职业技术学院样题样题51某工程师声称其新发现的工艺技术可使产品的平均抗拉强度至少增加20kg,为了检验他的说法,某黑带在现有工艺条件下和新工艺条件下各抽取20件产品,并采用双样本t检验,假定数据正态且两种工艺条件下的方差相等,得到结果如下:现有工艺条件下的抗拉强度均值为200kg,新工艺下的抗拉强度均值为225kg(即提高了25kg),均值之差(新工艺减现有工艺)的95%的单侧置信区间下限为15kg。根据以上信息,下列说法正确的是:A可以认为工程师的说法正确,即新工艺比现有工艺生产的产品平均抗拉强度至少增加20kgB没有足够的理由认为工程师的说法正确,即不能断言新工艺比现有工艺的产品平均抗拉强度至少增加20kgC可以认为新工艺比现有工艺生产的产品平均抗拉强度增加了25kgD信息不全,根据上述信息无法得出结论292292武汉工程职业技术学院样题样题52为了检验一批奶粉的蛋白质氮含量是否比原来规定的15%发生变化,从生产线上随机抽取16份100克奶粉样品,记录了它们的蛋白质氮含量。经检测,这批数据是相互独立的,分布大体上是对称的,但却不服从正态分布。在16份样品中,有5份样品蛋白质氮含量高于15克,11份样品蛋白质氮含量低于15克。用非参数检验中的“符号检验法”得不出“有显著变化”的结论,这时应该:A数据不符合正态分布是不正常的,因此可以肯定是数据抽样过程有毛病,应再次抽样,重新进行判定B相信符号检验的结果,断定蛋白质氮含量平均值并未比原来的15克有显著变化C用同一批数据,使用非参数检验中的单样本“Wilcoxon符号秩检验法”再次判断,有可能判断为“确有变化”D用同一批数据,使用非参数检验中的“Mann-Whitney”再次判断,有可能判断为“确有变化”293293武汉工程职业技术学院样题样题53根据上证指数及深证指数的连续50个交易日记录,对于这两个股指数据计算出两者的相关系数为0.681。用MINITAB计算出相关性检验结果,其P值为0.000。下列结论中最准确的说法是:AP值小于0.05,因此可以判断为两个股指密切相关BP值小于0.05,因此可以判断为两个股指不相关C用MINITAB计算出相关性检验结果之前提是“数据是独立的”,而连续交易日的股指记录是不独立的,检验结果不足为凭D用MINITAB计算出相关性检验结果之前提是“数据要服从正态分布”,而在上述描述中未进行正态性检验,因而检验结果不足为凭294294武汉工程职业技术学院样题样题54在检验改进工作后的产量是否比改进前的产量有增加时,先要检查改进前后数据的方差是否相等。为此可以用F检验或Levenes检验。对于F检验及Levenes检验的使用条件和检验的功效,正确的论述是:ALevenes检验适用于任何连续型分布,而F检验只适用于正态分布。因此Levenes检验适用性要比F检验广泛,因此应优先选用Levenes检验B由于F检验适用于正态分布,因此只有当数据不是正态分布时,才选用Levenes检验,当数据是正态分布时,不能肯定哪种检验更好,可以随意选取F检验或Levenes检验,最好两者都进行C由于F检验只适用于正态分布,因此只有当数据不是正态分布时,才选用Levenes检验。当数据是正态分布时,选取F检验肯定比用Levenes检验的功效要高些(即犯II类错误概率小些)D以上论述都不准确295295武汉工程职业技术学院样题样题55响应变量(空气量)与预测变量之间的拟合线图如下,回归方程为:空气量,下图给出了置信区间和预测区间。关于这两个区间的关系,正确的描述是:A95%的置信区间说明当X取特定值时,若在该点进行100次试验,约有95个点落在该区间内B95%的预测区间说明当X取特定值时,若在该点进行100次试验,约有95个点落在该区间内C95%的预测区间与95%的置信区间没有关系D95%的置信区间一定比95%的预测区间要宽296296武汉工程职业技术学院样题样题
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号