资源预览内容
第1页 / 共52页
第2页 / 共52页
第3页 / 共52页
第4页 / 共52页
第5页 / 共52页
第6页 / 共52页
第7页 / 共52页
第8页 / 共52页
第9页 / 共52页
第10页 / 共52页
亲,该文档总共52页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第六章 总体均数的估计l均数的抽样误差与标准误 lt分布 l总体均数的估计1为什么进行抽样?2总体样本随机抽样推断3抽样误差l概念:由个体变异引起的,抽样造成的样本统计量与总体参数之间的差异称为抽样误差(sampling error) 。4均数的抽样误差l均数的抽样误差:抽样引起的样本均数与总体均数的差异称为均数的抽样误差。5模拟试验1l从均数为4.5,标准差为0.2的正态总体中作随机抽样。当样本量为20时,随机抽取100个样本,其样本均数、标准差及其总体均数的95%置信区间见表6.1 。l可见:各样本均数未必等于总体均数;样本均数之间存在差异 6l样本均数的频数分布见表6.2 l可见: 样本均数的分布样本均数的分布很有规律,围绕着总体均数4.5,中间多、两边少,左右对称。7模拟试验1l从均数为4.5,标准差为0.2的正态总体中作随机抽样,规定样本含量分别为5、10、20、50,每种样本含量均重复抽取1000次,结果可得到4个不同样本含量的样本均数的抽样分布图 如图6.1。l可见:得到的样样本本均均数数的的分分布布仍然近似服从正态分布。 8数理统计的中心极限定理l从正态分布N(,2)中,以固定n抽取样本,样本均数的分布仍服从正态分布。9模拟试验2l从非正态总体中抽样,观察其样本均数的抽样分布。非正态总体的分布如图6.2所示。 l规定样本含量分别为5、10、20、50,每种样本含量均重复抽取1000次,结果也可得到4个不同样本含量的样本均数的抽样分布图(图6.3)。10数理统计的中心极限定理l即使是从偏态分布总体抽样,只要n足够大,样本均数的分布也近似正态分布。11数理统计的中心极限定理l样本均数的总体均数仍为,样本均数的标准差为 。12标准误(standard error)l样本均数的标准差称标准误,是说明均数抽样误差大小的指标, 大,抽样误差大;反之, 小,抽样误差小 。13标准误l标准误 的计算:l标准误 的估计值14影响标准误大小的因素l 的大小与成正比l 与样本含量n的平方根成反比 15l抽样误差越小,表明样本均数与总体均数越接近,即用样本均数估计总体均数的可靠性越大;反之,抽样误差越大,则用样本均数估计总体均数的可靠性越小。16P74 例6.1,6.217t分布 lt分布的由来lt分布的特征lt分布曲线下的面积18t分布的由来变量变换总体 样本均数 中心极限定理标准正态分布 变量变换未知19t分布 英国 W.S.Gosset 于1908年以“student”笔名发表论文,证明它服从自由度为n-1的t分布20l如果抽取例数n=5的样本1000个,每个样本又都可以按下式计算出一个t值,可将1000个t值编制成频数表,作出直方图,则可得到一条光滑的曲线。 (式6.3 ) 21同理,如果抽取例数n=15时,仍能得到一条t分布曲线,因此,当n变化时,就可以得到不同的t分布曲线,如图6.4:22图6.4自由度分别为1、5、的t分布 23t分布的特征 lt分布是一簇曲线。lt分布以0为中心,左右对称。l其形态变化与自由度的大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近u分布(标准正态分布);当=时,t分布即为u分布。 24t分布曲线下面积规律lt分布曲线下总面积仍为1或100%lt分布曲线下面积以0为中心左右对称。25t分布曲线下面积规律l由于t分布是一簇曲线,故t分布曲线下面积固定面积(如95%或99%)的界值不是一个常量,而是随自由度的大小而变化,如P439附表3 。26附表2,t分布表的特点l附表2的横标目为自由度,纵标目为概率P。一侧尾部面积称为单尾概率,两侧尾部面积之和称为双尾概率表中数字表示 和 确定时,对应的t界值,记作t, 。27附表2,t分布表的特点l单尾概率对应的t界值用t, 表示l双尾概率对应的t界值用t/2, 表示28l当30时,单侧概率P 0.05时单侧t, 1.697 l当30时,双侧概率P 0.05时双侧t/2, 2.042example29examplel单侧:lP( t-t0.05,301.697 )=0.05lP(tt0.05,30 1.697 )=0.05l双侧:P(t-t0.05/2,30)+P(tt0.05/2,30 )=0.0530l其通式为l单侧:P( t-t, )=或P(tt,)=l双侧:P(t-t/2,)+P(tt/2, )=l图中非阴影部分面积的概率为,lP(-t/2,tt/2,)=1-31附表2,t分布表的特点l附表2只列出正值,若计算的t值为负值时,可用其绝对值查表 。32总体均数的估计33总体样本随机抽样推断34统计分析统计描述统计推断参数估计假设检验35参数估计 l用样本指标估计总体指标称为参数估计,是统计推断的一个重要方面。 36总体均数估计的两种方法点估计区间估计37点估计是直接用样本统计量直接作为总体参数的估计值.38点估计的缺点l没有考虑抽样误差,无法评价估计值与真实值之间的差距39总体均数估计的两种方法点估计区间估计40区间估计l概念:即按预先给定的概率估计参数所在的范围。l该范围亦称可信区间(confidence interval, CI) 。41区间估计l结合样本均数和标准误可以确定一个具有较大可信度的包含总体均数的区间,该区间称为总体均数的1-可信区间。 l一般取0.05或0.0142可信区间的计算43总体标准差未知时l正态总体N(,2)的样本均数 的t变换结果服从t分布:44l若“砍去”t分布双侧尾部面积0.055,则有95的t值满足45或移项:46可信区间的计算l未知,且n小 l未知,但n足够大 l已知 47可信区间的涵义P8048样本号均数标准差95可信区间下限上限14.570.254.464.68534.590.164.524.67544.510.184.434.60554.530.204.444.621004.490.174.414.57表6.1 从正态总体N(4.5,0.22)抽到的100份随机样本的计算结果(n100)49可信区间两要素 l准确度:反映在可信度(1-)的大小上,即可信区间包含总体均数的可能性大小,从准确度的角度看,愈接近1愈好,如可信度99%比95%好。l精密度:反映在可信区间的长度上,即长度愈小愈好。50可信区间两要素l在抽样误差确定的情况下,二者是相互矛盾的,若提高了可信度,可信区间势必增大,精密度下降。因此,需要同时兼顾准确度与精密度,一般情况下,常用95%可信区间。 51作业p398l四、综合分析题 的1小题52
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号