资源预览内容
第1页 / 共72页
第2页 / 共72页
第3页 / 共72页
第4页 / 共72页
第5页 / 共72页
第6页 / 共72页
第7页 / 共72页
第8页 / 共72页
第9页 / 共72页
第10页 / 共72页
亲,该文档总共72页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
统计学家视数据为资源,并且试图从数据中看出平常人所看不到的景致来。 1第一讲内容复习第一讲内容复习z统计学的定义、分类;z认识数据的第一步:你得到的是什么类型的数据?z利用图表展示数据中的信息;z运用指标刻画数据的某些特征和程度;z使用EXCEL来描述数据;2第一讲作业以及案例讨论第一讲作业以及案例讨论 3第二讲第二讲抽样分布和估计抽样分布和估计2001年年9月月22日日4统计推断的基本概念统计推断的基本概念z总体:有限总体、无限总体;z样本;z统计推断的任务:通过样本的统计量来了解总体的参数。z为什么需要抽样: 1) 总体无法得到; 2) 时间成本不允许; 3) 实验具有破坏性。5统计推断的基本思想统计推断的基本思想z1)选用一个概率模型概率模型来刻画总体,使用样本对模型做出推断;z2)样本的获取的可能性可能性依赖于你选用的模型;根据这种可能性来分析我们由部分来认识总体所可能犯的错误(风险)。6统计推断的内容之一统计推断的内容之一z估计参数z点估计和区间估计z点估计的例子 居民家庭年收入 7统计推断内容之二统计推断内容之二z 假设检验:是否可以选用这个模型?z例子: 是否可以使用模型N(570,306)来刻画所有居民的家庭年收入?z思想: 如果该模型是好的,那么 和570相差很多的可能性不能太大。8简单随机抽样z有限总体的简单随机抽样:等概率抽样; 有放回抽样:独立性 无放回抽样:非独立性抽样方法:利用随即数表 利用 Excel 9随机数表的使用77191 25860 55204 73417 83920 6948676298 26678 89334 33938 95567 2938057099 10528 09925 89773 41335 9624415987 46962 67342 77592 57651 9550853122 16025 84299 53310 67380 8424937203 64516 51530 37069 40216 6137410 z无限总体的简单随机抽样:独立性;z例子:掷硬币11样本和总体分布z例子:薯片z一个箱子中有10000包薯片,其中50%标价5元, 30%标价10元, 10%标价15元, 10%标价30元。12点估计的方法点估计的方法z估计量(统计量);估计值。z基于一定的准则求最好的估计量。 极大似然法则; 矩估计; 最小二乘估计等13抽样分布z样本不同, 值也不同。那么 取不同值的可能性分别是什么?z 的概率分布称作它的抽样分布。z抽样分布在统计推断中的中心地位。z抽样分布取决于总体的分布(模型)以及抽样的方式。 抽样方式 总体分布= 抽样分布14 样本均值的抽样分布(无限总体)z如果总体服从 , 那么简单随机样本的均值服从正态分布z如果样本容量n非常大,而且总体的期望是,方差是2+,那么简单随机样本的均值 近似服从正态分布 (中心极限定理)15样本比率的抽样分布 (无限总体)z小样本情况 x服从二项式分布B(n,p).z大样本情况,按照中心极限定理,近似地 16正态分布的图形正态分布的图形17有限总体的修正系数z设N是总体中个体的个数,n是样本容量,那么样本均值的方差是:样本比率的方差是:注:如果N相比n大很多,比如n/N5%,可以视为无限总体。 18样本方差的抽样分布样本方差的抽样分布z如果 是来自正态总体 的一个随机样本,定义样本方差为: 19认识卡方分布认识卡方分布20方差未知时样本均值的抽样分布方差未知时样本均值的抽样分布z正态总体,2未知,使用样本方差s2来替代2,则样本均值满足:zn30时,可以用标准正态分布近似。21正态分布和正态分布和t t 分布的比较分布的比较22估计的误差z不能以个别估计值作为评价准则;z估计的误差: 23对估计量的评价对估计量的评价z无偏性:偏差是零;z有效性:方差最小;z一致性:样本容量增加会降低估计误差。z样本均值(比率)是对总体均值(比率)的一个无偏的、有效的、一致的估计量。24 将概率模型引入统计推断中来刻画总体,可以使得我们能够测量和控制由部分(样本)来推断总体时所犯的错误。 25Estimate PopulationParameter.with SampleStatisticMean ProportionpVariances2Population Parameters Estimated 2Difference - 12 x - x 12_26 z 的抽样分布: 1)正态总体 时,27 2)非正态总体时,大样本情况(n30)28 zS2的抽样分布: 当总体是正态分布时,29 z 的抽样分布: 30 z有限总体时样本均值和样本比率的标准误差,有限总体修正系数。31联合食品公司的案例联合食品公司的案例z针对“联合食品公司”的案例(P.44 案例2-1),我们假设调查的100个客户组成一个简单随机样本。尝试回答下面的问题:1)所有客户一次购买金额的平均值是多少?2)所有使用信用卡的客户一次购买金额的平均值是多少?3)使用信用卡的客户占的比例是多少?323334 1)所有客户一次购买金额的平均值是多少?(29.4449)2)所有使用信用卡的客户一次购买金额的平均值是多少?(40.8768)3)使用信用卡的客户占的比例是多少?(0.22)35我们的估计值离真值有多远?我们的估计值离真值有多远?z我们希望通过样本的信息给出一个范围,使这个范围按足够大的概率包含我们所感兴趣的参数。z如何寻找K和L ,使得以95%的概率成立: 36 z抽样误差:无偏点估计值与总体参数之差的绝对值。37样本均值的抽样分布样本均值的抽样分布z-z1-38大样本且大样本且 已知的情况已知的情况 39理解置信区间的含义理解置信区间的含义z 抽取100个样本,计算出100个平均值和100个区间,它们当中至少有(1-)*100个包含了未知的总体均值。 因此,可以以(1-)的程度确信落在每一个区间里面。z 边际误差: 40 Confidence Intervals Intervals Extend from(1 - ) % of Intervals Contain . % Do Not.1 - /2 /2X_ x_Intervals & Level of ConfidenceSampling Distribution of the Meanto41联合食品公司的例子z如果已知所有消费者一次购买金额的标准差是22,那么一次购买平均金额的一个95%的置信区间是: 29.44491.96*(22/10)或者(25.1329, 33.7569),其中边际误差=4.312.问题:对这个区间的含义你知道了什么? 怎么可能知道 标准差?42大样本且大样本且 未知的情形未知的情形43联合食品公司的例子所有顾客一次购买金额的平均值的95%的置信区间: 29.44491.96*(20.4162/10)或者 (25.44333, 33.44506)问题:对使用信用卡的顾客一次购买金额的平均值能否类似进行区间估计?44小样本且小样本且 未知的情形未知的情形 45联合食品公司的例子z所有持信用卡的顾客一次购买金额的平均值的95%的置信区间是:问题:1)你获得上述结论时对总体作了什么假定?是否合理? 2)如何使用EXCEL解决该问题?46小样本且小样本且 已知的情形已知的情形 你自己可以解决这一问题吗?47大样本下总体比率大样本下总体比率p p的区间估计的区间估计 48联合食品公司的例子z使用信用卡支付的顾客的比率的95%的置信区间是多少?z问题:是否符合大样本的条件?z进一步的问题:如果嫌精度不够怎麽办?49zData Variation zSample Size nzLevel of Confidence (1 - ) Intervals Extend ?1984-1994 T/Maker Co.影响区间长度的因素影响区间长度的因素 5090% Samples95% Samples x_Confidence Intervals99% SamplesX_51样本容量的确定(样本容量的确定(1)z给定边际误差E和置信系数1-,问题是:确定样本容量n使得总体均值(比率)的1- 水平的置信区间长度不超过2E?(该问题有什么实际意义?) 52样本容量的确定(样本容量的确定(2)z怎么获得? 1)用以前相同或类似的样本的样本标准差代替; 2)用试验调查的方法选择初始样本,用该样本的样本标准差代替; 3)对进行判断或者猜测:比如全距的1/4作为估计。z为什么用正态分布的/2分位数而不用t分布?53样本容量的确定(样本容量的确定(3)z对于总体比率来说:z如何确定p? 1)类似对的确定方法; 2)使用p=0.5,此时p(1-p)最大,从而高估样本容量。 54联合食品公司的例子z为使得所有顾客一次购买金额的平均值的95%的置信区间长度不超出6美圆,需至少采用多大的样本?z E=?z =? (全距=77.07)z n=(1.96*77.07/4)2/9=158.4615955联合食品公司的例子z为了使得对持信用卡购买的顾客比率p的95%的置信区间长度不超过0.2,样本至少多大?zE=?zP=? zN=(1.96)2*0.5*0.5/0.12=96.049756区间估计内容小结区间估计内容小结z置信区间的含义;z从抽样分布求置信区间;z给定精度,确定样本大小。57Mean, , is unknownPopulationRandom SampleI am 95% confident that is between 40 & 60.Mean = 50Estimation ProcessSample58对总体模型的推断另一种方式:对总体模型的推断另一种方式:假设检验假设检验z参数估计的思路:选择一个合适的模型;z假设检验的思路:检验一个给定的模型。59PopulationAssume thepopulationmean age is 50.(Null Hypothesis)REJECTThe SampleMean Is 20SampleNull HypothesisHypothesis Testing ProcessNo, not likely!60从一个例子看假设检验的思路从一个例子看假设检验的思路z摸球试验:有放回地在一个袋子中连续摸6次,都是红球,你能否接受“袋子中一半是红球一半是白球”的说法?为什么?z如果我接受你的说法(假设),那么我看到的现象(样本)出现的可能性是多少?如果这种可能性太小,会是什么情况?61假设检验的基本概念假设检验的基本概念zH0: 一半红球一半白球。 (或者p=0.5);zH1:红球白球不是各一半。(或者p不是0.5)。z原假设;z备择假设;z选择的态度:拒绝?接受? (To be or not to be,)z更多的例子,简单假设和复合假设:62拒绝域拒绝域z拒绝域:哪些样本出现后,你会拒绝原假设?z你建立你的拒绝域的根据是什么?抽样分布。z所谓检验就是选择一个拒绝域。为什么这是一个问题?63你会犯什么错误?你会犯什么错误?64H0: InnocentJury TrialHypothesis TestActual SituationActual SituationVerdictInnocentGuiltyDecision H0 True H0 FalseInnocentCorrectErrorDo NotRejectH01 - Type IIError (b b )GuiltyErrorCorrectRejectH0Type IError( )Power(1 - b)Result Possibilities65abReduce probability of one error and the other one goes up.a a & b b Have an Inverse Relationship66Neymann-PearsonNeymann-Pearson原则原则z找一个不犯错误的检验!?zN-P原则:控制犯第一类错误的概率。z显著水平:犯第一类错误的最大概率。z启示:拒绝原假设、接受原假设?z设置原假设和备择假设的学问:一种药品中含某元素超过0.01克为不合格。如何设置原假设? H0: 该药品合格; H0:该药品不合格。67一个例子一个例子z所有联合食品公司的顾客一次购买金额的平均值是35美圆?zH0: =35. H1: ?z对容量为100的样本,给定显著水平=0.05, 选择拒绝域为满足下列条件的样本组成: 68一个例子(续)一个例子(续)z计算样本均值得到29.4449,落入拒绝域,所以拒绝原假设。z该检验犯第一类错误的概率是多少? 如果H0是正确的,一个样本落在该拒绝域里面的概率是多少?如何确定? 69本讲总结本讲总结z统计推断的任务、基本思想和内容;z简单随机抽样;z抽样分布及其在统计推断中的作用;z点估计及其评价70本讲总结本讲总结z区间估计是重点;z区间估计需要掌握的东西;z假设检验的概念和思路;z选择检验的原则;z后面的话题。71作作 业业教材211页补充练习 59、 60 、64 、66 教材第233页,补充练习45、54、59。 案例8-2,小组讨论。72
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号