资源预览内容
第1页 / 共46页
第2页 / 共46页
第3页 / 共46页
第4页 / 共46页
第5页 / 共46页
第6页 / 共46页
第7页 / 共46页
第8页 / 共46页
第9页 / 共46页
第10页 / 共46页
亲,该文档总共46页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第五章 数理统计的基础知识,引言,从本章节开始,,我们将讲述数理统计的基本内容.,理统计作为一门学科诞生于19世纪末20世纪初,,有广泛应用的一个数学分支,,它以概率论为基础,,据试验划观察得到的数据,,来研究随机现象,,研究对象的客观规律性作出合理的估计和判断.,大量随机现象必然呈现出它们的规律性,,故理论上只,要对随机现象进行足够多次观察,,则研究对象的规律,数,是具,根,以便对,由于,必就一定能清楚地呈现出来,,但实际上人们常常无法,对所研究的对象的全体(或总体),进行观察,,而只能抽,必就一定能清楚地呈现出来,,但实际上人们常常无法,对所研究的对象的全体(或总体),进行观察,,而只能抽,取其中的部分(或样本),数据.,数理统计的任务包括:,限的数据资料;,究,,从而对研究对象的性质、特点,,作出合理的推断,此即所谓的统计推断问题,,本课程主要讲述统计推断,的基本内容.,进行观察或试验以获得有限的,怎样有效地收集、,整理有,5.1 数理统计的基本概念,一 总体与总体分布,二 样本与样本分布,三 统计推断问题简述,四 分组数据统计表和频率直方图,五 经验分布函数,六 统计量,七 常用统计量,一、总体与总体分布,通常把具有一定共性的研究对象的全体称总体,,其大小与范围随具体研究与考察的目的而确定.,如,,考察某大学一年级新生的体重情况,,级全体新生就构成了待研究的总体.,总体确定后,,们称组成总体的每一个成员为个体.,年级新生的体重)中的每一个新生的体重为一个个体.,总体中所包含的个数称为总体的容量,,例,则该校一年,我,如前述总体(一,容量为有限的,称为有限总体;,容量为无限的称为无限总体.,总体与,个体的关系,,即集合论中集合与元素的关系.,在数理,统计中所关心的并非每个个体的所有性质,,而仅仅,是它的某一项或几项指标,,代表总体的指标(如一年,级新生的体重)是一个随机变量,几个)随机变量,总体中每个个体,从而总体就是指某个(或,可能取的值的全体.,于是,,一个总体就对应于一个,(或几个)随机变量,,对总体的研究就相当于对这个,(或几个)随机变量的研究.,定义1,并把,注:,(1),标,,但总可将其数量化,,如检验某学校全体学生的,血型,,型、,有时个体的特性的直接描述并非是数量指,型4种,,若,分别以1,2,3,4依次记这4种血型,,就可以用数量来表示了;,(2),有时即使知道其,分布的类型(如正态分布、二项分布等),但不知这些,则试验的结果,总体的分布一般来说是未知的,,数理统计的任务就是根据总体中部分个体的数据资,料对总体的未知分布进行统计推断.,二、样本与样本分布,为对总体分布及其特性进行统计推断,,需按一定的,规则从总体中抽取若干个体进行观察,,通过观察可,基于,的观察值.,上述抽取过程称为抽样,,个体称为样本,,样本中所含个体数目称为样本的容,为对总体进行合理的统计推断,,所抽取的部分,量.,我们还需要在,故,样本是一个随机变量(或向量).,独立的抽样观察,,容量为,的样本可,一旦具体取定一组样本,,便得到样本的一次具体的,观察值,称其为样本值,,成的集合称为样本空间.,地反映总体的信息,,必须考虑抽样方法,,全体样本值组,为了使抽取的样本能很好,最常用的,一种抽样方法称为简单随机抽样,,本满足下面两个条件:,1.,代表性:,与所考察的总体具有相同,它要求抽取的样,的分布;,2.,独立性:,是相互独立的随机变量.,由简单随机抽样得到的样本称为简单随机样本,,它,注:,简单随机样本是一种非常理想化的样本.,际应用中,,对有限总体,,若采用有放回抽样就能得,到简单随机样本,,但有放回抽样使用起来不方便,,故实,故实际操作中通常采用不着是无放回抽样,,当所,考察的总体很大时,,可近似把无放回抽样所得到的,样本看成是一个简单随机样本.,对无限总体,,因抽取一个个体不影响它的分布,,故,采用无放回抽样即可得到的一个简单随机样本.,注:,今后假定所考虑的样本均为简单随机样本,,称为样本.,简,例1,样本及观察值的表示方法:,(1),肉罐头,由于随机性,每个罐头的净重都有差别,现,在从生产线上随机抽取10个罐头,秤其净重,得如,下结果:,344 336 345 342 340 338 344 343 344 343,这是一个容量为10的样本的观察值,它是来自该生,产线罐头净重这一总体的一个样本的观察值.,例1,样本及观察值的表示方法:,(2),对363个零售商店调查得其周零售额的结果如下:,这是一个容量为363的样本的观察值,对应的总体是,所有零售店的周零售额.,不过这里没有给出每一个,样本的具体的观察值,而是给出了样本观察值所在,的区间,称为分组样本的观察值.,这样一来当然会,损失一些信息,但是在样本量较大时,这种经过整,理的数据更能使人们对总体有一个大致的印象.,由样本的独立性,,并称其为样本分布.,(1),其概率分布为,则,称其为离散样本密度.,(2),其概率密度为,则样本的概率密度为,称其为连续样本密度.,例2,态总体.,正态总体是统计应用中最常见的总体,现,则其样本密度,由下式给出:,例3,分布,即,而,它恰好等于样本中取值为1的分量之总数.,概率,有某特征(如废品)的个体所占的比例,亦称为比率.,从总体中随机抽取一个个体,可视为一个随机试验,若恰好抽到具,有该特征的个体,记,否则,记,这样,未知的,故需通过抽样对其作统计推断.,例4,为其样本,则样本的概率分布为,而,三、统计推断问题简述,分布进行推断,,此即为统计推断问题.,样本值的关系:,总体,推断,(个体)样本,样本值,样抽,总体、样本、,在实际应用中,,总体的分布一般是未知的,,或虽然,知道总体分布所属的类型,,但其中包含有未知参数.,为对总体分布进行推断,,可对总体进行抽样研究,,对总体的每次抽样,,均得到样本的一组确定的值,样本值,,统计推断就是利用通过大量抽样得到,的样本值,,反过来对总体分布的属的类型,,分布中所含的未知参数进行推断.,或总体,通过观察或试验得到的样本值,,一般是杂乱无章的,,需要进行整理才能从总体上呈现其统计规律性,,组数据统计表或频率直方图是两种常用的整理方法.,1.,分组数据表:,若样本值较多时,,组,,分组的组数应与样本容量相适应.,分组太少,,难以反映出分布的特征,,分组太多,,则由于样本取,值的随机性而使分布显得杂乱.,因此,,分,可将其分成若干,则,分组时,,确定,分组数(或组距)应以突出分布的特征并冲淡样本的,随机波动性为原则.,区间所含的样本值个数称为该,区间的组频数.,四、分组数据统计表和频率直方图,组频数与总的样本容量之比称为组频数.,2.,频率直方图:,频率直方图能直观地表示出组频,率数的分.,其步骤如下:,(1),(2),并,且小区间不包含右端点):,(3),组频率,及,求组频数,(4),为宽作小矩形,,所有小矩形合在一起就构成了频率,直方图.,典型的频率直方图如下图所示.,例5,从某厂生产的某种零件中随机抽取120个,测得,列出分组表,并作频率,直方图.,解,先从这120个样,本值中找出最小值,190,取,将区间,等分成11个小区间,组距,例5,从某厂生产的某种零件中随机抽取120个,测得,列出分组表,并作频率,直方图.,解,得到分组表及频,从直方图的形状,可以粗略地认为该种零件的质量,率直方图.,服从正态分布,其数学期望在209附近.,定义2,可按大小次序排列成,若,因而函数,五、经验分布函数,注:,样本的频率直方图可以形象地描述总体的概率,分布的大致形态,,而经验分布函数则可以用来描述,总体分布函数的大致形状.,有下列结论(格里汶科, 1933):,对于上述经验分布函数,由此结果,,对于任一实数,从而在实际中可当作,来使用.,这就是由样本推断总体其可行性,的最基本的理论依据.,例6,随机观察总体,得到一个容量为10的样本值:,解,把样本值按从小到大的顺序排列为,于是得经验分布函数为,值个数,从而,注:,当样,本容量增大时,相邻两阶梯的跃度变低,阶梯宽度,变窄,容易想像,这样的阶梯形折线几乎就是一条,曲线,则,非常接近于,六、统计量,定义,样本的任一不含总体分布未知参数的函数为该样本,的统计量.,例如,,未知.,为总体的一个样,令,称此,本,,但,不是该样本的统计量,,因其含有总体分布中的未知,注:,这个随机向量的函数,,用大写字母,,如:,等;,但是,,统计量就是一个具,参数,统计量是,体的实数值,,用小写字母,如:,等.,七、常用统计量,1.,样本均值,2.,样本方差,3.,样本标准差,4.,样本(k阶)原点矩,5.,样本(k阶)中心矩,注:,上述五种统计量可统称为矩统计量,,简称为样,它们都是样本的显函数,,它们的观察值仍分别,称为样本均值、样本方差、样本标准差、样本(k阶),原点矩、样本(k阶)中心矩.,6.,顺序统计量,将样本中的各分量按由小到大的,次序排列成,本矩,6.,顺序统计量,将样本中的各分量按由小到大的,次序排列成,特别地,,并称,为样本的极差.,称,补充说明,为样本的偏差平方和,,可将其变形如下:,称,从而,例7,某厂实行计件工资制,为及时了解情况,随机,抽取30名工人,调查各自在一周内加工的零件数,其样本均值,它反映了该厂工人周工资的一般水平.,为:,所以样本方差为,由于,样本标准差为,例8,(见表A),此时样本均值可用下面方法近似计算:,则,例8,例8,这与例7的结果差不多.,再求样本方差的近似值,时有,而样本标准差为,例7的结果相差也不大.,其结果与,此,注:,上述样本均值的表示式也可改写为,称为加权平均,例9,设我们获得了如下三个样本:,样本,样本,样本,明显可见它们的“分,散”程度是不同的:,这一直觉可以用样本方差来表示.,这三个样本的均,值都是 5,即,而样本容量,易得,例9,设我们获得了如下三个样本:,样本,样本,样本,易得,同理易得,由此可见,这与直觉是一致的.,由于样本方差的量纲与样品的量纲不一致,故常用,样本标准差表示分散程度,易求出,例9,设我们获得了如下三个样本:,样本,样本,样本,易求出,同样有,因此,常用,去估计,计.,
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号