资源预览内容
第1页 / 共71页
第2页 / 共71页
第3页 / 共71页
第4页 / 共71页
第5页 / 共71页
第6页 / 共71页
第7页 / 共71页
第8页 / 共71页
第9页 / 共71页
第10页 / 共71页
亲,该文档总共71页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第一章 基础统计学回顾(2)问题什么叫随机?随机事件有什么特征?第四节 基础概率一、随机现象现象现象必然事件必然事件(随机)事件(随机)事件不可能事件不可能事件l随机事件:在每次试验中可能发生也可能不发生,但在大量试验中具有某种规律性的事件现实中的随机性和规律性现实中的随机性和规律性中学时,就知道自然科学的许多定律,例如物理中的牛顿三定律,物质不灭定律以及化学中的各种定律等等。但是在许多领域,很难用如此确定的公式或论述来描述一些现象。比如,人的寿命是很难预先确定的。一个吸烟、喝酒、不锻炼、而且一口长荤的人可能比一个很少得病、生活习惯良好的人活得长。因此,可以说,活得长短是有一定随机性的(randomness)。这种随机性可能和人的经历、基因、习惯等无数说不清的因素都有关系。从总体来说,我国公民的预期寿命却是非常稳定的。而且女性的预期寿命也稳定地比男性高几年。这就是规律性。一个人可能活过这个寿命,也可能活不到这个年龄,这是随机的。但是总体来说,预期寿命的稳定性,却说明了随机之中有规律性。这种规律就是统计规律统计规律。 概率和机会概率和机会你可能经常听到概率(probability)这个名词。最常见的是在天气预报中提到的降水概率。大家都明白,如果降水概率是百分之九十,那就很可能下雨;但如果是百分之十,就不大可能下雨。因此,从某种意义说来,概率描述了某件事情发生的机会。显然,这种概率不可能超过百分之百,也不可能少于百分之零。换言之,概率是在0和1之间的一个数,说明某事件发生的机会有多大。 有些概率是无法精确推断的有些概率是无法精确推断的比如你对别人说你下一个周末去公园的概率是百分之八十。但你无法精确说出为什么是百分之八十而不是百分之八十四或百分之七十八。其实你想说的是你很可能去,但又没有完全肯定。实际上,到了周末,你或者去,或者不去;不可能有分身术把百分之八十的你放到公园,而其余的放在别处。有些概率是可以估计的有些概率是可以估计的如掷骰子。只要没有人在骰子上做手脚,你得到任何点的概率都应该是六分之一。这反映了掷骰子的规律性。但掷出骰子之后所得到的结果还只可能是六个数目之一。这体现了随机性。如果你掷1000次骰子,那么,大约有六分之一的可能会得到6;这也说明随机结果也具有规律;而且有可能通过试验等方法来推测其规律。二、概率的概念二、概率的概念概率:反映随机事件内涵的统计规律性统计规律性:在一定条件下,就其个别一次的结果来说都具有偶然性,但大量重复的试验或观察,则其结果呈现必然的规律性是事物本身所固有的,是事物的客观属性概率就是这种事物客观属性的数量表现概率:随机事件发生可能性大小的数量表示比较级:明天很可能要下雨(粗略的概率表示)不可能事件:记作 ,发生的概率P( )0必然事件:记作S,发生的概率P(S )1一般随机事件:记作E, 0 P(E ) 1例1:我们班有38名学生,其中25名女生。现在任意抽取30人,那么1、其中含有20名女生的事件为随机事件2、其中至少有17名女生的事件为必然事件3、其中有26名女生的事件为不可能事件请思考为什么,并编制类似题目两个三、概率的计算方法1、频率法 (事后法)随机事件的双重属性:偶然性与统计规律性在相同条件下进行N次试验或观察,随机事件E出现的次数n称作频数。频数n与试验次数N的比值,称作N次试验或观察中事件E的频率,记作:f(E)n/N表1 试验次数与频率的变化趋势抛掷次数n出现正面的次数m出现正面的频率m/n404020400.50691200060190.501624000120120.5005从总的趋势来看,试验次数越大,频率的波动范围越小,逐渐趋向稳定,并在某一常数值 附近波动经验发现:事件E出现的可能性越大,则实际观测结果的频率越大,反之亦然。而概率是事件发生可能性大小的数量表示,因此,可以把事件把事件E的概率的概率P(E)定义为试验或定义为试验或观察次观察次N趋于无穷时相应频率趋于无穷时相应频率n/N的稳定值的稳定值P(E)=limf(E)=lim(n/N)概率的频率定义概率的频率定义因为试验或观察次数N为无穷是做不到的。因此,实际上可把观察次数N充分大时的频率作为概率的近似值在实际问题中,当概率不易求出时,往往就取当N充分大时的频率作为概率的近似值(比如出生率、死亡率、离婚率等)概率是理论值,概率是理论值,它由事件的本质所决定,其值是唯一的值是唯一的频率是试验值,频率是试验值,其值是波动的值是波动的,可以变化的,具有随机性,只能近似地反映事件出现可能性的大小从理论上讲,概率比频率要“完美”,它是反映事件出现可能性大小的唯一精确数值;但在实际中经常碰到的却是频率另一方面,虽然我们常用频率近似地代替概率,但并不能替换概率这个概念。有了概率这个概念,它可以把随机事件与一个精确反映事件出现可能性大小的数量紧密联系起来,这就是概率论要研究的内容2、古典法(事先法)利用模型本身所具有的对称性来事先求得概率(1)样本点和样本空间我们把随机试验中的每一种结果称作一个样本点 ,或称基本事件。所有样本点的全体称作样本空间S例2:投掷一枚硬币,其随机试验的样本点为: E1正面朝上 E2反面朝上 其随机试验的样本空间为: S正面朝上、反面朝上例3:投掷一颗骰子,其随机试验的样本点为: E1出现“1”点 E2 出现“2”点 E3出现“3”点 E4出现“4”点 E5出现“5”点 E6出现“6”点 其随机试验的样本空间为: S“1”, “2”, “3”, “4”,“5”,“6”(2)随机事件是基本事件自身或由基本事件组成的集合,它是样本空间S的某个子集例4:前例中“出现偶数点”就是一随机事件,它包括出现“2”, “4”, “6” 3个基本元素(或样本点):A( “2”, “4”, “6”)古典计算概率的方法:当随机试验满足以下两个条件:i. 它的样本空间只有有限个样本点;ii. 每个样本点出现的可能性相同。这种随机试验称作古典随机试验,简称古典概率 对于古典概率,如果事件A包含m个样本点,则事件A的概率为:对于随机试验,如果在事前它的结果可以一一无遗的列举出来,设这种结果共有n个。因此它满足有限、完备和互不相容同时这几种结果出现又是等可能的那么,对于研究的事件A,如果包含m个上述结果,则事件A的概率为:例5:随机试验“扔掷一枚硬币”共有两种结果,即两个样本点,n2,它们是:E1“正面朝上”E2“反面朝上”样本空间S为: SE1,E2由于E1和E2是等可能的,从而满足古典概率类型所以,随机事A“正面朝上”,只包含一个样本点E1,m1,所以有:可见,扔一枚硬币,出现“正面朝上”的概率为例6:全班9名同学,其中3名女生,求任抽一名是女生的概率设3名女生的代码是f1,f2,f36名男生的代码为m1,m2,m3,m4,m5,m6任抽一名,可出现9种结果,这9个样本点为:E1抽到“f1” E2 抽到“f2”E3抽到“f3”E4抽到“m1”E5抽到“m2”E6抽到“m3”E7抽到“m4”E8抽到“m5”E9抽到“m6”随机事件A任抽一名是女生,它包含3个样本点;而样本空间为9所以四、概率的运算1、事件的相互关系(1)事件的包含和相等如果A发生,则B必发生,称事件B包含A如果A包含B,同时B包含A,称A、B相等(等价)(2)事件的并和差A与B至少有一个发生的事件,称为事件A与B的并或和把A发生但B不发生的事件称为A与B的差并的概念可以推广A=A1+A2+A3+An含义:至少发生一个(3)事件的交A与B同时发生的事件,称为A与B的交或积可推广A=A1A2A3An含义:同时发生(4)事件的互不相容性(互斥事件)如果事件A与B不能同时发生,称是互不相容事件或互斥事件(5)对立事件(互逆事件)A与B不可能同时发生,但A与B必定有一个发生,与便是互逆事件或对立事件2、概率的运算(略)参见卢淑华社会统计学相关内容第五节 概率分布一、概率分布随机事件及其概率回答的是随机现象中某一局部的结果或称随机事件及其概率的大小概率分布:随机现象一共有多少种结果,以及每种结果所伴随的概率是多少例7:访谈3人,其中女性人数是随机现象,因为它可能包含以下4种可能:(0女性,3男性)(1女性,2男性)(2女性,1男性)(3女性,0男性)可见,为了进行研究,我们把随机现为了进行研究,我们把随机现象量化起来,便可以看作变量象量化起来,便可以看作变量,而把,而把随机现象各种结果看作变量随机现象各种结果看作变量的各种取的各种取值值于是上例变为:“访谈3人种女性人数”X1(0女性,3男性)X2 (1女性,2男性)X3(2女性,1男性)X4(3女性,0男性)可见,为了更好的对随机现象进行全面分析,为了更好的对随机现象进行全面分析,我们可以把它看作是变量及其取值来研究,我们可以把它看作是变量及其取值来研究,而前面所谈的随机事件只是变量的某个取值而前面所谈的随机事件只是变量的某个取值或某几个取值而已或某几个取值而已随机变量是以“量”的形式来描述随机现象。随机变量要研究的是随机变量有哪些可能的取值以及每一种取值对应的概率是多少当变量的取值满足了完备性和互不相容性,那么取值和概率对的集合:(X1,p1)(X2,p2) 就是随机变量的概率分布,简称概率分布注意注意:只有把现象的所有结果及其概率全部列举出来才是概率分布,如果仅列举其中某一个或者某几个结果都不能称作概率分布频率分布与概率分布频率分布是实验值,可变化(随机变量的理论分布)概率分布是理论值,是唯一的(随机变量的统计分布或经验分布)仅当观测次数很大时,随机变量取值的仅当观测次数很大时,随机变量取值的频率接近其概率,这时随机变量的统计频率接近其概率,这时随机变量的统计分布与理论分布将大致相符分布与理论分布将大致相符随机变量是随机事件的推广与外延;而随机变随机变量是随机事件的推广与外延;而随机变量的分布则是事件概率的自然推广和外延。量的分布则是事件概率的自然推广和外延。利用随机变量及其分布,可以全面考察试验结利用随机变量及其分布,可以全面考察试验结果,以揭示客观事物内在的统计规律性果,以揭示客观事物内在的统计规律性根据随机变量取值是否连续,可以分为离散型随机变量和连续型随机变量。下面分别讨论它们的概率分布:1、离散型随机变量:其取值可能是有限个或可数个值,这些取值都具有确定的概率包括定类、定序、定距、定比其概率分布可以表达为:P( =xi)=pi i=1,2n它表示当随机变量取值为xi时,所对应的概率为pi至于xi具体是什么,n等于多少,要根据随机现象的实际情况而定。但必须知道了全部xi值及其对应的概率pi值,概率分布才是确定的,可用概率分布表或分布图来表示2、连续型随机变量及其概率分布其可能取值连续地充满某个区间(年龄)只有定距以上层次才属于连续型随机变量讨论某一点取值的概率无意义,回顾直方图图示(1)矩形图(直方图) histogram与长条图的异同区分的关键:宽度有无实质意义直方图是以长条的面积(长与宽的乘积)来表示频次或相对频次条形的长度,即纵轴高度表示的是频次密度(单位组距所含有的频次)或相对频次密度密度:随机变量的分布密度或概率密度为:概率密度 有如下性质:0分布函数分布函数除了可以用概率分布和概率密度来分别研究离散型和连续型随机变量外,还可用一个统一的量来研究这两种不同类型的变量,就是分布函数分布函数F(x)F(x)=P( x)表示随机变量表示随机变量从最远起点(从最远起点(-)到所)到所研究的研究的x点的所有概率的总和点的所有概率的总和接近统计描述中向上累计频率接近统计描述中向上累计频率二、大数定理与中心极限定理大量观察:观察次数趋于无限时的极限行为l极限定理:l采取极限方法得出的一系列定理大数定理:研究在什么条件下,随机事件转化为不可能事件或必然事件中心极限定理:研究在什么条件下,随机变量的分布可以近似为正态分布(一)贝努里大数定理理解:只要n足够大,频率趋于概率,这是必然事件引申1:小概率事件的实际不可能性原理小概率事件的实际不可能性原理推翻或接受虚无假设的依据引申2:如果随机事件的概率很接近1,则可以认为在个别试验中该事件一定发生(二)切贝谢夫大数定理理解:只要试验次数n足够大,n个随机变量的均值和单个随机变量的数学期望的差可以任意地小。引申:统计分析中,可以用样本均值作为统计分析中,可以用样本均值作为总体均值的近似值总体均值的近似值(三)中心极限定理解释:假设被研究的随机变量可以表示为大量独立随机变量的和,其中每一个别随机变量对于总和只起微小的作用,则可以认为这个随机变量实际上是服从正态分布的。由于中心极限定理对随机变量的原有分布不作要求,因此,从理论上说明了正态分从理论上说明了正态分布的重要性和普遍性布的重要性和普遍性三、 基础分布(一)二项分布1、排列与组合(略)2、二项抽样分布如果在相同条件下进行n次相互独立的试验,每次试验只有两种可能结果,事件A出现的概率P(A)=p,事件A不出现的概率P( )1-p=q那么,n次试验中事件A出现次数 的概率分布为:P( x) (x0,1,2n)二项分布可简写作 B(n,p)B:Binominal Distributionn:独立试验的次数p:所研究的事件A在每次试验中所出现的概率n和p是二项分布的两个参数。确定后,二项分布即确定唯一。(二)正态分布1、意义在自然、经济、社会等领域内,大量随机变量都服从正态分布。任何变量,不管其原有分布如何,如果把它们n个加在一起,当n大于一定数之后,例如大于30,那么,其和的分布必然接近正态分布这就是有名的中心极限定理中心极限定理因此,可以说,在各种分布中,正态分布居于首要地位。2、特征(1)对称,单峰(一个最大值为均值),在均值加标准差处有拐点(2)从中央最高点向两端降低,速度慢快慢,接近x 轴,但不会为0(3)方差一定的情况下,均值大小决定图形的左右位置,但形状不变;均值一定的情况下,方差决定图形的陡峭程度(4)图形面积为1,某一部分的面积为随机变量在该区域的发生概率3、标准正态分布如果x 服从正态分布,而则z服从平均数为0,标准差为1的正态分布,我们称之为标准正态分布,z称为x 的标准分数或z分数标准化后可查表得到特定领域的面积值4、相关定理(1) n个随机变量独立,都服从正态分布,则这些变量的和仍服从正态分布(2)服从正态分布的随机变量的线性函数仍服从正态分布(3)试验次数无穷大时,二项分布趋于试验次数无穷大时,二项分布趋于正态分布正态分布四、抽样分布以一个个样本为单位构成的分布(参见卢淑华书235243页)标准误(差)抽样分布的标准差(一)均值抽样分布特征: 1、正态分布(众值、中位值、均值相同) 2、抽样分布之均值就是总体之均值(各样本均值总体均值)由于均值的抽样分布是正态分布,所以具有前述(标准化)正态分布的特征,也就可以根据我们所研究的样本的均值在此理可以根据我们所研究的样本的均值在此理论性抽样分布之间的位置来推断我们样本论性抽样分布之间的位置来推断我们样本的好坏、由样本情况来推测总体的情况。的好坏、由样本情况来推测总体的情况。(二)抽样分布的重要性1、抽样分布与调查数据密切相关,又包含总体的信息2、提高了推论的精确程度抽样分布的标准误和在此基础上得到z或t的表达式,在参数估计和假设检验中得到广泛运用,是参数估计和假设检验的主要依据(三)统计推论逻辑思路1、最终目的总体参数值样本统计值估算验证2、思路常用分布常用分布(统计理论确定)(统计理论确定)根据样本计算特定统计量,判断此统计量在理论分布中出现的概率情况此过程称为“统计推论”* 概率与统计推论统计推论:适用于抽样调查资料的处理根据局部资料(样本资料)对总体的特征进行推断,属于归纳推理的范畴,结论大于前提,不可能保证100%正确。特点:1、由于局部资料源于总体,因此局部资料的特性在某种程度上能反映总体的特性。例如,总体中女性所占比例高,那么样本中女性比例高的可能性也大些。 2、由于社会资料的随机性,即抽样结果不是唯一的,又使得一次抽样结果不能恰好就等于总体的结果。更何况当总体参数不知道的情况下,即便碰上了我们也未必知道。这种“抽样结果与总体参数不一致”是随机现象在推论中所特有的。也是进行推论的难点所在。总体样本概率论概率论概率论:在一定条件下,总体的各种抽样结果所具有的概率特性。统计推论统计推论:在发生了某种抽样结果的情况下,判断它来自何种总体更为合理。第六节第六节 参数估计参数估计根据抽样结果来合理估计总体参数的大概情况一、 点值估计(一)原理以一个最适当的样本统计值来代表总体的参数值样本越大,抽样方法越严谨,点值估计越可信(二)衡量点估计的标准1、无偏性统计量的数学期望等于未知参数2、有效性在无偏估计的条件下,方差越小的估计量越有效3、一致性(大数定理)(三)求点估计的方法最大似然法根据观测值,采用极值的方法对未知参数进行估计的一种方法(四)估计值均值方差二、 区间估计(一)原理 在抽样调查时,虽然我们介绍了参数的点估计方法,但是由于真正的参数我们并不知道,因此我们无法知道由样本所计算的点估计值到底距离真值有多少,也就是我们无法知道点估计的精度如何,为此,我们想到用一个范围或区用一个范围或区间来对未知参数进行估计间来对未知参数进行估计。(二)基本概念1、显著性水平(临界水平)称显著性水平,表示置信区间估计不可靠的概率概率。“你所估计的区间不包含待估参数”这样一个随机事件发生的概率是多少2、置信概率(置信度、置信系数或可信度)置信区间估计的可靠性,一般用(1-)表示“你所估计的区间包含待估参数”这样一个随机事件发生的概率是多少显然,置信度与显著性水平之和为1对一个具体问题,如果提出置信度要求为0.95,那就意味着显著性水平为0.053、置信区间在一定置信概率的前提下,总体参数所在的范围称为置信区间它反映估计的精确性,区间范围越小说明估计越精确置信度越大(即估计的可靠性越大,则相应的置信区间也越宽(估计的越不精确)各种具体的区间估计1、总体平均数的区间估计2、总体比例的区间估计3、平均数差异的区间估计4、比例差异的区间估计5、相关系数r的区间估计
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号