资源预览内容
第1页 / 共36页
第2页 / 共36页
第3页 / 共36页
第4页 / 共36页
第5页 / 共36页
第6页 / 共36页
第7页 / 共36页
第8页 / 共36页
第9页 / 共36页
第10页 / 共36页
亲,该文档总共36页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1,正态分布,1.1 什么是正态分布? 对于连续型随机变量而言,正态分布是最重要的一种概率分布,其形状似“钟型”。 经验表明:对于其值依赖于众多微小因素且每一因素均产生微小的或正或负影响的连续型随机变量来说,正态分布是一个相当好的描述模型。如身高、体重、考试成绩等。,2,为了方便,通常用:,表示随机变量X服从正态分布。 符号表示随机变量服从什么样的分布; N表示正态分布; ,为正态分布的(总体)均值(或期望)和方差。 X是一个连续型随机变量,可在区间(,+)内任意取值。,3,-,-2,2,68%(近似),3,-3,95%(近似),99.7%(近似),正态曲线下的区域示意图,4,1.2 正态分布的性质:, 正态分布曲线以均值为中心,对称分布。 正态分布的概率密度函数呈中间高、两边低,在均值处达到最高,向两边逐渐降低,即随机变量在远离均值处取值的概率逐渐变小。 正态曲线下的面积约有68%位于 两值之间;约有95%面积位于2之间;约有99.7%的面积位于 3之间。这些区域可用作概率的度量。,5, 正态分布可由两个参数,来描述,即一旦知道,的值,就可以根据附录表查到随机变量X落于某一区间的概率值。 两个(或多个)正态分布随机变量的线性组合仍服从正态分布。该性质很重要,解释如下:,6,令:,假定X和Y相互独立,设a、b为常数,考虑线性组合:W=aX+bY 则有:,其中,,7,1.3 标准正态分布,由于期望和方差的不同,正态分布之间会存在一定的区别(见下图),如何将其简单化,从而引入标准正态分布。,1,2,不同均值,同方差的两个正态分布图,8,1,2,1=2,不同均值,不同方差,相同均值,不同方差,9,标准正态分布,如果变量X的均值为,方差为,定义一个新的变量Z,,则根据性质5,变量Z的均值为0,方差为1。在统计学中,我们称之为单位或标准正态变量,用符号表示为:,任一给定均值和方差的正态变量都可转化为标准正态变量,将其标准化可以大大简化计算。,10,例:变量X表示面包房每日出售的面包量,假定它服从均值为70、方差为9的正态分布,即XN(70,9),求任给一天,出售面包数量大于75条的概率。 首先,定义变量Z,Z=(75-70)/31.67 求:P(Z1.67) 查正态分布表得: P(0Z1.67)=0.4525 则:P(Z1.67)=0.5-0.4525=0.0475 即每天出售面包的数量超过75条的概率为0.0475。,11,1.67,0,0.4525,0.0475,f(Z),标准正态变量概率密度函数,12,t分布,回忆:若样本均值 ,则变量Z服从标准正态分布。,即:,假定已知和的估计量S,则可以用样本标准差(S)代替总体标准差(),得到一个新的变量t。,13,根据统计理论得知:变量t服从自由度为(n-1)的t分布。 注意:在这里,自由度为(n-1),而不是n。 结论:从正态总体中抽取随机样本,若该正态总体的均值为,但方差用其估计量S来代替,则其样本均值服从t分布。通常用符号tk表示,其中k表示自由度。,14,k=120(正态),K=20,K=5,0,不同自由度下的分布,15,t分布的性质, t分布与正态分布相类似,具有对称性。 t分布的均值与标准正态分布均值相同,为0,但方差为k/(k-2)。由此,在求t分布的方差时定义自由度必须大于2。 标准正态分布的方差等于1,因此,t分布方差总大于标准分布的方差,也就是说,t分布比正态分布略“胖”些。,16,t分布与正态分布: 当k增大时,t分布的方差接近于标准正态分布方差值1。 例如:当k=10时,t分布的方差为10/8=1.25; 当k=30时,t分布的方差为30/28=1.07; 当k=100时,t分布的方差为100/98=1.02; 结论:随着自由度的逐渐增大,t分布近似于正态分布。 注意:对于t分布,不要求其样本容量很大,k=30时,t分布与正态分布已很近似。,17,t分布表的使用:,0,-1.812,1.812,例:自由度为10,P(t1.812)=P(t1.812)=P(t1.812)+P(t-1.812)=0.1,0.05,0.05,18,t分布表举例:,例:变量X表示面包房每日出售的面包量,在15天内,出售面包的样本方差为16。假定真实的出售量为70条,求任意15天内出售面包平均数量为74条的概率。 分析:本例中已知样本方差S=16,则S=4,总体均值(真实的出售量)=70,运用t变量公式得:,19,查t分布表,自由度为(n-1)=15-1=14 当自由度为14时,查表得,t值大于等于2.977的概率为0.005,大于等于4.140的概率为0.0005,所以,t值大于等于3.873的概率介于0.00050.005之间。 练习1: 上例中其他条件不变,现假定15天内出售面包的平均数量为72条,求获得此数量的概率。,20,按照上述步骤,首先运用t变量公式,求出t变量。,查t分布表,当自由度为14时,t值大于等于1.761的概率为0.05,大于等于2.145的概率为0.025,因此,t值取1.936的概率介于0.025与0.05之间。,21,查t分布表的注意事项: 自由度为(n-1),而不是n。 t分布表具有对称性,t值大于等于某一特定值的概率与t值小于等于该特定值相反数的概率相等。,22,关注某一总体,如纽约股票交易市场的1758支(90年9月4日)股票,想要研究该总体某一方面的统计特征,比如说股票价格与收入比(P/E)的平均值。在总体中抽取随机样本,如50支股票,求样本中每一支股票的P/E值,然后再计算平均P/E值,就称为总体平均P/E的估计量,23,6 7 8 9 10 11 12 13 14 15 16 18,P/E,频数,2 2 5 6 5 7 5 4 3 4 6 1,均值=11.5 样本方差=9.2755 样本标准差=3.0456,总计:50,假设的样本(50支股票的P/E值),24,假设检验,假设真实的x 取某一特定值,如x =13。然后去检验这个假设,检验结果是接受或拒绝该假设?下面以此为例说明。,25,用假设的语言,将x =13称为零假设,用符号H0表示。即,H0: x =13 与零假设相对应的是备择假设,用符号H1表示,备择假设有以下几种形式: H1: x13 称为单边备择假设; H1: x13 称为单边备择假设; H1: x13 称为双边备择假设。 为了检验零假设(和备择假设),根据样本数据及统计理论建立判定规则来判断样本信息是否支持零假设。若支持,不拒绝零假设,反之拒绝零假设,接受备择假设。 建立判定规则有两种方法:置信区间法、显著性检验法。,26,4.1 置信区间法,在上述例子中,我们知道样本均值服从均值为x ,方差为/n的正态分布,由于真实的方差未知,以样本方差代替。在这种情况下,样本均值服从t分布,从而得到x 的一个95%的置信区间:10.63 x 12.36 (近似值) 置信区间提供了在某一置信度下(如95%)真实的x 的取值范围。因此,如果这个区间不包括零假设中的值,如x =13,则拒绝零假设,即我们以95%的置信度拒绝零假设。反之,接受零假设。,27,接受区域:上述不等式所描述的置信区间称为接受区域。 零假设的临界区域(或拒绝区域):接受区域以外的称为零假设的临界区域或拒绝区域。 临界值:接受区域的上界和下界称为临界值。它们是接受或拒绝零假设的分界线。 归纳:如果参数值在零假设下位于接受区域内,则不拒绝零假设,若落在接受区域以外(即落在拒绝区域内),则拒绝零假设。,10.63,12.36,P/E值,P/E总体均值的95%的置信区间,28,例:坛子里的花生的重量服从正态分布,但均值和方差是未知的。随机选取20个坛子,发现其样本均值和样本方差分别为6.5和4。检验零假设:真实均值为7.5;备则假设:真实均值不是7.5。给定显著水平1%。 分析:令X代表坛子中花生的重量,因此, XN(x ,),两个参数x 和均是未知的。由于知道样本方差,故设计t变量,它服从自由度为19的t分布。,29,查t分布表得:当自由度为19时, P(-2.861t2.861)=0.99 整理得出:,将已知条件代入,得: 5.22 x 7.78 (近似值) 由于该区间包括了零假设值7.5,因此,我们不拒绝零假设:真实的x =7.5。,30,5.22,7.78,7.5,0.5%,99%,0.5%,H0:x =7.5,a) x的99%的置信区间,31,4.3 显著性检验,显著性检验是一种两者择一的假设检验,现通过P/E一例加以说明。 根据以下公式可知:,服从自由度为(n-1)的t分布。在具体应用中,、S、n已知, x 未知。,32,在零假设下设定x 为一给定值,从而求出t值。由于该式中的t值服从自由度为(n-1)的t分布,根据t分布很容易求出获此t值的概率。 显著性检验方法的关键之处是检验统计量(t统计量)以及在假定x 为一给定值下该t统计量的概率分布。,33,在P/E例子中, =11.5,S=3.0456,n=50。 令H0: x =13,H1: x 13,则有: t =(11.5-13)/(3.0456/50)=-3.4826 根据该t值能否拒绝零假设呢?在没有设定置信水平之前,无法回答这个问题。现假定置信水平为5%,即 =5%。,34,当自由度为49时,在5%的显著水平下,查表得临界的t值为-2.0096和2.0096 (见下图) ,获此t值小于或等于-2.0096的概率为2.5%,获得此t值大于或等于2.0096的概率也为2.5%。,95%, =2.5%,=2.5%,t =-3.5,-2.0096,2.0096,0,t检验的显著性:双边检验,35,显然,t值位于t分布的左侧拒绝区域。因此,拒绝零假设。,36,零H0,备择假设,临界区域,拒绝H0,若,x= 0,x0,x= 0,x0,x= 0,x0,t检验小结,最后一列给出了t临界值,第一个下标表示显著水平,d.t代表自由度。,
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号