资源预览内容
第1页 / 共75页
第2页 / 共75页
第3页 / 共75页
第4页 / 共75页
第5页 / 共75页
第6页 / 共75页
第7页 / 共75页
第8页 / 共75页
第9页 / 共75页
第10页 / 共75页
亲,该文档总共75页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
建模中的概率统计原理及方法1数据的统计描述及分析参数估计假设检验主 要 内 容随机变量及其分布2一、随机变量及其分布1.二项分布例1.能量供应问题假定有 个工人间歇性地使用电力,估计所需要 的总负荷。首先我们要知道,或者是假定,每个工人彼此独立工作, 而每一时刻每个工人都以相同的概率p需要一个单位的电力。 那么,同时使用电力的人数就是一个随机变量,它服从所谓的 二项分布。用X表示这个随机变量,记做 ,且这是非常重要的一类概率分布。其中 E(X)np, D(X)=np(1-p)。 3其次,要根据经验来估计出,p值是多少?例如,一个工人 在一个小时里有12分钟在使用电力,那么应该有最后,利用公式我们求出随机变量X的概率分布表如下:X012345678910P0.1073740.26843 50.301990.20132 70.088080.02642 40.00550 50.00078 60.00007 40.00000 40.00000 0累积 概率0.1073740.375810.67780.87912 60.96720 70.99363 10.99913 60.99992 20.99999 611为直观计,我们给出如下概率分布图:4可以看出,也就是说,如果供应6个单位的电力,则超负荷工作的 概率只有0.000864,即每中,才可能有一分钟电力不够用。还可以算出,八个或八 个以上工人同时使用电力的概率就更小了,比上面概率的 1/11还要小。问题:二项分布是一个重要的用来计数的分布。什么 样的随机变量会服从二项分布?进行n次独立观测,在每次观测中所关心的事件出现 的概率都是p,那么在这n次观测中事件A出现的总次数 是一个服从二项分布B(n,p)。5练习:用MATLAB计算本题binopdf(x,n,p) 计算x中每个值对应的二项分布概率binocdf(x,n,p) 计算x中每个值对应的分布函数值 例如binopdf(0:10,10,0.2)62.Poisson分布例2.Rutherford 对裂变物质的观测英国著名物理学家 Rutherford(18711937)在其放射性 物质试验中,观测在时间间隔T内放射性物质放射出的粒子 数。实际试验时,取时间间隔为T=7.5秒,观测了N2608次 ,将每次观测到的粒子数记录下来,列在下表中第1,2行:粒子数 X0123456789=10频数n57203383525532408273139452716频率f0.02185 60.07783 70.14685 60.20130 40.20398 80.15644 20.10467 80.05329 80.01725 50.01035 30.00613 5概率p0.02085 80.08072 20.15619 70.20149 40.19494 50.15088 80.09732 30.05380 50.02602 80.01119 20.00654 77我们用X表示T=7.5秒内观测到的粒子数,它是一个随机变量,服从什么分布呢?在2608次观测中,共观测到10094个粒子数,平均每次观测到=MN1009426083.87个粒子数,用参数为=3.87的Poisson分布P计算一下: 将计算结果列在上表中最后一行,与列在第3行的实际频 率比较,比较的图示在下图中。(Excel)8可以看出,认为X服从参数为3.87的Poisson分布还是非常 合理的。在后面统计部分,我们会用Pearson 拟合检验法来 证明这种合理性9问题:Poisson分布是又一类非常重要的用来计数的离散型分布,它依赖于一个参数 。什么 样的随机变量会服从Poisson分布呢?练习:用MATLAB计算本题poisspdf(x,),计算poisson概率,例如,poisspdf(0:9,3.87)10在给定的观测范围内(例如给定时间内,给定区域内等等),事件会发生多少次?把观测范围分成n个小范围: 1.给定事件在每个小范围内可能发生,也可能不发生,发生多少次取决于小范围的大小; 2.在不同的小范围内发生多少事件相互独立; 3.在小范围里发生的事件数多于一个的概率,和小范围的大小相比可以忽略不计,用 表示在小范围内事件发生一次的概率。那么在给定范围内发生的总事件数X近似服从 , 为给定范围内事件发生次数的近似平均值。令 ,则 为给定范围内事件发生次数的准确平均值,这时这正是Poisson分布,其中参数113. 正态分布则称此随机变量服从参数为 的正态分布,记做 ,其中 都是给定的参数, 。称 为标准正态分布,用 表示其分布函数,其密度函数为时,我们有随机变量X如果有密度函数12大量连续型随机变量服从正态分布,所以正态分布在 处理数据时是非常有用处的。我们在统计部分会大量用 到它。下面是正态分布的密度函数图像:134.指数分布称随机变量X服从参数为1的指数分布或标准指数 分布,若它有密度函数它的分布函数为14设 是给定常数,则Y的分布函数为其密度函数为这是一般的指数分布。15b0的指数分布的密度函数图像如下所示(指数密度):可见,随着的减小,随机变量取到较大值的概率增加事实上, 随机变量的数学期望。指数随机变量经常用来刻画寿命。 165. 多维随机变量我们经常需要考虑量与量之间的关系,如果这些量是随机变量,那么就需要把多个随机变量放在一起,考虑多元随机变量。设 是n元随机变量,它的分布函数是一个n元函数:利用这个分布函数就可以讨论这n个随机变量之 间各种各样的关系。17(1)边际分布与独立性相互独立当且仅当(2)相关系数两个随机变量X,Y之间的相关系数定义为其中相关系数刻画了随机变量之间的线性相关程度 ,越接近于0,线性相关关系越弱。 1819综上所述,我们知道在概率论里学过许多分布, 当然,还有许多分布我们没有学过。但是,在实践中 我们可能会遇到各种各样的分布,甚至还有没被发现 的分布。在处理数据的时候,我们要搞清楚:1.数据是哪个或哪些指标的取值? 2.这个或这些指标是不是随机变量或随机向量? 3.如果是,那么它服从什么分布? 4.用统计方法确定分布? 5.分布确定后,用概率方法求出问题的解。下面我们就讨论用统计方法确定分布的问题。20二、 数据的统计描述与分析 1.经验分布函数和频率直方图当我们确定讨论的指标的确是随机变量后, 剩下的关键任务就是确定它的分布。那么它的 观测数据就是我们赖以解决问题的基本资料, 叫做样本,而这个随机变量就叫做总体。这些 数据反映了该随机变量分布的基本特征。我们 可以利用这些数据构造一个分布函数,理论上 可以证明它很接近于那个未知分布。这个分布 函数就叫做经验分布函数。21在例2,我们确定所讨论的指标在时间间隔T秒 内放射出的粒子数X,是一个随机变量。且有该随机 变量的n2608个观测值,这就是一个容量为2608的样 本。在没有其他信息的情况下,首先应该给出该样本的 经验分布函数:例6.例2续(经验分布函数)在这里我们可求出这个经验分布函数如下:2223这个函数的图像如下(Poisson2):如果熟悉Poisson分布的分布函数图像的话, 就可以从这个图像判断出,X可能服从参数为3.87 的Poisson分布。从这个经验分布函数容易解决概 率计算问题:24当然,由于是离散型的随机变量,我们可能更熟 悉如下频率分布图像:也就是说,对于离散型随机变量,我们更常用的方法是 绘制这种频率分布图。为了判断分布的类型, 对于离散型随机变量,要绘制频率分布图! 作业:用MATLAB计算本例。 25例7、超市问题(频率直方图) 随机抽取某大学超市137位顾客的购买金额的实际记录 (单位:元),数据如下。请问购买金额服从什么分布?65.209.9029.7261.1016.9214.3824.1316.9929.33 4.399.8085.9622.5037.1932.318.4035.0341.706.084.906.2820.401.807.902.5015.0529.2711.1011.0826.1017.5023.0523.123.0012.8813.189.0044.094.0045.4533.6921.9217.003.4016.306.6011.3642.308.007.4014.986.0544.9440.1460.051.5029.5818.306.0031.104.8016.343.2024.536.677.7249.4010.0316.3023.6012.705.0025.357.9264.801.393.0013.600.9020.2027.2021.9313.280.9010.095.0027.4535.604.222.0020.902.0011.078.974.158.703.5017.2460.343.3027.4832.0055.4815.125.6112.400.9511.8018.6037.342.0034.079.1011.590.7028.0013.202.004.503.973.666.253.9019.6016.882.002.8025.162.865.7010.254.059.004.203.501.902.7626用X表示顾客的购买金额,那么它应该是一个连续型的随机 变量。对于连续型的随机变量,我们一般就不作它的经验分布 函数了,而是改作它的频率直方图。一般认为,X应该服从正态 分布,数学期望为 其实不然,其频率直方图如下图所示:(超市)27它很像参数为的指数分布密度函数,如图中红色曲线所示。所以我们就认为X 的分布是这样的一个指数分布。例如,给定可以求出表明该店顾客一次消费金额在20元以下的人数占到近七成。 这是什么原因呢?原来这是一家小型社区超市,人们只来买日用 品,不在这里买大件。这对超市的经营管理是一个重要信息。 对于连续型随机变量,要绘制频率直方图! 作业:1、用Excel完成本例;2、经验分布函数。28经验分布函数、频率分布图和频率直方图可以帮助 我们了解随机变量的类型。当我们已经了解到随机变量 的分布类型后,该随机变量的分布一般就取决于一个或 几个参数了。如果知道了这些参数,就可以把分布完全 确定下来。那么,如何确定这未知参数呢?(参数估计)292.常用统计量及其分布30313.几个在统计中常用的概率分布-4-2024600.050.10.150.20.250.30.350.4(1)正态分布),(2smN密度函数:222)(21)(smsp-=x exp分布函数:dyexFyx222)(21)(smsp-=其中m为均值,2s为方差,+50),按中心极限定理,它近似地服从正态分布; b.使用Matlab工具箱中具有特定分布总体的估计命令. (1)muhat, muci = expfit(X,alpha)- 在显著 性水平alpha下,求指数分布的数据X的均值的点估计及其区间估 计. (2)lambdahat, lambdaci = poissfit(X,alpha)- - 在显著性水平alpha下,求泊松分布的数据X 的参数的点 估计及其区间估计. (3)phat, pci = weibfit(X,alpha)- 在显著性 水平alpha下,求Weibull分布的数据X 的参数的点估计及其区 间估计.返回 656.假设检验在总体服从正态分布的情况下,可用以下命令进行假设
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号