资源预览内容
第1页 / 共71页
第2页 / 共71页
第3页 / 共71页
第4页 / 共71页
第5页 / 共71页
第6页 / 共71页
第7页 / 共71页
第8页 / 共71页
第9页 / 共71页
第10页 / 共71页
亲,该文档总共71页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第三讲第三讲 概率及概率分布概率及概率分布沈建荣概率及概率分布一、概率定义与计算一、概率定义与计算(略)略)概率及概率分布二、二、随机变量的统计特性随机变量的统计特性概率及概率分布连续型随机变量的描述及特征n设f(x)为连续型随机变量X的概率密度函数,则累积分累积分布函数布函数为n连续型随机变量的期望(均值)、总体中位数期望(均值)、总体中位数xmn连续型随机变量的方差方差概率及概率分布例1a (连续型随机变量)n某厂加工一种圆孔套件,轴与孔径的间隙为随机变量X(cm),其概率分布密度函数为:1、若间隙大于、若间隙大于0.8则不合则不合格,问该厂加工的废品率格,问该厂加工的废品率是多少?是多少?2、优等品(间隙小于、优等品(间隙小于0.4)的比例是多少?)的比例是多少?3、求间隙的均值、总体中、求间隙的均值、总体中位数和方差。位数和方差。概率及概率分布计算1、废品率:面积即为概率概率及概率分布计算2、优等品率:面积即为概率概率及概率分布计算3、均值、总体中位数和方差:概率及概率分布例1b (离散型随机变量)n某保险公司设计一款一日游健康保险产品。根据市场调查,产品设计为:轻伤赔付500元(平均发生比例1%),重伤赔付10000元(平均发生比例0.1%),死亡赔付200000元(平均发生比例0.01%)。问按照盈亏平衡原则的收费最少为多少?概率及概率分布分析n只需计算出每一份产品的理赔值即可。因为该变量为不确定的随机变量,所以应该计算变量的期望值。n(产品价格当然还应加上产品的销售、管理等等成本以及合理的利润点,关于这些方面的问题,本例不作探讨)概率及概率分布计算n记理赔值为随机变量X,则X的概率分配为:X(元)P(X=x)备注5001%轻伤100000.1%重伤2000000.01%死亡099.89%无事故概率及概率分布续产品价格不能低于理赔额,保单价格应为35元加上管理和销售成本,再加上合理的利润。概率及概率分布随机变量的线性函数n随机变量的线性函数线性函数n期望(均值)期望(均值)n方差方差概率及概率分布例2n某地居民家庭平均年收入为2.5万元,方差为1。人们习惯将收入的25%扣除500元的保险后作为储蓄,问该地家庭年均储蓄为多少?方差多少?n计算:概率及概率分布独立随机变量线性组合的均值与方差n如果X1,X2,Xp为相互独立的随机变量,则线性组合n期望n方差概率及概率分布例3n在例1中,设套件直径的均值为30.35cm,标准差为0.03cm,轴直径30.25cm。标准差为0.02cm。求间隙的均值,假设轴和套的选取是相互独立的,求间隙的标准差。概率及概率分布计算n设套孔直径为X1,轴直径X2,则间隙:概率及概率分布联合连续型随机变量n如果随机变量X和Y的概率可以通过对一个二元函数的积分得到,则称X和Y是联合连续,这个二元函数称为X和Y的联合概率联合概率密度函数(joint probability density function)概率及概率分布边际概率密度函数(marginal probability density function)n联合概率密度函数关于其中一个变量的全部积分即得到另一个随机变量的边际概率边际概率密度函数。概率及概率分布条件分布概率密度函数(conditional probability density function)n设X和Y为联合连续型随机变量,联合概率密度为f(x,y),在给定X=x的条件下,Y的条件概率条件概率密度函数为:在给定X=x的条件下,Y的条件期望条件期望为:概率及概率分布独立性n当下列条件成立时,称X和Y是相互独立独立的即随机变量的独立与事件的独立很相似,Y的条件分布不依赖于Xn显然,当X和Y是相互独立独立的,则有概率及概率分布协方差(covariance)n当两个随机变量不独立时,协方差可以衡量二者之间的关系关系方向与强度。n随机变量X和Y的总体协方差总体协方差概率及概率分布例5an某物体在由坐标系X轴、直线x=1以及直线y=x围成的区域A(如图示)内随机出现,(X,Y)表示物体在某一时间内出现的位置,且X和Y的联合概率密度为:求X和Y的协方差。概率及概率分布计算(X的边际概率密度)的边际概率密度)(Y的边际概率密度)的边际概率密度)(X的期望)的期望)(Y的期望)的期望)(XY的期望)的期望)概率及概率分布例5bn已知(X,Y)服从二维正态分布N(a,b,12,22,),联合概率密度函数为:试计算y的概率密度函数。概率及概率分布计算n先计算X的边际概率密度函数:注意到:概率及概率分布续n积分得到:概率及概率分布续n作代数变换:n代入前式得:即X的边际概率分布依然是正态分布N(a, 12), 。概率及概率分布续n进一步计算出Y的条件密度函数为:nY的期望条件为:概率及概率分布相关系数n协方差包含着两个随机变量的单位,当多个随机变量两两比较时,就无法确定相互间关系的强弱,相关系数可以解决这一问题。n总体相关系数(population correlation)定义为:可以证明,对于任意两个随机变量均有:概率及概率分布随机变量线性组合的的均值与方差n特别地有:概率及概率分布例6:鸡蛋应该放在不同篮子里吗?n有两个项目,每个需投资100万元,预期投资回报为随机变量。假设投资回报期望都是10万元,已知不确定性(标准差)都是4万元,且两个项目之间存在相关关系,相关系数假设为0.5。现在你有200万元投资款,你应该将全部资金投于一个项目还是分投两个项目?概率及概率分布分析n投资(尤其是短期)决策主要考虑两个因素:预期投资回报和风险。预期投资回报可以用随机变量的期望来衡量;分析则可以用随机变量标准差来衡量。n若投资回报相同,则选择风险较小的方案;n若投资回报不同相同,则根据决策者的风险偏好来选择方案。(另:人类是风险喜好者还是规避者?如果你是房产投资人,试考虑买和卖的决策过程。)概率及概率分布计算n设随机变量X和Y分别表示两个项目的投资回报,则可以表示:预期回报和分析为:n方案方案1:分别投资于两个项目,则预期回报和风险分别为:概率及概率分布方案方案2:全部投资于1个项目,则预期回报和风险分别为:n显然,方案方案1优于方案优于方案2。n问题并没有结束,试考虑:投资中的对冲问题;投资中的对冲问题;跨行业分散投资问题。跨行业分散投资问题。概率及概率分布独立简单随机样本n如果X1,X2,Xn为抽取自同一总体的独立随机样本独立随机样本,样本均值n则均值的期望均值的期望为:n均值的方差:均值的方差:概率及概率分布例4n某机构希望调查一个城市中居民家庭对某一商品的月均消费水平(平均)。根据其它类似城市的调查已知该消费值的标准差约为50元。现要求本次调查的偏差(以标准差计)不超过2元,问至少需要多大的样本容量?概率及概率分布计算n设随机变量X代表月均消费, X1,X2,Xn代表独立随机抽出的样本,则显然有样本均值的期望等于总体均值:而样本均值的标准差为:因此,需要抽取至少625户。思考:如果只抽取一如果只抽取一户,误差为多户,误差为多少?少?抽取抽取2户呢?户呢?为什么要抽取为什么要抽取那么多的样本那么多的样本?概率及概率分布大数定理n设X1,X2,Xn为iid(独立同分布)随机变量,公共期望为m,方差s2存在且有限。则对任意给定的e0有:n该定理证明了:当 n 很大时,Xi的平均值是依概率收敛于期望的。概率及概率分布Lindberg中心极限定理n设X1,X2,Xn为iid(独立同分布)随机变量,公共期望为m,方差s2存在且有限。则对任意给定的实数 x有:n换言之:当 n 很大时,Xi的平均值:F(x)是N(0,1)标准正态分布的累积分布函数。概率及概率分布课外作业n用EXCEL从以下3个分布中,分别各以样本数n=5和n=30进行随机抽样,计算样本均值,重复500次,绘出500个均值的频数直方图。将各个分布的图形与N(2.5,0.5)和N(2.5,0.0833)以及N(2.5,0.37)、 N(2.5,0.0617)图形对比。1、 泊松分布:Poisson(2.5)2、离散双峰分布,概率分布如下:X1234P(X=x)0.40.10.10.4概率及概率分布三、常用的概率分布三、常用的概率分布概率及概率分布伯努利分布(Bernoulli distribution)n伯努利实验:一个实验只有两种可能的结果:“成功”和“失败”,概率分别为p和1-p。n定义随机变量X:实验成功则X=1,否则为0n称X是服从参数为p的伯努利分布,记为:易得:概率及概率分布二项分布(binomial distribution)n假设进行了n次独立的伯努利实验,记X为n次试验中成功的总次数。n称X是服从参数为n和p的二项分布,记为:n根据概率计算可得X的概率分布函数:均值和方差为:概率及概率分布泊松分布(Poisson distribution)n当n足够大且p非常小时,可以用形式上更简洁的泊松分布来近似二项分布,记为:n其概率分布函数为:均值和方差为:概率及概率分布正态分布 ( normal distribution )n理论概率密度函数为:均值和方差为:记为:对于相互独立且服从正态分布的随机变量的线性组合有:概率及概率分布标准正态分布( standard normal distribution )n正态分布的期望值为0,标准差为1时称为标准正态分布,记为ZN(0,1)n随机变量X经过标准化变换后:概率及概率分布问题7:请判断我国居民家庭财产是否符合正态分布?n资料:1、国家统计局城市调查总队于2002年5月7月在河北、天津、山东、江苏、广东、四川、甘肃、辽宁等8个省(直辖市)采取多相抽样的方式抽取了大、中、小城市3997户居民家庭作为有效样本户,由专职调查员进行了入户问卷调查。调查结果显示,截止到2002年6月底,城市居民家庭财产户均总值为22.83万元。 近一半城市居民的家庭财产集中在15万30万元之间。有48.5的被调查户家庭财产在15万30万元之间,有34.8的被调查户家庭财产在15万元以下,有16.7的被调查户家庭财产在30万元以上。 2、福布斯 “2011中国富豪排行榜”,中国个人或家族资产超过10亿美元(约合64亿元人民币)的亿万富豪人数,达到了前所未有的146人;3、据2011年胡润中国富豪排行榜,有超过1000人的财富超过20亿元人民币;4、据群邑智库2011胡润财富报告,中国千万富豪达96万人,其中包括6万个亿万富豪。 概率及概率分布续n2012年6月1日,美国波士顿咨询公司发布全球财富报告。报告称中国648个超级富豪家庭财产每个逾1亿美元,排名全球第5。该报告主要比较的是百万富豪家庭数量。2011年,中国百万富豪家庭数量达到143.2万户,在2010年,中国拥有129.3万百万富豪家庭,而2009年这一数据为85万,2005年为41万。n其中,美国以513万户位居榜首位置,不过,其数量减少了12.9万户。日本则位居第二位,这一数字达到158万户。中国和英国紧随其后位居第三和第四位。概率及概率分布样本数据是否属于正态总体的判断(1):图示nP-P图以样本的累计频率作为横坐标,以按照正态分布计算的相应累计概率作为纵坐标,以样本值作散点图。nQ-Q图 以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,以样本值作散点图。如果数据服从正态分布,则以上两种图中,样本点应围绕第一象限的对角线分布。 n此外,直方图、箱线图、茎叶图等也可作直观判断。概率及概率分布例:用图示方法检查样本Xi的正态性iXi13.0123.3534.7945.9657.89概率及概率分布判断(2):参数检验n偏度系数(Skewness)和峰度系数(Kurtosis)检验法:偏度系数 S和峰度系数K分别定义为:n nS0时,分布呈正偏(右偏)态,S0时为尖峰分布,K0时为扁平分布;当S=0,K=0时分布呈正态分布。概率及概率分布续n方法方法1:偏态与峰态的检验:偏态与峰态的检验n检验原假设X服从正态分布,统计量S和K有近似分布: n对于给定的,拒绝域为: 概率及概率分布续n方法方法2:Jarque-Bera检验检验n检验原假设X服从正态分布,统计量JB有近似分布: n对于给定的,拒接域为: 概率及概率分布判断(3):非参数检验nShapiro-Wilk ( W检验检验 ) n原假设为xi来自于正态分布总体,检验统计量:n其中:x(i)为样本的秩统计量(或顺序统计量,order statistic);为来自iid样本的秩统计量的期望V为秩统计量的协方差阵。概率及概率分布续n当原假设为真时,W的值应接近于1,若值过小,则怀疑原假设,从而拒绝域为:n在给定的水平下 :n还有其它非参数正态性检验方法,如基于经验分布函数(ECDF)的检验,适合于大样本的情况,包括Kolmogorov-Smirnov检验, 拟合优度检验等方法。概率及概率分布对数正态分布(lognormal distribution)n如果XN(,2),则随机变量 Y=eX 服从参数为和2的对数正态分布;n如果Y服从参数为和2的对数正态分布,则 X=lnY服从正态分布N(,2)n参数为和的对数正态随机变量的概率密度函数为:n期望与方差:概率及概率分布问题8n同问题7,判断居民家庭财富是否符合对数正态分布?概率及概率分布四、几个重要的随机变量的函四、几个重要的随机变量的函数的概率分布数的概率分布概率及概率分布卡方分布n如果随机变量X1,X2,Xn相互独立,且服从标准正态分布N(0,1),则 服从自由度为n的卡方分布。记为:若X1,X2独立,且概率及概率分布思考n如果随机变量X1,X2,Xn相互独立,且服从标准正态分布 那么哪一个统计量服从卡方分布哪一个统计量服从卡方分布?概率及概率分布典型应用1n总体方差的期间估计:设XN(, 2),S2为n个样本的方差,则总体2的100(1-)%置信期间为:概率及概率分布典型应用2n多项分布参数结构(频度分布)检验;(后续)n列联表分析(后续)概率及概率分布F 分布设随机变量V和W相互独立,且推论:概率及概率分布典型应用1n两个正态总体方差比值的期间估计:分别从X1N(1, 12), X2N(2, 22) 中抽取n1、n2个样本,S12和S22为样本的方差,显然:的100(1-)%置信期间为:概率及概率分布典型应用2n在有k个参数的线性多元回归中,检验参数同时都为0的统计量:概率及概率分布t 分布推论:概率及概率分布典型应用1n来自于总体方差未知或小样本均值的期间估计:从XN(, 2), 中抽取n(n30)个样本,当总体方差未知时,我们以样本方差S2代替,则有 t 统计量:的100(1-)%置信期间为:概率及概率分布续n当以样本方差S2代替总体方差2时,任何标准正态变量Z就被拟标准化为 t 变量。n需要注意的是需要注意的是,在使用t分布统计量时,只有在总体近似服从正态分布时才有效,即样本中很少会有异常值,可以通过P-P图或看箱线图是否对称,是否有异常值来判断是否适合采用t统计量。概率及概率分布典型应用2n在有k个参数的线性多元回归中,假设参数j为0的检验:概率及概率分布典型应用3n独立样本均值 t 检验:来自于相互独立的两个样本,在同方差假设下,两组总体均值相等假设的检验:概率及概率分布
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号