资源预览内容
第1页 / 共118页
第2页 / 共118页
第3页 / 共118页
第4页 / 共118页
第5页 / 共118页
第6页 / 共118页
第7页 / 共118页
第8页 / 共118页
第9页 / 共118页
第10页 / 共118页
亲,该文档总共118页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第二章 基本气候状态的统计量,Part 2 理论概率分布,学习目标,掌握理论分布的含义; 了解气候问题中常见的理论分布; 学会通过查表的方式计算连续理论分布的累计概率值;,背景,在上一节,我们主要介绍了经验性的概率分布; 本节介绍采用数学形式来表征一组气象数据,这种数学形式代表的是理想(理论)的数据分布特征; 值得我们思考的是,理论分布实际上是比较抽象的,对于实际的数据也只是近似的表征,为何我们仍然要用理论分布来探讨气象数据的基本特征?,理论分布的优势,1 压缩性(简洁性):我们用几个参数便可以很好的描述气象数据,而不必对大量的数据进行繁琐的重复操作(经验分布); 2 平滑以及内插:实际的气象数据并不是完全连续的,理论分布使得数据分布更加平滑(不易受到异常点的影响),同时也可以了解观测中缺失点数据的出现概率,从而对缺失点的数据进行了插值处理;,理论分布的优势,3 外推:理论分布可以帮助我们判断气象数据两侧没有数据值的数据点可能的发生概率。 但理论分布不能脱离实际数据本身,实际数据决定采用何种理论分布、参数的选取以及拟合效果的分析。,什么是理论分布(参数化分布)?,一种抽象的数学形式,或特征形态; 由某些特定的值确定,又称“参数分布”; 这些参数可以决定分布的特征。,理论分布中的参数,参数常与样本统计量混淆; 参数:是某一特定分布的抽象特征的诠释,简洁地代表的了统计概念中总体数据的特征; 统计量:由样本计算得到的任何量; 引起混淆的主要原因是,通常一些常用的样本统计量是分布参数的一个很好的估计值。,离散相对于连续,离散和连续均是理论分布的两种具体的表达形式; 离散分布描述的是随机变量具有特定值,这些值是有限的,或者是无限可数的; 连续的随机变量可以是某一实数段内的任何值;,离散相对于连续,虽然严格而言,采用连续分布则意味着观测数据量相当大的,但实际对于某些离散观测的变量采用连续分布是可行的; 气象中的数据,如温度和降水,虽然观测结果是离散的数值,但它们可以是某一段数据中的任何值,因此,我们因此可以把它们视为连续数据。,离散分布 二项式分布(1),最简单的理论分布; 在实验中,可能发生2个相互独立的事件,如“成功”/“失败”,0/1等等; 随机变量X,做N次实验(假定每次实验发生的事件为0或者1)。则N次实验后,X可能的值为从0(我们想要的结果从未发生)到N(每次实验都得到我们想要的结果),即N+1个可能的值; 在得到以上结果时,必须满足2个条件: 事件发生的概率不随实验变化; 每次实验发生的事件(成功或者失败)是相互独立的。,离散分布 二项式分布(2),最简单的,最直接的关于二项式分布的例子为“投掷硬币”,假定出现两种事件(“head”或者“tail”)的概率均为0.5 且这个概率在每次实验中均不发生改变; 同时投掷N1个硬币,出现heads或者tails彼此不联系(不影响)。 这就满足二项式分布的所有条件:两种事件(结果是二分类的)、且相互独立,同时事件发生的概率为常数。,离散分布 二项式分布(3),二项式分布公式为 公式分为两部分 组合部分,给出在N组实样中实现 个我们感兴趣的结果的所有可能组合; 概率部分,满足概率中的乘法定律。,离散分布 二项式分布(4),使用二项式分布要注意: 对于周期变化的事件,如大气中的雷暴或者闪电等事件,这些事件的发生率存在日以及年变化,而同时也存在更小时间尺度(小时(相对于日)以及月-(相对于年)的变化,对于这些更小尺度的变化应作单独分析; 气象数据中(如日降水发生与否),日-日之间的存在较强的依赖性,即日发生事件之间不完全独立,但对年-年事件则可视为完全独立的。,离散分布 二项式分布(5),二项式分布中参数p=0.5,则二项式分布是对称的,否则为不对称分布; 但参数n越大,非对称性越不明显;,离散分布 二项式分布(6)-例子,Cayuga湖结冰事件 两个事件: 结冰(感兴趣事件) 不结冰; 具体年份的结冰事件之间相互独立; 给定年份中湖面结冰的概率为常数;,到1994年止,200年中曾经结冰的年份,在满足二项式分布条件的 前提下,如何得到参数 p和N的值?,离散分布 二项式分布(6)-例子,p是湖面在任何一年中可能结冰的概率 最直接的办法:计算相对频率,p=10/200=0.05 N具有独一无二的特点,其值的确定依赖于我们所要分析的问题: 如果我们想知道下一年或者未来某一年湖面结冰的概率如何,则N=1,即Bernoulli分布; 如果我们想知道未来10年中至少有一年结冰的概率如何,则N=10,离散分布 Bernoulli分布,Bernoulli分布,即0-1分布; 随机变量的取值只能为2个数,即0与1; 其概率分布公式为:,Jacob Bernoulli,Born: 27 Dec 1654 in Basel, SwitzerlandDied: 16 Aug 1705 in Basel, Switzerland,伯努利资料,离散分布 二项式分布(6)-例子,Case 1: 10年中仅出现一次结冰事件的概率 Case 2: 10年中至少出现一次结冰事件的概率,离散分布 几何分布(1),几何分布与二项式分布类似之处在于: 每次实验只可能发生两种事件,如“成功”或者“失败”; 事件(“成功”或者“失败”)的概率不随实验次数发生变化; 每次实验之间是相互独立的。 不同之处: 二项式分布,给出成功事件(X)可能发生的概率; 几何分布,又称为“等待分布”,即第一次成功前失败的次数。,离散分布 几何分布(2),几何分布公式 在气象中,可以用来描述我们期待的现象发生前某段天气现象的持续过程,Waymire and Gupta (Water Resour. Res.,1981)用该分布分析出现的湿润事件前的一段连续干旱过程。,关于泊松分布,历史上泊松分布是作为二项分布的近似,于1837年由法国数学家Poisson引入的,近数十年来,泊松分布日益显示其重要性,成了概率论中最重要的几个分布之一。它常与单位时间(或单位面积、单位产品等)上的计数过程相联系。 在实际应用中许多随机现象服从泊松分布。这种情况特别集中在两个领域中。一是社会生活,对服务的各种要求:诸如在单位时间内,电话交换台中来到的呼叫数,公共汽车站来到的乘客数等等都近似地服从泊松分布,因此在运筹学及管理科学中普阿松分布占有很突出的地位;另一领域是物理学,放射性分裂落到某区域的质点数,热电子的发射,显微镜下落在某区域中的血球或微生物的数目等等都服从泊松分布。 因此泊松分布的应用十分广泛。,Born: 21 June 1781 in Pithiviers, FranceDied: 25 April 1840 in Sceaux (near Paris), France,Simon Poisson,离散分布 Poisson分布(1),Poisson分布单位间隔(如单位时间、单位空间)内等事件发生次数的分布 例如台风季节内台风发生的次数的概率、可能的干旱或冷时段的发生率 如沿高速公路加油站的数量或者某一地区出现冰雹的分布特征; 事件发生次数依赖于所选择的单位间隔。,离散分布 Poisson分布(2),Poisson分布相对于二项式分布的优点: 二项式分布要求事件发生的条件是严格独立的,气象数据很难严格满足这个条件,而Poisson分布可用于分析依赖程度(相关性)不高的事件; 当p趋近于0或者N趋向于无限大时,二项式分布失去使用的价值; Poisson分布也只有一个参数 ,也称为强度,该参数通常取值为平均发生率。,离散分布 Poisson分布(3),Poisson分布公式: 0到无限可数,但当该数很大时,概率会非常小( ) 常用矩估计法来取值,一阶矩-平均值(单位间隔内),离散分布 Poisson分布(4),Poisson分布为非对称分布; 但当参数 越大时,则非对称性越不明显;,离散分布 Poisson分布(5)例子,1958-1988年New York观测到的龙卷数,统计期望,什么是期望:一个随机变量或者随机变量的函数的数学期望值简言之就是它们的权重平均。 如何实现:几乎是不可能实现的。 如何获得权重:统计期望与概率分布密切联系,概率分布给出了权重平均的权重或权重函数。,试问哪个射手技术较好?,例1 谁的技术比较好?,故甲射手的技术比较好.,设甲、乙射手击中的环数分别为,(环),(环),统计期望 离散随机变量的数学期望,数学期望的公式: : 的分布的平均值; 分布(或总体)的平均值通常用 表示。 可计算得到: 二项式分布: 几何分布: Poisson分布:,说明,是一个实数,而非变量,它是一种加 权平均,与一般的平均值不同 , 它从本质上体现 了随机变量 取可能值的真正平均值, 也称 均值.,常见离散型随机变量的数学期望,统计期望 随机变量函数的数学期望,数学期望符号体现的是线性关系符号; 随机变量函数的数学期望的特点:,统计期望 方差,函数 的数学期望方差:,连续分布(1) PDF的定义,连续随机变量概率的计算需要对概率密度函数(probability density functions, PDFs,通常用 表示)进行积分。 ,只有满足该式的函数 才可称之为概率密度函数。 对应所有的 , 必须为非负值。 大气中的很多变量,如温度、降水量、位势高度、风速等通常作为连续变量。,连续分布(2) 概率的计算,连续随机变量的概率正比于概率密度函数所覆盖的面积; 计算随机变量 的概率是没有意义的,随机变量的取值是连续的,因此精确计算 的概率是一个无限小量,因此,通常计算随机变量某段取值范围内的概率才有意义。,连续分布(3) CDF,累计分布函数(cumulative distribution function, CDF) 随机变量 不超过某个值时的概率。 CDF用 描述为:,连续分布(4) CDF,在已知随机变量的累计概率的情况下,可以进行反变换,得到该累计概率对应的随机变量的取值:,连续分布(5) 统计期望,随机变量函数 的统计期望: 若 (数学期望): 若 (方差):,Gaussian分布(1) 又称正态分布,由de Moivire(1667-1754)在1733年首次发现; 有Laplace(1749-1827)和Gauss(1777-1855)在他们的天文测量误差研究中再次发现; 命名为Gaussian分布。,Gauss,Gauss是德国数学家,与Newton、Archimedes共誉为有史以来的三大数学家。 Gauss在数论、代数学、非欧几何、复变函数和微分几何等方面都做出了开创性的贡献。他还把数学应用于天文学、大地测量学和磁学的研究,发明了最小二乘法原理。,卡尔.比尔逊(Karl. Pearson) 英国统计学家,“很多年以前,我将Laplace-Gauss曲线称为正态曲线。对于这个名称,尽管它避免了一个优先权的国际问题,但是它有一个缺点:让人们认为其他所有频率分布都是一样的或者是非正态的。当然,这种想法是没有理由的” Karl. Pearson 1920,Gaussian分布(2) 与中心极限定律,在随机变量的一切可能的分布规律中,正态分布占有特殊重要的地位; 实际工作中,常遇到大量的随机变量均服从正态分布; 原因就是中心极限定律;,Gaussian分布(2) 与中心极限定律,满足中心极限定律,即当样本量很大时,一组独立试验的和或者算术平均满足Gaussian分布。 实际分析中,“独立性”的条件可以不满足,因此中心极限定律可用于大
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号