资源预览内容
第1页 / 共96页
第2页 / 共96页
第3页 / 共96页
第4页 / 共96页
第5页 / 共96页
第6页 / 共96页
第7页 / 共96页
第8页 / 共96页
第9页 / 共96页
第10页 / 共96页
亲,该文档总共96页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第三章第三章 概率密度估计概率密度估计u3.0 引言u3.1 参数估计u3.2 非参数估计u3.3 说明3.0 引言引言n进行Bayes决策需要事先知道两种知识:n各类的先验概率;n观测向量的类条件概率密度。n知识的获取(估计):n一些训练数据;n对问题的一般性的认识。3.0 引言引言3.0 引言引言n类的先验概率的估计(较容易):n依靠经验;n用训练数据中各类出现的频率估计。n用频率估计概率的优点:n无偏性;n相合性;n收敛速度快。n类条件概率密度的估计(非常难):n概率密度函数包含了一个随机变量的全部信息n概率密度函数可以是满足下面条件的任何函数p(x)03.0 引言引言n概率密度估计的两种主要思路:n参数估计:n根据对问题的一般性的认识,假设随机变量服从某种分布,分布函数的参数通过训练数据来估计。n 非参数估计:n不用模型,而只利用训练数据本身对概率密度做估计。3.0 引言引言n“Curse of dimensionality” : We need lots of training data to determine the completely unknown statistics for multi-D problems.nA rule of thumb : “use at least 10 times as many training samples per class as the number of features (i.e. D)”nHence, with some a priori information, it is possible to estimate the parameters of the known distribution by using less number of Samples3.1 3.1 参数估计参数估计3.1 3.1 参数估计参数估计n最大似然估计把参数看作是确确定定而未知的。最好的估计值是在获得实际观察样本的概率为最大的条件下得到的。n贝叶斯估计把未知的参数当作具有某种分布的随随机机变量,样本的观察结果使先验分布转化为后验分布,再根据后验分布修正原先对参数的估计。3.1 3.1 参数估计参数估计n最大似然估计(Maximum Likelihood),需做以下假设:n参数是确定(非随机)而未知的量。n按类别把样本集分开,假定有c个类,则可分成c个样本集X1,X2,Xc,其中Xj中的样本都是从概率密度为p(x|j)的总体中独立抽取出来的。3.1 3.1 参数估计参数估计n类条件概率密度p(x|j)具有某种确定的函数形式,但其参数向量 j 未知。n假定Xi中的样本不包含关于j (ji)的信息。也就是说不同类别的参数在函数上是独立的。这样就可以分别对每一类进行处理。也就是说Xi中的样本只对i 提供有关信息,而没有关于j (ji)的任何信息。3.1 3.1 参数估计参数估计n在假设前提下,可以分别处理c个独立的问题。独立地按照概率密度抽取样本集X,用X去估计出未知参数。n已知某一类样本集X包含有N个样本,即X=x1,x2,xN 3.1 3.1 参数估计参数估计n由于假设样本是独立抽取的,所以相对于样本集X的的似然函数。3.1 3.1 参数估计参数估计似然函数:对数似然函数:等价参数求解:梯度为0。3.1 3.1 参数估计参数估计最大似然估计就是上式的解。最大似然估计示意图3.1 3.1 参数估计参数估计Find value of unknown parameter maximizesFor different , theobserved samples givesdifferent p(X|) valuesfor p(xk|) densitiesThe argument for themaximum of suchproducts is ML estimatelog p(X|) will notdiffer the argument ofthis maximan单变量正态分布3.1 3.1 参数估计参数估计n正态分布假设下的极大似然参数估计:其中 和 为未知参数。由n单变量正态分布知3.1 3.1 参数估计参数估计n正态分布假设下的极大似然参数估计:3.1 3.1 参数估计参数估计以 和 代入上式,解上述方程组,得 n多元正态分布似然函数:3.1 3.1 参数估计参数估计设x1,x2,xn是从p(x|,)选取的特征向量,其联合分布为 n多元正态分布均值估计:均值的最大似然估计均值的最大似然估计与与无关!无关! 3.1 3.1 参数估计参数估计n多元正态分布协方差矩阵的估计:3.1 3.1 参数估计参数估计令 A=-1 n正态分布假设下的极大似然参数估计:n多元正态分布协方差矩阵的估计:协方差矩阵的极大似然估计与ML有关!3.1 3.1 参数估计参数估计n正态分布假设下的极大似然参数估计:n多元正态分布协方差矩阵的极大似然估计是有偏估计:无偏估计:3.1 3.1 参数估计参数估计nBayes估计:最大后验概率估计(maximum a posteriori) 设有一个样本X (而不是x),要求找出估计量 (而不是选出最佳决策 ),用来估计X所属总体的分布的某个真实参数 (而不是真实状态k)使带来的贝叶斯风险最小,就是贝叶斯估计。 3.1 3.1 参数估计参数估计nBayes估计:n贝叶斯决策和贝叶斯估计两者都立足于使贝叶斯风险最小,只是要解决的问题不同:一是要决策x的真实状态,而另一个则是估计X所属总体分布的参数。n二者的各变量之间存在一一对应的关系 3.1 3.1 参数估计参数估计nBayes估计:贝叶斯决策贝叶斯决策贝叶斯估计贝叶斯估计决策问题估计问题样本x样本集X决策估计量真实状态i真实参数状态空间A是离散空间参数空间是连续空间先验概率P(i)参数的先验分布p()3.1 3.1 参数估计参数估计nBayes估计:n根据贝叶斯公式n设为代替所造成的损失。3.1 3.1 参数估计参数估计nBayes估计:可得 、x的联合分布 3.1 3.1 参数估计参数估计nBayes估计: 为 可能取值的参数空间。 为给定x条件下估计量 的期望损失(条件风险),与贝叶斯决策中给定x时决策 的条件风险 是对应的。 3.1 3.1 参数估计参数估计nBayes估计:因此同贝叶斯决策一样:使条件风险 极小时的估计量 也一定使贝叶斯风险R最小。 如果 的估计量 使条件风险最小,则称 是关于 的贝叶斯估计量。若求解贝叶斯估计量 必须定义适当的损失函数。3.1 3.1 参数估计参数估计nBayes估计:一般地,损失函数可定义成不同的形式,因而得到不同的贝叶斯估计量 。以二次函数作为损失函数,即平方误差损失函数3.1 3.1 参数估计参数估计nBayes估计:定理定理:如果损失函数为二次函数,即 则 的贝叶斯估计量 是在给定x时 的条件期望。即3.1 3.1 参数估计参数估计nBayes估计:证证明明:由于贝叶斯估计使贝叶斯风险R达到最小,要使贝叶斯风险达到最小,相当于被积函数(条件风险)3.1 3.1 参数估计参数估计nBayes估计:3.1 3.1 参数估计参数估计nBayes估计:3.1 3.1 参数估计参数估计nBayes估计:与 无关与 有关选择 ,使第二项为零,从而使条件风险 最小,所以贝叶斯估计量为 3.1 3.1 参数估计参数估计nBayes估计:确定 的先验分布 利用此定理,可以对平方误差损失函数求解贝叶斯估计量 ,步骤如下: 由样本集X =x1,x2,,xn求出样本联合分布 ,它是 的函数 利用贝叶斯公式,求出 的后验分布 3.1 3.1 参数估计参数估计nBayes估计:利用定理求出贝叶斯估计量 3.1 3.1 参数估计参数估计nBayes估计举例:n以单变量正态分布为例,并假定总体方差为已知,待估计的仅是均值。n设总体分布密度为 3.1 3.1 参数估计参数估计nBayes估计举例:假定关于 的先验知识可用一个已知的先验密度 来表示,并假定 服从均值为 方差为 的正态分布,即其中 和 是已知的。 表示 的最好的先验推测, 度量了对这个推测的不确定性。3.1 3.1 参数估计参数估计nBayes估计举例:设样本集X =x1,x2,xn是取自 正态分布,其中 是未知参数,且假定 为随机参数,具有先验分布, 要求用贝叶斯估计方法求出 的估计量 。3.1 3.1 参数估计参数估计nBayes估计举例:n对于二次损失函数的贝叶斯估计,根据定理,有可得 3.1 3.1 参数估计参数估计nBayes估计举例:由 求得。从上式可看出,首先是求 的后验分布,由于其先验分布 为已知,可应用贝叶斯公式3.1 3.1 参数估计参数估计nBayes估计: 其中是一个比例因子,仅与X有关而与无关。由于3.1 3.1 参数估计参数估计nBayes估计: 3.1 3.1 参数估计参数估计nBayes估计: 和 无关的因子全部吸收到 和 中,这样 是 的二次函数的指数函数,仍是正态密度,可以把 写成即3.1 3.1 参数估计参数估计nBayes估计: 应用待定系数法,令上面两式对应的系数相等,即求得 和3.1 3.1 参数估计参数估计nBayes估计:n解前面方程得3.1 3.1 参数估计参数估计3.1 3.1 参数估计参数估计nBayes估计:求 的贝叶斯估计得出 的贝叶斯估计值3.1 3.1 参数估计参数估计nBayes估计:假设先验分布 为标准正态分布,即 =N(0,1),且总体分布的方差 也为1,则 与最大似然估计 有类似的形式,只是分母不同。3.1 3.1 参数估计参数估计nBayes估计:通常 是mn和 线性组合,两者的系数均为非负,并且和为1。即3.1 3.1 参数估计参数估计位于mn和 的连线上。 如果 ,则当n趋于无穷大时, 趋近于样本均值mnnBayes估计:如果 说明对先验估计非常不确定,用样本均值mn和代替了3.1 3.1 参数估计参数估计如果 则是一种退化情况。 对先验估计 非常确信 。 称为“决断因子(dogmatism)”该值不是无穷大且样本足够多时 趋近于样本均值mn两种极端情况:p(x|X)p(x|i,Xi)的估计n得到均值的后验密度p(|X)后,可以计算类条件概率密度p(x|X)。n分别讨论单变量和多变量的情况。贝叶斯估计单变量的情况n根据以下公式:p(x|X)p(x|i,Xi)的估计n得到:p(x|X)p(x|i,Xi)的估计单变量的情况n其中n故n此时,方差和2相比增加了,因为对均值的不确定性增加了对x的不确定性。n这样就确定了类条件概率密度。n和最大似然估计不同,贝叶斯估计方法估计了p(x|X)的分布,而最大似然估计只是估计了方差和均值。p(x|X)p(x|i,Xi)的估计单变量的情况多变量的情况n假设:p(x|X)p(x|i,Xi)的估计已知已知n进行配方和变量代换,简化为n利用对应项相等的原则,得:p(x|X)p(x|i,Xi)的估计多变量的情况n可以证明(A-1+B-1)-1=A(A+B)-1B=B(A+B)-1An如果利用积分:p(x|X)p(x|i,Xi)的估计多变量的情况n可以证明n因为x可以看成两个互相独立的变量的和n故: nBayes(MAP)估计与ML估计的关系:n当样本数趋于无穷时,MAP估计一般趋向于ML估计nML估计也可以看作参数的先验概率密度函数服从均匀分布(相当于没有先验知识)的MAP估计n当参数的先验概率密度函数比较准确时,MAP估计的小样本性质大大优于ML估计。3.1 3.1 参数估计参数估计n参数估计中的模型选择问题:n实际工作中处理的大都是高维数据:d 10 。n统计学中经典的多元(高维)分布很少,研究最详尽的是多元正态分布。n近几十年的研究发现,实际所处理的高维数据几乎都不服从正态分布。n通过增加模型的复杂程度(参数的个数),如正态模型的线性组合高斯混合模型,试图“逼近”真实的分布,出现了过拟合问题。 3.1 3.1 参数估计参数估计n与参数估计需要事先假定一种分布函数不同,非参数估计(non-parametric method)不做任何模型假设。n主要方法:n概率密度的估计nParzen法;nkN近邻法。3.3.2 2非参数估计非参数估计3.3.2 2非参数估计非参数估计n一个向量x落在区域R中的概率为3.3.2 2非参数估计非参数估计P是概率密度函数p(x)的平滑的(或者取平均的)版本。可以通过估计概率P来估计概率密度函数p。假设n个样本x1,xn都是根据概率密度函数p(x)独立同分布( i. i. d.)的抽取而得到的。n其中k个样本落在区域R中的概率服从二项式定理:3.3.2 2非参数估计非参数估计nk的期望值为nk的二项式形式的分布在均值附近有非常显著的波峰。因此,比值k/n就是概率P的一个很好的估计。当样本个数n非常大时估计将非常准确。n如果假设p(x)是连续的,并且区域 R足够小,以至于在这个区间中p几乎没有变化,那么有3.3.2 2非参数估计非参数估计n其中x为一个点,而V则是区域R 所包含的体积。得到p(x) 的估计为3.3.2 2非参数估计非参数估计区域区域R的的体积体积R中的点中的点固定固定越来越多越来越多在概率上收敛在概率上收敛p(x)的平均估计的平均估计R足够小3.3.2 2非参数估计非参数估计n估计x点的密度n构造一串包括x的区域序列R1,R2,Rn,n对R1,采用一个样本估计n对R2,采用两个样本估计nn设Vn是Rn的体积,kn是落入Rn中的样本数p(x)的第的第n次次估计估计3.3.2 2非参数估计非参数估计n满足pn(x)收敛于收敛于p(x)p(x)3.3.2 2非参数估计非参数估计n有两种经常采用的获得这种区域序列的途径。其中之一是根据某一个确定的体积函数来逐渐收缩一个给定的初始区间。第二种方法是确定kn为n的某个函数,这样,体积就必须逐渐生长,直到最后能包含进x的kn个相邻点,这就是kn-近邻法”。n这两种方法最终都能够收敛,但是却很难预测它们在有限样本情况下的效果。3.3.2 2非参数估计非参数估计n这两种情况中的序列都是随机变量,它们一般会收敛,这样就能估计出测试样本点处的真正的概率密度函数。3.3.2 2非参数估计非参数估计根据某个函数逐根据某个函数逐渐缩小区域面积渐缩小区域面积缩小区域面积的方式缩小区域面积的方式依赖于样本点的依赖于样本点的n两种非参数方法:nParzen窗法:n使区域序列的体积Vn按n的某个函数随n的增大的关系不断缩小,如VnV1/n,而对kn和kn/n加以限制使pn(x)收敛于收敛于p(x)3.3.2 2非参数估计非参数估计n两种非参数方法:nkn近邻估计:n使kn为n的某个函数随N的增大而变大,如knn,而Vn的选取使相应的Rn是只包含kn个近邻点的最小区域,其体积可以作为x点密度估计时的最小Vn。3.3.2 2非参数估计非参数估计n两种常用的核(窗)函数:n均匀核(窗): x =( x1, x2, xd)Rd-1/21/23.3.2 2非参数估计非参数估计n正态(高斯)核:3.3.2 2非参数估计非参数估计-220n核函数要满足概率密度函数的条件。nParzen窗法:把核函数看作“窗”,根据样本 x1, x2, xn,若xi落入以x为中心,以hn为棱长的超立方体Rn中,则计数为1,否则为0,则n落入立方体Rn中的样本数3.3.2 2非参数估计非参数估计n根据hN是控制“窗”宽度的参数,根据样本的数量选择。这就是Parzen窗方法。叠加函数叠加函数叠加基函数叠加基函数使用kn个以样本xi为中心的窗函数叠加对x处的概率密度进行估计。样本较密集的区域上概率密度值较大。3.3.2 2非参数估计非参数估计n窗函数一般应满足下面的条件:n保证非负n保证3.3.2 2非参数估计非参数估计n窗的宽度hn对pn(x)的影响。定义n(x)如下: n 则pn(x)为nhn和 的关系如图所示。3.3.2 2非参数估计非参数估计n不同窗宽的估计效果:n二维圆周对称正态Parzen窗的例子,其中h取三个值。3.3.2 2非参数估计非参数估计n不同窗宽的估计效果:n具有5个样本点的样本集进行Parzen窗概率密度估计结果。3.3.2 2非参数估计非参数估计n对于任意的hn,分布是归一化的,即3.3.2 2非参数估计非参数估计nhn(Vn)的选取将在很大程度上影响pn(x)。如果Vn太大,估计结果的分辨率很低;如果Vn太小,估计结果的稳定性不够;有限样本个数的约束下,只能取某种折中。n如果样本个数无限,就可以在n增加时,让Vn缓慢地趋近于零,同时pn(x)收敛于某个概率密度函数p(x)。n对于固定的x值,pn(x)依赖于样本x1,xn,即pn(x)具有均值 和方差3.3.2 2非参数估计非参数估计nhn(Vn)的选取将在很大程度上影响pn(x)。n为了保证收敛性,必须对未知的概率密度函数p(x)、窗宽度hn和窗函数 做必要的约束,通常要求p()在点x处连续。下面将证明只要满足下列条件就能保证收敛:3.3.2 2非参数估计非参数估计n均值的收敛性n因为样本xi都是未知概率密度p(x)的独立同分布的抽样得到的,故有3.3.2 2非参数估计非参数估计这个方程表明均值的期望是未知概率密度函数值的平均对未知概率密度函数和窗函数的一种卷积。n方差的收效性n因为pn(x)是一些关于统计独立的随机变量的函数的和,所以其方差就是这些分开项的和,所以有3.3.2 2非参数估计非参数估计n方差的收效性n去掉第二项,使用上面公式,有3.3.2 2非参数估计非参数估计n为了得到较小的方差,必须要有较大的Vn值。因为大的Vn能够把概率密度函数中的局部变动都平滑掉。然而,因为当n趋近于无穷大时,分母仍为有限值,因此可以让Vn趋近于零,只要nVn趋近于零,并且仍然得到零方差。n举例说明n考虑当p(x)是零均值、单位方差、单变量的正态情况。固定窗函数的形式为3.3.2 2非参数估计非参数估计n令n使用不同窗宽和样本数量对一维正态概率密度进行Parzen窗的估计效果。3.3.2 2非参数估计非参数估计n使用不同窗宽和样本数量对二维正态概率密度进行Parzen窗的估计效果。3.3.2 2非参数估计非参数估计n使用不同窗宽和样本数量对混合概率密度函数进行Parzen窗的估计效果。3.3.2 2非参数估计非参数估计n均匀核函数Parzen窗估计的几何意义:n点x处概率密度=以x为中心,2hn为边长的超立方体内的样本数总样本数3.3.2 2非参数估计非参数估计nParzen窗方法的特点:n适用于各类复杂概率密度的估计n 规则的、不规则的、单峰的、多峰的n要求样本分布较好且数量大n估计过程复杂n窗函数对提高精度和减少样本数量非常重要!nkn近邻估计:n均匀核函数Parzen估计,窗宽固定,不同位置落在窗内的样本点的数目是变化的。nkn近邻估计:把窗扩大到刚好覆盖kn个点。落在窗内的样本点的数目固定,窗宽是变化的。nkn根据样本总数n选择。3.3.2 2非参数估计非参数估计n概率密度估计表达式:n点x处窗的“体积”是Vn:3.3.2 2非参数估计非参数估计n一个一个kn近邻近邻估计例子估计例子对两个一维概率分布的一些kn近邻估计,一个高斯函数,一个是三角形分布,当n值为有限时,估计结果显得非常“粗糙”和“崎岖不平”3.3.2 2非参数估计非参数估计nkn的选择:n渐进收敛容易保证;n有限样本性质、最小平方误差与Parzen窗几乎相同。3.3.2 2非参数估计非参数估计3.3 3.3 说明说明n高维概率分布的估计无论在理论上还是实际操作中都是一个十分困难的问题。n概率密度函数包含了随机变量的全部信息,是导致估计困难的重要原因。n进行模式识别并不需要利用概率密度的所有信息,只需要求出分类面。n先估计概率密度,再进行分类,可能走了“弯路”。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号