资源预览内容
第1页 / 共28页
第2页 / 共28页
第3页 / 共28页
第4页 / 共28页
第5页 / 共28页
第6页 / 共28页
第7页 / 共28页
第8页 / 共28页
第9页 / 共28页
第10页 / 共28页
亲,该文档总共28页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第三章 概率密度函数的估计 3.1 引言 贝叶斯决策: 已知)(iP和)|(ipx,对未知样本分类(设计分类器) 实际问题: 已知一定数目的样本,对未知样本分类(设计分类器) 怎么办? 一种很自然的想法: ? 首先根据样本估计)|(ipx和)(iP,记)|( ipx和)(iP ? 然后用估计的概率密度设计贝叶斯分类器。 (基于样本的)两步贝叶斯决策 希望: 当样本数N时,如此得到的分类器收敛于理论上的最优解。 为此,需)|()|( iN ippxx )()(iN iPP 重要前提: 训练样本的分布能代表样本的真实分布,所谓 i.i.d 条件 有充分的训练样本 本章研究内容: 如何利用样本集估计概率密度函数? 估计量的性质如何? 如何根据样本集估计错误率? 估计概率密度的两种基本方法: ? 参数方法 (parametric methods) ? 非参数方法 (nonparametric methods) 3.2 参数估计的基本概念和方法(part1) 参数估计(parametric estimation): ? 已知概率密度函数的形式, 只是其中几个参数未知, 目标是根据样本估计这些参数的值。 几个名词: 统计量(statistics):样本的某种函数,用来作为对某参数的估计 参数空间(parametric space):待估计参数的取值空间 估计量(estimation):),( 21NxxxL 3.2.1 最大似然估计(Maximum Likelihood Estimation) 假设条件: 参数是确定的未知量, (不是随机量) 各类样本集iX X,ci, 1L=中的样本都是从密度为)|(ipx的总体中独立抽取出来的, (独立同分布,i.i.d.) )|(ipx具有某种确定的函数形式,只其参数未知 各类样本只包含本类分布的信息 其中,参数通常是向量,比如一维正态分布),(2 1iN,未知参数可能是 =2 ii i,此时)|(ipx可写成),|(iipx或)|(ipx。 鉴于上述假设,我们可以只考虑一类样本,记已知样本为 Nxxx,21L=X X 似然函数(似然函数(likelihood function) )|()|,()|()(121iNiNxpxxxppl =LX X 在参数下观测到样本集X X的概率(联合分布)密度 基本思想:基本思想: 如果在参数=下)(l最大,则应是“最可能”的参数值,它是样本集的函数,记作)(),( 21X XdxxxdN=L。称作最大似然估计量。 为了便于分析,还可以定义对数似然函数)(ln)(lH=。 求解:求解: 若似然函数满足连续可微的条件,则最大似然估计量就是方程 0)/ )(=ddl 或 0/ )(=ddH 的解(必要条件) 。 若未知参数不止一个,即T s,21L=,记梯度算子 Ts =,21L 则最大似然估计量的必要条件由 S 个方程组成: 0)(=H讨论: ? 如果)(l或)(H连续可导, 存在最大值, 且上述必要条件方程组有唯一解,则其解就是最大似然估计量。 (比如多元正态分布) 。 ? 如果必要条件有多解,则需从中求似然函数最大者 ? 若不满足连续可导,则无一般性方法,用其它方法求最大(见课本均匀分布例) 3.3 正态分布的监督参数估计(part1) 3.3.1 最大似然估计示例 以单变量正态分布为例 T,21=,=1,2 2= =221exp21)|(xxp 样本集 Nxxx,21L=X X 似然函数 )|()|()ln(1kNkxppx =X X 对数似然函数 )|(ln)(ln)(1kNkxPxlH = 最大似然估计量满足方程 0)|(ln)(1= =kNkxpH 而 2 1 22)(212ln21)|(ln=kkxxp +=2 12 221 2)(21 21)(1)|(ln kkk xxxp 得方程组 =+=0)( 10)(12 22 1121121kNkNkkNkxx解得 kNkxN =111 2122) (1= =kNkxN3.2 参数估计的基本概念和方法(part2) 3.2.2 贝叶斯估计和贝叶斯学习 (一)贝叶斯估计(一)贝叶斯估计 思路与贝叶斯决策类似,只是离散的决策状态变成了连续的估计。 思考题:请课后与贝叶斯决策比较 基本思想:基本思想: 把待估计参数看作具有先验分布)(p的随机变量,其取值与样本集X X有关,根据样本集Nxxx,21L=X X估计。 损失函数:把估计为所造成的损失,记为),( 期望风险:xxddpRdE ),(),(= xxxddppdE )()|(),(= xxxdpRdE)()|(= where, dE=x, 条件风险: dpR)|(),()|(xx= dE=x 最小化期望风险 最小化条件风险 (对所有可能的x) 有限样本集下,最小经经验风险: dpR)|(),()|(XXXX= 贝叶斯估计量:贝叶斯估计量: (在样本集X X下)使条件风险(经验风险)最小的估计量。 离散情况:损失函数表(决策表) 连续情况:损失函数 常用的损失函数: 2)(),(= (平方误差损失函数) 定理定理 3.1 如果采用平方误差损失函数, 则的贝叶斯估计量是在给定x时的条件期望,即 =dpE)|(|xx 同理可得到,在给定样本集X X下,的贝叶斯估计是: =dpE)|(|XXXX 自学证明过程 求贝叶斯估计的方法:求贝叶斯估计的方法: (平方误差损失下) (1)确定的先验分布 )(p (2)求样本集的联合分布 )|()|(1iNippx =X X (3)求的后验概率分布 =dppppp)()|()()|()|(XXXXXX (4)求的贝叶斯估计量 =dp)|(X X 同时还可求得 =dppp)|()|()|(XXXXxx (考虑到我们最终的目的是求(考虑到我们最终的目的是求 p(x)) 讨论: 设的最大似然估计为l,则在l=处)|(X Xp很可能有一尖峰,若此,则)|()|(lppxx=&X X,即贝叶斯估计结果与最大似然估计结果近似相等。 (二)贝叶斯学习(二)贝叶斯学习 考虑学习样本个数N,记样本集Nxxx,21L=X X 1N时有 )|()|()|(1=N NNpppXXXXx 因此有递推后验概率公式: =dpppppN NN NN )|()|()|()|()|(11XXXXXXxx设)()|(pp=X X, 则随着样本数增多,可得后验概率密度函数序列: )(p,)|(1xp,L),|(21xxp 参数估计的递推贝叶斯方法 (Recursive Bayes Incremental Learning) 如果此序列收敛于以真实参数值为中心的函数, 则称样本分布具有贝叶斯学习(Bayesian Learning)性质。此时 )()|()|(xxxpppN=X X 由先验分布)(p和样本信息(似然函数))|(X Xp求出的后验分布)|(X Xp,然后直接求样本总体分布 dppp)|()|()|(XXXXxx= 的做法称作贝叶斯学习。 估计量的性质与评价标准估计量的性质与评价标准 无偏性、有效性和一致性无偏性、有效性和一致性 无偏性: =),(21NExxxL 渐近无偏性: =NNE 有效性:对估计1和2,若方差)()(22 12,()0lim= N NP 无偏性和有效性: 对于多次估计,估计量能以较小的方差平均地表示真实值。 一致性: 当样本数无穷多时,每一次估计都在概率意义上任意接近真实值。 3.3 正态分布的监督参数估计 以正态分布为例说明上节介绍的参数估计方法 3.3.1 最大似然估计示例 ),()(Np x =NiiN11x =NiT iiN1) )(1xx 一维: =NiixN11, =NiixN122) (1 3.3.2 贝叶斯估计和贝叶斯学习示例 (一)贝叶斯估计 一维,),()|(2Nxp,2已知,估计 假设先验分布 ),()(2 00Np 结论: 022 0222 02 0 +=NmNNNwhere iNiNmx =1- 样本信息与先验知识的线性组合 一般情况下, 0=N时,0=; N时,Nm 特例: 若02 0=,则0 (先验知识可靠,样本不起作用) 若0,则Nm=(先验知识十分不确定,完全依靠样本信息) (二)贝叶斯学习 ()22 ,21exp21)|(NN NNNNNp =X X =dpppNN)|()|()|(xxXXXX 022 0222 02 0 +=NmNNNN22 022 02 +=NN当N时,02N,)|(X Xp函数。 ()2222222,21exp 21)|(NNNNNNp + + +=xx X X均值N, 方差由2增为22 N+ - 由于用了的估计值而不确定性增加 3.4 非监督参数估计 以上讨论的是监督参数估计, 即已知各样本的类别, 根据各类样本集估计本类的概率密度函数中的参数。 非监督参数估计指样本类别未知,但各类条件概率密度函数的形式已知,根据所有样本估计各类密度函数中的参数。 本节只介绍非监督最大似然估计的思路 3.4.1 非监督参数估计的最大似然法 (一)假设条件: 1. 样本集Nxx,1L=X X中的样本属于C个类别,但不知各样本属哪类 2. 类先验概率)(iP,ci, 1L=已知 3. 类条件概率密度形式已知 ),|(iipx,ci, 1L= 4. 未知是仅是c个参数向量c,21L的值 所有未知参数组成的向量记为Tc,21L= (二)似然函数 混合密度 )(),|()|(1iiiciPppxx = 分量密度:类条件密度),|(iipx 混合参数:先验概率)(iP(有时也可未知,一起参与估计) 设样本集X X中的样本是从混合密度为)|(xp的总体中独立抽取的,即满足独立同分布条件,确定但未知,则 似然函数 )|()|()(1iNipplx =X X 对数似然函数 )|(ln)(ln)(1iNiplHx = 最大似然估计就是使)(l或)(H取最大的值。 (三)可识别性问题 求出,就得到了c, 1L,即从混合密度函数中恢复出了分量密度函数。可能吗?什么条件下可能? 可识别性: 若对,对混合分布中每个x都有)|()|(xpxp,则密度)|(xp
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号