资源预览内容
第1页 / 共73页
第2页 / 共73页
第3页 / 共73页
第4页 / 共73页
第5页 / 共73页
第6页 / 共73页
第7页 / 共73页
第8页 / 共73页
第9页 / 共73页
第10页 / 共73页
亲,该文档总共73页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第二章第二章 贝叶斯决策贝叶斯决策(ju(ju c c ) )理理论论n2.1 引言引言(ynyn)n2.2 基于基于(jy)最小错误率的最小错误率的Bayes决策决策n2.3 基于最小风险的基于最小风险的Bayes决策决策n2.4 正态分布的最小错误率正态分布的最小错误率Bayes决策决策n2.5 Neuman-Pearson 决策决策 n2.6 最小最大决策最小最大决策 第1页/共72页第一页,共73页。数据数据(shj)(shj)获取获取预处理预处理特征提取特征提取与选择与选择(xu(xunz)nz)分类分类(fn li)(fn li)决策决策分类器分类器设计设计2.1 引言第2页/共72页第二页,共73页。统计(tngj)决策理论根据每一类总体的概率分布决定决策边界。Bayes决策理论是统计(tngj)决策理论的基本方法 每一类出现的先验概率 类条件概率密度2.1 引言(ynyn)第3页/共72页第三页,共73页。例:医生要根据病人血液中白细胞的浓度来判断病人是否患血液病。(两类的识别问题。)根据医学知识和以往的经验医生知道:患病的人,白细胞的浓度服从均值2000,方差1000的正态分布;未患病的人,白细胞的浓度服从均值7000,方差3000的正态分布;一般人群中,患病的人数比例为0.5%。一个(y)人的白细胞浓度是3100,医生应该做出怎样的判断?2.1 引言(ynyn)第4页/共72页第四页,共73页。医生掌握的知识非常充分,他知道类别的先验分布:先验分布:没有获得观测(gunc)数据(病人白细胞浓度)之前类别的分布。2.1 引言(ynyn)n数学表示:用数学表示:用 表示表示“类别类别”这一随机变量,这一随机变量, 表示患病,表示患病, 表示不患病;表示不患病;X 表示表示“白细胞浓度白细胞浓度”这个随机变量,这个随机变量,x 表示浓度值。表示浓度值。第5页/共72页第五页,共73页。医生掌握的知识非常充分,他知道(zh do)观测数据白细胞浓度分别在两种情况下的类条件分布:2.1 引言(ynyn)p(x|1)p(x|2)类条件(tiojin)概率密度函数第6页/共72页第六页,共73页。评价决策有多种标准,对于同一个问题,采用不同的标准会得到不同意义下“最优”的决策。Bayes决策是所有识别方法的一个基准。Bayes决策常用的准则:最小错误率;最小风险(fngxin);在限定一类错误率条件下使另一类错误率为最小的准则(N-P准则);最小最大决策准则。2.1 引言(ynyn)第7页/共72页第七页,共73页。以两类分类问题为例:已知先验分布以两类分类问题为例:已知先验分布(fnb)P(i)(fnb)P(i)和观测值的类条件分布和观测值的类条件分布(fnb) (fnb) p(x|i)p(x|i),i=1,2i=1,2问题:对某个样本问题:对某个样本 x x,x1 or x2x1 or x2?n以后验概率为判决以后验概率为判决(pnju)函函数:数:n决策规则:决策规则:2.2 Bayes最小错误率决策(juc)若 P (1 / x) P (2 / x) 则判 x 1 若 P (2 / x) P (1 / x) 则判 x 2第8页/共72页第八页,共73页。后验概率(gil)P(i|x)的计算BayesBayes公式:假设公式:假设(jish)(jish)已知先验概率已知先验概率P(i)P(i)和观和观测值的类条件分布测值的类条件分布 p(x|i) p(x|i),i=1,2i=1,2第9页/共72页第九页,共73页。两类细胞识别问题:正常(1)和异常(2)根据已有知识和经验,两类的先验概率为:正常(1):P(1异常(2):P(2对某一样本观察值x,通过计算( jsun)或查表得到:p(x|1,p(x|2如何对细胞x进行分类?后验概率(gil)P(i|x)的计算第10页/共72页第十页,共73页。利用贝叶斯公式计算利用贝叶斯公式计算(j sun)两类的后验概率:两类的后验概率:决策决策(juc)(juc)结结果果后验概率(gil)P(i|x)的计算第11页/共72页第十一页,共73页。p(x|1)p(x|2)p(1|x)p(2|x)类条件(tiojin)概率密度函数后验概率(gil)2.2 Bayes最小错误率决策(juc)第12页/共72页第十二页,共73页。等价的判别(pnbi)规则 x x * * = = argmax argmax P P ( (i i / x) / x) i i x x * * = = argmax P P (x / (x /i i) ) P P ( (i i ) )i i l l (x) = (x) = P P (x / (x / 1 1) )P P (x / (x / 2 2) )P P ( (2 2) )P P ( (1 1) ) h h(x) = (x) = - - ln ln l l ( x( x ) = ) = - -ln ln P P (x/ (x/ 1 1) + ln ) + ln P P (x/ (x/ 2 2) ) P P ( (1 1) )P P ( (2 2) )lnlnx x 1 1 x x 2 2 最小错误率最小错误率决策决策(juc)(juc)x x 1 1 x x 2 2 第13页/共72页第十三页,共73页。2.2 Bayes最小错误率决策(juc)决策域:对于m类分类(fnli)问题,按照判别规则可以把特征向量空间(或称模式空间)分成m个互不相交的区域Ri,i=1,2,m决策边界:划分决策域的边界,在数学上用解析形式可以表示成决策边界方程。判别函数:用于表达决策规则的某些函数。判别函数与决策边界方程是密切相关的,而且它们都由相应的判别规则所确定。第14页/共72页第十四页,共73页。 g g i i( (x x) = ) = P P ( (i i / / x x) ) i i = 1,2,= 1,2,mm g g i i( (x x) = ) = P P ( (x x/ /i i) ) P P ( (i i ) ) i i = 1,2,= 1,2,mm g g i i( (x x) = ln ) = ln P P ( (x x/ /i i) + ln ) + ln P P ( (i i) ) i i = 1,2,= 1,2,mm若若 k k = = argmax argmax g g i i ( (x x), ), i i = 1,2,= 1,2,mm 则则 x x k,称g g i i ( (x x) ) 为第为第 i i 类的判别函数类的判别函数. .对每一类别对每一类别, , 定义定义(dngy)(dngy)一个函数一个函数g i(x) i = 1,2,m, g i(x) i = 1,2,m, 且满足且满足下述下述g i(x)g i(x)均为最小错误率判别均为最小错误率判别(pnbi)(pnbi)规则判别规则判别(pnbi)(pnbi)函数函数. .第15页/共72页第十五页,共73页。不同的判别方法有不同的判别函数。确定不同的判别方法有不同的判别函数。确定(qudng)(qudng)了判别函数,决策边界也就确定了判别函数,决策边界也就确定(qudng)(qudng)下来了下来了, ,相邻的两个决策域在决策边界上相邻的两个决策域在决策边界上其判别函数值是相等的。其判别函数值是相等的。如果决策域如果决策域 R i R i与与 Rj Rj 是相邻的是相邻的, ,则分割这两个决则分割这两个决策域的决策边界方程应满足:策域的决策边界方程应满足: 一般地说,一般地说,模式模式(msh) x (msh) x 为为二维时,决策(juc)边界为一曲线;三维时,决策边界为一曲面;d维(d3)时,决策边界为一超曲面。一维时,决策边界为一分界点; 第16页/共72页第十六页,共73页。分类器设计(shj)分类器是某种由硬件或软件(run jin)组成的“机器”:计算c个判别函数gi(x)最大值选择MAXMAXg g1 1.g g2 2g gc c.x1x2xna(x)判别判别(pnbi(pnbi) )函数函数n多类识别问题的多类识别问题的Bayes最小错误率决策:最小错误率决策:gi(x) = P (i |x)第17页/共72页第十七页,共73页。决策(juc)的错误率 条件条件(tiojin)(tiojin)错错误率:误率:最小错误率最小错误率决策决策(juc)(juc)(平均)错误率是条件错误率的数学期望n(平均)错误率:(平均)错误率:第18页/共72页第十八页,共73页。决策(juc)的错误率最小错误率决最小错误率决策策(juc)(juc)n条件条件(tiojin)错误率错误率P(e|x)的计算的计算:以两类问题为例,当获得观测值以两类问题为例,当获得观测值x后,有两种决后,有两种决策可能:判定策可能:判定 x1 ,或者,或者x2。n条件条件(tiojin)错误率为:错误率为:第19页/共72页第十九页,共73页。决策(juc)的错误率设t为两类的分界面,则在特征向量x是一维时,t为x轴上的一点(ydin)。两个决策区域:R1(-,t)和R2(t,+)最小错误率最小错误率决策决策(juc)(juc)第20页/共72页第二十页,共73页。决策(juc)的错误率t第21页/共72页第二十一页,共73页。决策(juc)的错误率nBayesBayes最小错误率决策最小错误率决策(juc)(juc)使得每个观使得每个观测值下的条件错误率最小因而保证了(平测值下的条件错误率最小因而保证了(平均)错误率最小。均)错误率最小。nBayesBayes决策决策(juc)(juc)是一致最优决策是一致最优决策(juc)(juc)。最小错误率最小错误率决策决策(juc)(juc)第22页/共72页第二十二页,共73页。多类决策(juc)过程决策(juc)规则如果 ,则错误率特种空间分割成 个区域,平均错误率由c(c-1)项组成。第23页/共72页第二十三页,共73页。多类决策(juc)过程决策(juc)规则如果 ,则错误率特种空间分割成 个区域,平均错误率由c(c-1)项组成。此时(c sh),可以计算平均正确分类概率 p(c), 则p(e) =1- p(c)第24页/共72页第二十四页,共73页。决策的风险:做决策要考虑决策可能引起的损失。以医生(yshng)根据白细胞浓度判断一个人是否患血液病为例:没病(1)被判为有病(2),还可以做进一步检查,损失不大;有病(2)被判为无病(1),损失严重。2.3 基于最小风险(fngxin)的Bayes决策第25页/共72页第二十五页,共73页。损失(snsh)矩阵最小风险最小风险(fngxi(fngxin)n)决策决策n损失的定义:(N类问题)做出决策 D(x) = ,但实际上 xj,受到的损失定义为:第26页/共72页第二十六页,共73页。决策(juc)规则:2.3 基于(jy)最小风险的Bayes决策风险R(期望损失):对x采取一个判决(pnju)行动所付出的代价。条件风险(也叫条件期望损失):第27页/共72页第二十七页,共73页。基于最小风险的Bayes决策:决策带来的损失(snsh)的(平均)风险最小。Bayes最小风险决策通过保证每个观测值下的条件风险最小,使得它的期望风险最小,是一致最优决策。2.3 基于最小风险(fngxin)的Bayes决策第28页/共72页第二十八页,共73页。两类问题最小风险(fngxin)Bayes决策决策规则(guz)为 若 R(1 | x) (12- 22) p(x|2) p(2) ,则选择 1 第29页/共72页第二十九页,共73页。Bayes最小风险(fngxin)决策例解两类细胞识别问题:正常(1)和异常(2)根据已有知识和经验,两类的先验概率为:正常(1):P(1异常(2):P(2对某一样本观察值x,通过(tnggu)计算或查表得到:p(x|1,p(x|211=0,12=6,21=1,22=0,按最小风险决策如何对细胞x进行分类?最小风险最小风险(fngxi(fngxin)n)决策决策第30页/共72页第三十页,共73页。Bayes最小风险(fngxin)决策例解(2)后验概率(gil):P(1,P(2决策决策(juc)(juc)结结果果最小风险最小风险决策决策第31页/共72页第三十一页,共73页。两类判别(pnbi)法的联系基于最小错误率的Bayes决策可作为最小风险Bayes决策的一种特殊情形。只需要(xyo)定义损失为:最小风险最小风险(fngxi(fngxin)n)决策决策决策正确时,损失为0决策错误时,损失为1第32页/共72页第三十二页,共73页。2.4正态分布的最小错误率Bayes决策(juc)Bayes决策中,类条件概率密度的选择要求(yoqi):模型合理性计算可行性常用概率密度模型:正态分布观测值通常是很多种因素共同作用的结果,根据中心极限定理,服从正态分布。计算、分析最为简单的模型。第33页/共72页第三十三页,共73页。一元(yyun)正态分布正态分布正态分布BayesBayes决策决策(juc)(juc)一元(yyun)正态分布及其两个重要参数:均值(中心)方差(分散度)第34页/共72页第三十四页,共73页。多元(duyun)正态分布观测向量:实际应用中,可以同时(tngsh)观测多个值,用向量表示。多元正态分布:正态分布正态分布BayesBayes决策决策(juc)(juc)第35页/共72页第三十五页,共73页。多元(duyun)正态分布的性质参数和完全决定分布(fnb)不相关性等价于独立性边缘分布(fnb)和条件分布(fnb)的正态性线性变换的正态性:线性变换的正态性Y=AX,A为线性变换矩阵。若X为正态分布(fnb),则Y也是正态分布(fnb)。线性组合的正态性正态分布正态分布BayesBayes决策决策(juc)(juc)第36页/共72页第三十六页,共73页。观测向量的类条件分布服从(fcng)正态分布:判别函数的计算:判别函数中与类别(libi)i无关的项,对于类别(libi)的决策没有影响,可以忽略。2.4正态分布的最小错误率Bayes决策(juc)第37页/共72页第三十七页,共73页。2.5正态分布的最小错误率Bayes决策(juc)决策( juc)面第38页/共72页第三十八页,共73页。最小距离(jl)分类器与线性分类器n判别函数的简化判别函数的简化(jinhu)计算:计算:正态分布正态分布BayesBayes决策决策(juc)(juc)最小距离分类器最小距离分类器线性分类器线性分类器第一种特例:协方差相等且具有相同的方差第39页/共72页第三十九页,共73页。最小距离(jl)分类器与线性分类器正态分布正态分布BayesBayes决策决策(juc)(juc)第一种特例(tl):协方差相等且具有相同的方差第40页/共72页第四十页,共73页。最小距离(jl)分类器与线性分类器第一种特例(tl):正态分布正态分布BayesBayes决策决策(juc)(juc)协方差相等且具有相同的方差第41页/共72页第四十一页,共73页。最小距离(jl)分类器与线性分类器第二种特例(tl):正态分布正态分布BayesBayes决策决策(juc)(juc)协方差阵相等第42页/共72页第四十二页,共73页。最小距离(jl)分类器与线性分类器第二种特例(tl):n判别函数的简化判别函数的简化(jinhu)计算:计算:正态分布正态分布BayesBayes决策决策MahalanobisMahalanobis距离距离线性分类器线性分类器协方差阵相等第43页/共72页第四十三页,共73页。正态模型(mxng)的Bayes决策面两类问题正态模型的决策( juc)面:决策( juc)面方程:g1(x)=g2(x)两类的协方差矩阵相等,决策( juc)面是超平面。两类的协方差矩阵不等,决策( juc)面是超二次曲面。正态分布正态分布BayesBayes决策决策(juc)(juc)第44页/共72页第四十四页,共73页。正态分布下的几种(jzhn)决策面的形式正态分布正态分布BayesBayes决策决策(juc)(juc)第45页/共72页第四十五页,共73页。第46页/共72页第四十六页,共73页。第47页/共72页第四十七页,共73页。正态分布的Bayes决策(juc)例解两类的识别问题:医生要根据病人血液中白细胞的浓度来判断病人是否患血液病。根据医学知识和以往的经验(jngyn),医生知道:患病的人,白细胞的浓度服从均值2000,方差1000的正态分布;未患病的人,白细胞的浓度服从均值7000,方差3000的正态分布;一般人群中,患病的人数比例为0.5%。一个人的白细胞浓度是3100,医生应该做出怎样的判断?正态分布正态分布BayesBayes决策决策(juc)(juc)第48页/共72页第四十八页,共73页。数学表示:用表示“类别”这一随机变量,1表示患病,2表示不患病;x表示“白细胞浓度”这个随机变量。例子中,医生掌握的知识(zhshi)非常充分,他知道:1)类别的先验分布:P(1)=0.5%P(2)=99.5%先验分布:没有获得观测数据(病人白细胞浓度)之前类别的分布正态分布正态分布BayesBayes决策决策(juc)(juc)正态分布的Bayes决策(juc)例解第49页/共72页第四十九页,共73页。2)观测数据白细胞浓度分别在两种情况下的类条件分布(fnb):P(x|1)N(2000,1000)P(x|2)N(7000,3000)P(3100|14P(3100|25P(1|3100)=1.9%P(2|3100)=98.1%医生的判断:正常正态分布正态分布BayesBayes决策决策(juc)(juc)正态分布的Bayes决策(juc)例解第50页/共72页第五十页,共73页。n1.输入输入(shr)类数类数M;特征数;特征数n,待分样本数,待分样本数m.n2.输入输入(shr)训练样本数训练样本数N和训练集资料矩阵和训练集资料矩阵X(Nn)。并计算有关参数。并计算有关参数。n3.计算矩阵计算矩阵y中各类的后验概率。中各类的后验概率。n4.若按最小错误率原则分类,则可根据若按最小错误率原则分类,则可根据 3 的结果判的结果判定定y中各类样本的类别。中各类样本的类别。n5.若按最小风险原则分类,则输入若按最小风险原则分类,则输入(shr)各值,各值,并计算并计算y中各样本属于各类时的风险并判定各样本中各样本属于各类时的风险并判定各样本类别。类别。Bayes分类(fn li)的算法(假定各类样本服从正态分布)第51页/共72页第五十一页,共73页。v例1、有训练集资料(zlio)矩阵如下表所示,现已知,N=9、N1=5、N2=4、n=2、M=2,试问,X=(0,0)T应属于哪一类?训练样本号训练样本号k1 2 3 4 5 1 2 3 4 特征特征 x1特征特征 x21 1 0 -1 -1 0 1 0 -1 0 1 1 1 0-1 -2 -2 -2类别类别1 2解1、假定二类协方差矩阵(j zhn)不等(12) 则均值:第52页/共72页第五十二页,共73页。第53页/共72页第五十三页,共73页。-1-1-2x2分类线待测样本x1第54页/共72页第五十四页,共73页。v解解2、假定、假定(jidng)两类协方差矩阵相等两类协方差矩阵相等=1+2-1-1-2x2分类线待测样本x1第55页/共72页第五十五页,共73页。 采用最小错误率贝叶斯决策需要知道先验概率. P ( i ) ,但有时P (i ) 难以确定。采用最小风险贝叶斯决策需要确定恰当的损失值,这也并非易事.在两类问题决策中,有时要求 P2 ( e ) 不得大于某个常数,即取 P2 ( e ) , 是一个很小的常数,在这个条件下再要求 P1( e )尽可能小. 在这种情况下, 奈曼(nai mn)-皮尔逊决策为此提供了一种决策方案.2.5 Neyman-Pearson 决策决策(juc) 第56页/共72页第五十六页,共73页。2.5 Neyman-Pearson 决策决策(juc) n 这种决策可看成是在这种决策可看成是在 条件下,求条件下,求 的条件极小值问题的条件极小值问题. 可采用拉格朗日乘数法求解可采用拉格朗日乘数法求解.F = P1 ( e ) +(P2 ( e ) -0 )第57页/共72页第五十七页,共73页。2.5 Neyman-Pearson 决策决策(juc) n 这种决策可看成是在这种决策可看成是在 条件下,求条件下,求 的条件极小值问题的条件极小值问题. 可采用拉格朗日乘数法求解可采用拉格朗日乘数法求解.第58页/共72页第五十八页,共73页。2.5 Neyman-Pearson 决策决策(juc) n 这种决策可看成是在这种决策可看成是在 条件下,求条件下,求 的条件极小值问题的条件极小值问题. 可采用拉格朗日乘数法求解可采用拉格朗日乘数法求解.同理同理P P ( (x x/ /1 1) )P P ( (x x/ /2 2) ) P P ( (x x/ /1 1) )P P ( (x x/ /2 2) ) x x 1 1 x x 2 2 由此得判别由此得判别(pnbi)(pnbi)规则为规则为第59页/共72页第五十九页,共73页。2.5 Neyman-Pearson 决策决策(juc) n 这种决策可看成是在这种决策可看成是在 条件下,求条件下,求 的条件极小值问题的条件极小值问题. 可采用拉格朗日乘数法求解可采用拉格朗日乘数法求解.同理同理的求法:利用(lyng)约束条件第60页/共72页第六十页,共73页。例:两类的模式分布为二维正态例:两类的模式分布为二维正态 协方差矩阵协方差矩阵(j zhn)为单位矩阵为单位矩阵(j zhn)1=2=I,设,设2 求求 N-P 准则准则 .2.5 Neyman-Pearson 决策决策(juc) 解:第61页/共72页第六十一页,共73页。2.5 Neyman-Pearson 决策决策(juc) 第62页/共72页第六十二页,共73页。2.5 Neyman-Pearson 决策决策(juc) n于是得与2的关系(gun x)表如下: 4 2 1 20.04 0.09 0.16 0.25 0.38 P P ( ( x x /2 2 ) ) d xd x P P 2 2 ( ( e e ) = ) =由已知,可计算(j sun)得在 2中 x 1 N( 1, 1 ), 进一步可得第63页/共72页第六十三页,共73页。2.5 Neyman-Pearson 决策决策(juc) n所以(suy)此时N-P分类器的分界线为:第64页/共72页第六十四页,共73页。2.6 最小最大决策最小最大决策(juc) n从最小错误率和最小风险的贝叶斯决策中可以看出从最小错误率和最小风险的贝叶斯决策中可以看出,其决策都其决策都是与先验概率是与先验概率P(i)有关的有关的,当先验概率已知时当先验概率已知时,按照贝叶斯决按照贝叶斯决策规则策规则,可以使错误率或风险最小可以使错误率或风险最小,如果如果P(i)是可变的或事先是可变的或事先对先验概率毫无所知对先验概率毫无所知,就无法用贝叶斯决策就无法用贝叶斯决策.n本节介绍一种本节介绍一种(y zhn)最小化最大风险的决策方法最小化最大风险的决策方法,也就是也就是在最差的条件下在最差的条件下,争取最好的结果争取最好的结果,我们将此方法简称最小最大我们将此方法简称最小最大决策决策.第65页/共72页第六十五页,共73页。2.6 最小最大决策最小最大决策(juc) 第66页/共72页第六十六页,共73页。2.6 最小最大决策最小最大决策(juc) 第67页/共72页第六十七页,共73页。2.6 最小最大决策最小最大决策(juc) n这样这样(zhyng),就得出最小风险与先验概率的关系曲线,如图所,就得出最小风险与先验概率的关系曲线,如图所示:示:n讨论:讨论:第68页/共72页第六十八页,共73页。2.6 最小最大决策最小最大决策(juc) n这样,就得出这样,就得出(d ch)最小风险与先验概率的关系曲线,如图最小风险与先验概率的关系曲线,如图所示:所示:n讨论:讨论:第69页/共72页第六十九页,共73页。2.6 最小最大决策最小最大决策(juc) n 上式证明,所选的判别(pnbi)边界,使两类的概率相等:n 这时可使最大可能的风险(fngxin)为最小,这时先验概率变化,n 其风险(fngxin)不变。第70页/共72页第七十页,共73页。2.7讨论(toln)基于( jy)Bayes决策的最优分类器nBayes决策的三个前提:n类别(libi)数确定n各类的先验概率P(i)已知n各类的条件概率密度函数p(x|i)已知n问题的转换:n基于样本估计概率密度n基于样本直接确定判别函数第71页/共72页第七十一页,共73页。感谢您的观看(gunkn)!第72页/共72页第七十二页,共73页。内容(nirng)总结第二章 贝叶斯决策理论。例:医生要根据病人血液中白细胞的浓度来判断病人。先验分布:没有获得观测数据(病人白细胞浓度)之前类别的分布。在限定一类错误率条件下使另一类错误率为最小的准则(N-P准则)。,m, 且满足。d维(d3)时,决策边界为一超曲面。(平均)错误率是条件错误率的数学期望。由c(c-1)项组成。边缘分布和条件分布的正态性。2.输入训练样本数N和训练集资料(zlio)矩阵X(Nn)。感谢您的观看第七十三页,共73页。
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号