资源预览内容
第1页 / 共62页
第2页 / 共62页
第3页 / 共62页
第4页 / 共62页
第5页 / 共62页
第6页 / 共62页
第7页 / 共62页
第8页 / 共62页
第9页 / 共62页
第10页 / 共62页
亲,该文档总共62页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
2.3 正态分布时的统计决策正态分布时的统计决策uuBayes决策的三个前提:决策的三个前提:类别数确定类别数确定类别数确定类别数确定各类的先验概率各类的先验概率各类的先验概率各类的先验概率P P( (i i) )已知已知已知已知各类的条件概率密度函数各类的条件概率密度函数各类的条件概率密度函数各类的条件概率密度函数p(p(x|x|i i) )已知已知已知已知uuBayes决策中,类条件概率密度的选择要求:决策中,类条件概率密度的选择要求:模型合理性模型合理性模型合理性模型合理性计算可行性计算可行性计算可行性计算可行性uu最常用概率密度模型:最常用概率密度模型:最常用概率密度模型:最常用概率密度模型:正态分布正态分布正态分布正态分布观测值通常是很多种因素共同作用的结果,根据观测值通常是很多种因素共同作用的结果,根据观测值通常是很多种因素共同作用的结果,根据观测值通常是很多种因素共同作用的结果,根据中心极限定理,它们(近似)服从正态分布。中心极限定理,它们(近似)服从正态分布。中心极限定理,它们(近似)服从正态分布。中心极限定理,它们(近似)服从正态分布。计算、分析最为简单的模型。计算、分析最为简单的模型。计算、分析最为简单的模型。计算、分析最为简单的模型。 一、正态分布判别函数一、正态分布判别函数 1、为什么采用正态分布:、为什么采用正态分布: a、正态分布在物理上是合理的、广泛的。、正态分布在物理上是合理的、广泛的。 b、正态分布数学上简单,、正态分布数学上简单,N(, ) 只有均值和只有均值和方差两个参数。方差两个参数。v2-3.1 正态分布决策理论正态分布决策理论2021/7/243 2、单变量正态分布:、单变量正态分布: 2021/7/244从从p(x)的图形上可以的图形上可以看出,看出,只要有两个只要有两个参数参数m m和和s s2 2 ,就可以完就可以完全确定其曲线。全确定其曲线。 若服从正态分布的总体中随机若服从正态分布的总体中随机抽取样本抽取样本x,约有,约有95的样本的样本落在落在(m-2s,m+2sm-2s,m+2s)中。样本的中。样本的分散程度可以用分散程度可以用s s来表示来表示 , s s越越大分散程度越大。大分散程度越大。 2021/7/245 正态分布是指一个随机实数度量值在整个实数域上正态分布是指一个随机实数度量值在整个实数域上的分布规律。的分布规律。 因此它属于因此它属于概率密度函数类概率密度函数类,不是我们所讨论的先,不是我们所讨论的先验概率验概率P(i),也不是后验概率,也不是后验概率P(i|X),而是,而是p(x|i)。2021/7/2463、(多变量)多维正态分布、(多变量)多维正态分布 为为d维均值向量也就是维均值向量也就是: (1)函数形式:)函数形式:x=(x1,x2,xd)T为为d维随机向量维随机向量 S S是是dd维协方差矩阵,维协方差矩阵,S S-1是是S S的逆矩阵,的逆矩阵,|S| S|为为S S的的行列式。行列式。 协方差矩阵协方差矩阵S S是对称的,是对称的,其中有其中有d(d+1)/2个独立元个独立元素。素。 2021/7/247 由于由于r(r(x) )可由可由m m和和S S完全确定,所以实际上完全确定,所以实际上r(r(x) )可由可由d(d+1)/2+dd(d+1)/2+d个独立元素来确定。个独立元素来确定。m m、S S分别是向量分别是向量x和矩阵和矩阵(x-m m)(x-m m)T的期望。的期望。 多元正态分布与单态量正态分布在形式上尽管多元正态分布与单态量正态分布在形式上尽管不同,但有很多相似之处,实际上单变量不同,但有很多相似之处,实际上单变量正态分布正态分布只只是维数为是维数为1的多元分布。的多元分布。 2021/7/248 当当d=1时,时,只是一个只是一个11的矩阵,也就是只有的矩阵,也就是只有1个个元素的矩阵,退化成一个数,元素的矩阵,退化成一个数,|1/2也就是标准差也就是标准差, ,-1-1也也就是就是-2,而,而(X)T(X)也变成也变成(X-)2, 多元正态分布的概率密度函数中的多元正态分布的概率密度函数中的元元就是我们就是我们前面说得特征向量的分量数,也就是前面说得特征向量的分量数,也就是维数维数。 2021/7/249具体说:若具体说:若xi是是x的第的第i个分量,个分量,m mi是是m m的第的第i个分量,个分量,s sijij2 2是是S S的第的第i、j个元素。个元素。其中其中r(r(xi) )为边缘分布,为边缘分布, 2021/7/2410协方差矩阵:协方差矩阵: 是一个对称矩阵,只考虑是一个对称矩阵,只考虑S S为为正定矩阵的情况,也就是正定矩阵的情况,也就是: |S| S|所有的子式都大于所有的子式都大于02021/7/2411 同单变量正态分布一样,同单变量正态分布一样,多元多元正态分布正态分布r(r(x) )可以由可以由m m和和S S完全确定,完全确定,常记为常记为N(m,Sm,S)。2021/7/2412(2) 多元正态分布的性质多元正态分布的性质参数参数和和完全决定分布完全决定分布等概率密度轨迹为超椭球面等概率密度轨迹为超椭球面 不相关性等价于独立性不相关性等价于独立性 边缘分布和条件分布的正态性边缘分布和条件分布的正态性 线性变换的正态性线性变换的正态性 线性组合的正态性线性组合的正态性2021/7/2413.参数参数m m和和S S对分布的决定性对分布的决定性 对于对于d维随机向量维随机向量x,它的均值向量,它的均值向量m m也是也是d维的,协维的,协方差矩阵是方差矩阵是对称对称的,其中有的,其中有d(d+1)/2d(d+1)/2个独立元素。个独立元素。 r( r(x) )可由可由m m和和S S完全确定,实际上完全确定,实际上r(r(x) )可由可由d(d+1)/2+dd(d+1)/2+d个独立元素决定。常记为:个独立元素决定。常记为: r(r(x) )N(m,Sm,S)2021/7/2414.等密度点的轨迹为一超椭球面等密度点的轨迹为一超椭球面 由由r(r(x) )的定义公式可知,右边指数项为常数时,密的定义公式可知,右边指数项为常数时,密度度r(r(x) )的值不变,所以等密度点满足:的值不变,所以等密度点满足: 二维情况下,上式的解是一个二维情况下,上式的解是一个椭圆轨迹椭圆轨迹,其长短,其长短轴方向由轴方向由协方差矩阵的特征向量决定,协方差矩阵的特征向量决定, 三维时是一个三维时是一个椭球面椭球面,超过三维则是,超过三维则是超椭球面超椭球面,主轴方向由协方差矩阵主轴方向由协方差矩阵S S的特征向量决定,各主轴的长的特征向量决定,各主轴的长度则与相应的特征值成正比。度则与相应的特征值成正比。2021/7/2415 从下图可以看出,从正态分布总体中抽取的样从下图可以看出,从正态分布总体中抽取的样本大部分落在由本大部分落在由m m 和和S S所确定的一个区域里,这个区所确定的一个区域里,这个区域的域的中心中心由均值向量由均值向量m m决定,区域的决定,区域的大小大小由由协方差矩协方差矩阵阵决定。决定。2021/7/2416在数理统计中,令:在数理统计中,令: 式中式中g g称为称为x到到m m的马氏距离(的马氏距离(Mahalanobis)距离。)距离。 所以所以等密度点轨迹是等密度点轨迹是x到到m m的马氏距离的马氏距离g g为常为常数的超椭球面。数的超椭球面。 2021/7/2417.不相关性等价于独立性不相关性等价于独立性 概率论中,一般来说,两个随机变量概率论中,一般来说,两个随机变量xi和和xj之间不之间不相关,并不意味着它们一定独立。相关,并不意味着它们一定独立。 如果如果xi和和xj之间不相关,则之间不相关,则xixj的数学期望有:的数学期望有:如果如果xi和和xj相互独立,则有:相互独立,则有:2021/7/2418 如果如果xi和和xj相互独立,则它们之间一定不相关,反相互独立,则它们之间一定不相关,反之则不成立。之则不成立。 但是但是对服从正态分布的两个分量对服从正态分布的两个分量xi和和xj,若,若xi和和xj互互不相关,则它们之间一定独立。不相关,则它们之间一定独立。证明:见书证明:见书P27 根据独立性的定义:正态分布随机向量的根据独立性的定义:正态分布随机向量的各分量间各分量间互不相关性与相互独立等价互不相关性与相互独立等价。 独立性是比不相关更强的条件。独立性是比不相关更强的条件。 不相关反映了不相关反映了xi和和xj的总体性质。的总体性质。 2021/7/2419.边缘分布与条件分布的正态性边缘分布与条件分布的正态性从从(3)证明得出的结论证明得出的结论r(r(x) )表达式,如果表达式,如果x用用xj表示,有:表示,有: 也就是说,边缘分布也就是说,边缘分布r(r(x1) )服从均值为服从均值为m m,方差为,方差为s s11112 2的正的正态分布:态分布:同理,同理, 2021/7/2420二元正态分布协方差矩阵二元正态分布协方差矩阵及其逆矩阵及其逆矩阵-1为为下面以二元正态分布为例进行证明下面以二元正态分布为例进行证明2021/7/2421根据边缘分布定义根据边缘分布定义2021/7/2422=1 另外,条件分布,给定另外,条件分布,给定x1的条件下的条件下x2的分布:的分布: 证明条件分布仍然是正态分布(作业题)证明条件分布仍然是正态分布(作业题)2021/7/2423.线性变换的正态性线性变换的正态性 对于多元随机向量的线性变换,仍为多元正态对于多元随机向量的线性变换,仍为多元正态分布的随机向量。分布的随机向量。 就是:就是:x服从正态分布服从正态分布r(r(x) )N(m,Sm,S),对,对x作线性作线性变换变换y=Ax,其中,其中A为线性变换矩阵,且为线性变换矩阵,且|A|0|0,则,则y服从正态分布:服从正态分布:r(r(x) )N(Am,m,A AS SA AT T)证明:证明: x经过变换为经过变换为y,设变换矩阵,设变换矩阵A为非奇异矩阵,为非奇异矩阵,y=Ax即即x=A-1y2021/7/2424即即 Ex=m m,Ey=n n根据雅克比行列式的定义,有根据雅克比行列式的定义,有|J|=|A|x的均值向量为的均值向量为m m,y的均值向量为的均值向量为n n所以所以y的概密函数与的概密函数与x的概密函数之间的关系为:的概密函数之间的关系为:所以:所以: n n =A m m 即即m m =A-1n n2021/7/2425由于:由于:|A|=|AT|=|AA|1/2(对称正定对称正定)由上面的结论可以得到:由上面的结论可以得到:2021/7/2426即:即: 性质性质5说明了用非奇异阵说明了用非奇异阵A对对x作线性变换后,原来作线性变换后,原来的正态分布正好变成另一个参数不同的正态分布。的正态分布正好变成另一个参数不同的正态分布。 由于由于是对称阵,根据高等代数知识总可以找到某是对称阵,根据高等代数知识总可以找到某个个A,使得变换后,使得变换后y的协方差矩阵的协方差矩阵AAT为对称阵,为对称阵, 这就意味着这就意味着y的各个分量之间是相互独立的,也就的各个分量之间是相互独立的,也就是总可以找到一组坐标系,使各随机变量在新的坐标是总可以找到一组坐标系,使各随机变量在新的坐标系下是系下是独立独立的。的。2021/7/2427.线性组合的正态性线性组合的正态性 若若x为多元正态随机向量,则线性组合为多元正态随机向量,则线性组合y=a aTx是一维的是一维的正态随机变量:正态随机变量:其中,其中,a a与与x同维。同维。证明证明 利用性质利用性质(5) 做线性变换做线性变换y=A ATx, 得得2021/7/2428 由性质由性质(5),y是服从均值向量是服从均值向量A ATm m,协方差阵,协方差阵ATA的多元统计分布的多元统计分布, 由性质由性质(4) , y的边缘分布的正态性,可以得出的边缘分布的正态性,可以得出y=a aTx服从正态分布,服从正态分布, 其概率密度函数为:其概率密度函数为:其中其中A=a a,A1为非奇异阵,为非奇异阵,A1为为d(d-1)为矩阵,为矩阵,y=y,Y1 T2021/7/2429 2.3.2正态分布中的正态分布中的Bayes分类方法分类方法 前面,我们已经把基于前面,我们已经把基于Bayes公式的几种分类判决公式的几种分类判决规则抽象为相应的判决函数和决策面方程。规则抽象为相应的判决函数和决策面方程。 这几种方法中这几种方法中Bayes最小错误率判决规则是一种最最小错误率判决规则是一种最基本的方法。基本的方法。 如果取如果取01损失函数,最小风险判决规则和最损失函数,最小风险判决规则和最大似然比判决规则均与最小错误判决规则等价。大似然比判决规则均与最小错误判决规则等价。 2021/7/2430 下面以下面以最小错误判决规则最小错误判决规则为例来研究为例来研究Bayes分分类方法在正态分布中的应用。类方法在正态分布中的应用。 由最小错误率判决规则抽象出来的判决函数如下:由最小错误率判决规则抽象出来的判决函数如下: 如果如果类概率密度类概率密度是是正态分布正态分布的,的, 2021/7/2431则则r(r(x|w wi) )N(m mi,S,Si) )。 取对数,得判别函数为取对数,得判别函数为2021/7/2432下面对几种特殊情况进行讨论。下面对几种特殊情况进行讨论。情况一:情况一: 该情况下,每类的协方差矩阵相等,而且类的各该情况下,每类的协方差矩阵相等,而且类的各特征间相互独立(由上节的性质特征间相互独立(由上节的性质得知),具有相得知),具有相等的方差等的方差s s2。2021/7/2433因此:因此: (1)先验概率先验概率P P(w(wi i)与与P P(w(wj j)不相等不相等2021/7/2434其中:其中: 将上两式代入将上两式代入gi(x):为为x到类到类w wi的均值的均值向量向量m mi的的“欧氏距欧氏距离离”的平方。的平方。与类别无关,可与类别无关,可以忽略,因此以忽略,因此gi(x)可简化为:可简化为:2021/7/2435进一步简化得。进一步简化得。xTx与与i无关,可以忽略:无关,可以忽略:2021/7/2436是一个线性函数。是一个线性函数。 因此可以进一步写成因此可以进一步写成 2021/7/2437(2) P(w wi )=P,所有各类概率相等,所有各类概率相等 决策规则:对某个决策规则:对某个x计算计算 为线性函数,为线性函数, 其决策面由线性方程其决策面由线性方程 决策面是一个超平面。决策面是一个超平面。2021/7/2438满足满足 的的x的轨迹是的轨迹是w wi 与与w wj 类间的决策面类间的决策面当当P(w wi )=P(w wj )时,超平面通过时,超平面通过m mi 与与m mj 连线中点并与连线中点并与连线正交连线正交2021/7/2439两个同心圆是两类概率分布等密度点轨迹,两个同心圆是两类概率分布等密度点轨迹,两个圆心就是两类的均值点。两个圆心就是两类的均值点。两类的区分线两类的区分线l与与m m1-m m2垂直,其交点为垂直,其交点为x0 若若P(w w1 )P(w w2 )时,时,x0向先验向先验概率较小的那个类型的均值概率较小的那个类型的均值点偏移。点偏移。 x0一般不是一般不是m1m1-m2m2的中点,的中点,但当但当P(w w1 )=P(w w2 )时,时,x0为为m m1-m m2的中点。的中点。 2021/7/2440情况二:情况二:i 相等,即各类协方差相等相等,即各类协方差相等 从几何上看,相当于各类样本集中于以该类均从几何上看,相当于各类样本集中于以该类均值点为中心的同样大小和形状的超椭球面内。值点为中心的同样大小和形状的超椭球面内。2021/7/2441 对于未知的对于未知的x,如果把,如果把x与各类均值相减,即与各类均值相减,即相当于相当于Mahalanobis距离的平方。这时把距离的平方。这时把x归于最归于最近一类。称为近一类。称为最小距离分类器最小距离分类器。与类别无关,与类别无关,可以忽略,可以忽略,2021/7/2442gi(x)为)为线性函数线性函数,故决策面是一个,故决策面是一个超平面超平面。2021/7/2443如果决策域如果决策域R1和和R2相邻,则决策面方程应满:相邻,则决策面方程应满:如果各类的如果各类的先验概率相等先验概率相等,则,则2021/7/2444下面针对下面针对1,2二类情况进行讨论二类情况进行讨论2021/7/2445情况三情况三: 为任意,各类协方差矩阵不等为任意,各类协方差矩阵不等这时判别函数为这时判别函数为 x 的的二次型二次型。2021/7/2446如果决策域,如果决策域,R1和和R2相邻,则决策面方程应满足相邻,则决策面方程应满足2021/7/24472021/7/24482021/7/24492.4 关于分类器的错误率问题关于分类器的错误率问题 在分类过程中,任何一种决策规则都有其相应在分类过程中,任何一种决策规则都有其相应的错误率,的错误率, 当采用指定的决策规则来对类条件概率密度及当采用指定的决策规则来对类条件概率密度及先验概率均为已知的问题进行分类时,它的错误率先验概率均为已知的问题进行分类时,它的错误率是固定的。是固定的。 错误率反映了分类问题固有的复杂性的程度。错误率反映了分类问题固有的复杂性的程度。 对同一种问题设计出的多种不同的分类方案,对同一种问题设计出的多种不同的分类方案,通常总是以错误率大小作为比较方案好坏的标准。通常总是以错误率大小作为比较方案好坏的标准。 因此,在本书中错误率是非常重要的参数。因此,在本书中错误率是非常重要的参数。2021/7/24502.4.0 两类决策的错误率为下式两类决策的错误率为下式 从上式可以看出当从上式可以看出当x为多维向量的时候,进为多维向量的时候,进行积分运算的工作量比较大。行积分运算的工作量比较大。 因此对于实际问题,对错误率的研究一般从因此对于实际问题,对错误率的研究一般从下面三点出发:下面三点出发:1、按理论公式研究。、按理论公式研究。2、计算错误率上界、计算错误率上界3、实验估计、实验估计2021/7/24512.4.1 在一些特殊情况下错误率的理论计算在一些特殊情况下错误率的理论计算第一种情况第一种情况-正态分布且等协方差矩阵正态分布且等协方差矩阵 S S1 1=S S2 2=S S3 3下面回顾一下最小错误率贝叶斯决策的负对数似然比函数下面回顾一下最小错误率贝叶斯决策的负对数似然比函数很显然,很显然,h(x)为随机变量,记它的分布函数为为随机变量,记它的分布函数为P(h|w wi)2021/7/2452这样贝叶斯决策的最小错误率形式这样贝叶斯决策的最小错误率形式 在实际情况下,我们只考虑正态分布,因此在实际情况下,我们只考虑正态分布,因此h(x)可可以写成如下形式:以写成如下形式:2021/7/24532021/7/2454 上式表明决策面是上式表明决策面是x的二次型,如果协方差相的二次型,如果协方差相等,决策面就变成等,决策面就变成 x 的线性函数。即的线性函数。即 x 是是 d 维等协方差正态分布的随机向量,而维等协方差正态分布的随机向量,而 h(x) 是一维的随机变量,且是是一维的随机变量,且是 x 的线性函数,因此上式可的线性函数,因此上式可看成是对看成是对x的各分量做线性组合的各分量做线性组合 a aT Tx, 然后再作平移,然后再作平移,其中其中 a aT T=(m=(m2 2-m-m1 1) )T TS S-1-12021/7/2455令令则有则有2021/7/2456同样可以得出同样可以得出p(h/w/w2 2) )的参数均值的参数均值h h2 2及方差及方差s s2 22 2因此,可以利用因此,可以利用p(h/w/w1 1) )和和p(h/w/w2 2) )计算出计算出P1(e)和和P2(e)2021/7/24572021/7/24582.独立随机变量独立随机变量 当当d 维随机向量维随机向量 x 的分量相互独立时,的分量相互独立时,x 的密度函数的密度函数课表示为:课表示为:因此负对数似然比因此负对数似然比h(x)为:)为:2021/7/2459 也就是说随机变量也就是说随机变量h(x)为为d个随机变量个随机变量h(xl)之和。之和。根据根据中心极限定理中心极限定理,无论,无论h(xl)的密度函数如何,只的密度函数如何,只要当要当d大时,大时,h(x)的密度函数总是趋于的密度函数总是趋于正态分布正态分布。这样我们就可以得到这样我们就可以得到均值均值h h2 2及方差及方差s s2 22 22021/7/2460 根据独立性假设,上式中第二项必定为零,所以根据独立性假设,上式中第二项必定为零,所以其方差可写为其方差可写为2021/7/2461个人观点供参考,欢迎讨论
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号