资源预览内容
第1页 / 共12页
第2页 / 共12页
第3页 / 共12页
第4页 / 共12页
第5页 / 共12页
第6页 / 共12页
第7页 / 共12页
第8页 / 共12页
第9页 / 共12页
第10页 / 共12页
亲,该文档总共12页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
算法和方法的区别:方法是一种思想,算法是方法的实现。方法是解决问题的思想,只需要一个大致过程, 具体每一步可以有很多的变化,同一种方法也有很多算法。算法是具体到每一步的实现,方便转化成计算机可执行的代码。判别式和生成式的区别:判别式模型,就是只有一个模型,把测试用例往里面一放,label 就出来了。生成式模型,是有多个模型,把测试用例放在各个模型里面,选择最优的作为label 生成模型,就是生成(数据的分布 )的模型;判别模型,就是判别(数据输出量 )的模型【适用环境】更进一步,从结果角度,两种模型都能给你输出量 (label 或 y etc.) 。但,生成模型的处理过程会告诉你关于数据的一些统计信息(p(x|y) 分布etc.) ,更接近于统计学;而 判别模型则是通过一系列处理得到结果,这个结果可能是概率的或不是,这个并不改变他是不是判别的。如, 决策树的if then 说不是这个就是那个(而很多属性都是有分布的), 明显是一种判别嘛;而朴素贝叶斯说,p( cancer , fat ) = x% etc.,模型生成了一个分布给你了,即使你没意识到 /没用到,只用到p( cancer | fat ) = y% 这个最终的判别。【具体模型】更进一步,可以再理解一下:生成式模型朴素贝叶斯K 近邻 (KNN) 混合高斯模型隐马尔科夫模型(HMM) 贝叶斯网络Sigmoid Belief Networks 马尔科夫随机场(Markov Random Fields) 深度信念网络 (DBN) 判别式模型线性回归 (Linear Regression) 逻辑斯蒂回归 (Logistic Regression) 神经网络 (NN) 支持向量机 (SVM) 高斯过程 (Gaussian Process) 条件随机场 (CRF) CART(Classification and Regression Tree) 先验概率、后验概率、条件概率堵车有两个因素:车辆太多、交通事故堵车的概率就是先验概率那么如果我们出门之前我们听到新闻说今天路上出了个交通事故,那么我们想算一下堵车的概率,这个就叫做条件概率 。也就是P(堵车 |交通事故 )。这是有因求果。如果我们已经出了门,然后遇到了堵车, 那么我们想算一下堵车时由交通事故引起的概率有多大,那这个就叫做后验概率(也是条件概率,但是通常习惯这么说)。也就是P(交通事故 |堵车 )。这是有果求因百度概念:先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为 由因求果 问题中的因出现 . 后验概率是指依据得到结果 信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是执果寻因 问题中的 因. 最大似然估计:看病,病人说自己是头痛,医生根据自己的经验判断是感冒了。头痛的原因有很多P(感冒 |头痛 ) P(中风 |头痛 )P( 脑溢血 |头痛 ) 经过计算之后发现,P(感冒 |头痛 )是最大的,分析结果产生的最可能的原因。P(脑残 |头痛 )=头痛的人中脑残的人数/头痛的人数P(B|A)=P(A|B)P(B)/P(A) 贝叶斯定理:贝叶斯定理(英语:Bayes theorem)是概率论中的一个定理,描述在已知一些条件下,某事件的发生概率。比如, 如果已知某癌症与寿命有关,使用贝叶斯定理则可以通过得知某人年龄,来更加准确地计算出他罹患癌症的概率贝叶斯公式(发表于1763 年)为:。通常,事件A 在事件 B 已发生的条件下发生的概率,与事件B 在事件 A 已发生的条件下发生的概率是不一样的。然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述。贝叶斯公式的一个用途,即通过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边缘概率分布有关。作为一个普遍的原理,贝叶斯定理对于所有概率的解释是有效的。这一定理的主要应用为贝叶斯推断,是推论统计学中的一种推断法。这一定理名称来自于托马斯貝葉斯。朴素贝叶斯分类法的数学原理是什么,其中朴素意味着什么https:/ 次独立的 伯努利试验 。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互 独立 ,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验 中都保持不变,则这一系列试验总称为n 重伯努利实验,当试验次数为1 时,二项分布服从0-1 分布。多项式分布有什么特点多项式分布( Multinomial Distribution)是二项式分布的推广。高斯分布的概率密度函数在二维坐标轴上的形状是什么样的贝叶斯决策首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:其中: p(w) :为先验概率,表示每种类别分布的概率;:类条件概率,表示在某种类别前提下,某事发生的概率;而为后验概率, 表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下。我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?从问题看,就是上面讲的,某事发生了,它属于某一类别的概率是多少?即后验概率。设:由已知可得:男性和女性穿凉鞋相互独立,所以(若只考虑分类问题,只需要比较后验概率的大小,的取值并不重要) 。 由贝叶斯公式算出:问题引出但是在实际问题中并不都是这样幸运的,我们能获得的数据可能只有有限数目的样本数据,而先验概率和类条件概率(各类的总体分布)都是未知的。根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。先验概率的估计较简单,1、每个样本所属的自然状态都是已知的(有监督学习);2、依靠经验;3、用训练样本中各类出现的频率估计。类条件概率的估计(非常难),原因包括:概率密度函数包含了一个随机变量的全部信息; 样本数据可能不多;特征向量x 的维度可能很大等等。总之要直接估计类条件概率的密度函数很难。解决的办法就是,把估计完全未知的概率密度转化为估计参数。 这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。重要前提上面说到,参数估计问题只是实际问题求解过程中的一种简化方法(由于直接估计类条件概率密度函数很困难)。所以能够使用极大似然估计方法的样本必须需要满足一些前提假设。重要前提: 训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量 (iid 条件 ),且有充分的训练样本。极大似然估计极大似然估计的原理,用一张图片来说明,如下图所示:总结求最大似然估计量的一般步骤:(1)写出似然函数;(2)对似然函数取对数,并整理;(3)求导数;(4)解似然方程。最大似然估计的特点:1.比其他估计方法更加简单;2.收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;3.如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。在离线学习中,所有的训练数据在模型训练期间必须是可用的。只有训练完成了之后,模型才能被拿来用。简而言之,先训练,再用模型,不训练完就不用模型。在在线学习中,恰恰相反,在线算法按照顺序处理数据。它们产生一个模型,并在把这个模型放入实际操作中,而不需要在一开始就提供完整的的训练数据集。随着更多的实时数据到达,模型会在操作中不断地更新。线性回归和逻辑回归区别:K-means:K-means方法是一种非监督学习的算法,它解决的是聚类问题。算法接受参数k,然后将事先输入的n 个数据对象划分为k 个聚类以便使得所获得的聚类满足聚类中的对象相似度较高,而不同聚类中的对象相似度较小。算法思想:以空间中k 个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直到得到最好的聚类结果。3、算法描述:(1)适当选择c 个类的初始中心;(2)在第 k 次迭代中,对任意一个样本,求其到c 各中心的距离,将该样本归到距离最短的那个中心所在的类;(3)利用均值等方法更新该类的中心值;(4)对于所有的C 个聚类中心,如果利用(2) ( 3)的迭代法更新后,值保持不变,则迭代结束;否则继续迭代。KNN 算法思路: 如果一个样本在特征空间中的k 个最相似 (即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。看下面这幅图:KNN 的算法过程是是这样的:从上图中我们可以看到,图中的数据集是良好的数据,即都打好了label ,一类是蓝色的正方形,一类是红色的三角形,那个绿色的圆形是我们待分类的数据。如果 K=3 ,那么离绿色点最近的有2 个红色三角形和1 个蓝色的正方形,这3 个点投票,于是绿色的这个待分类点属于红色的三角形如果 K=5 ,那么离绿色点最近的有2 个红色三角形和3 个蓝色的正方形,这5 个点投票,于是绿色的这个待分类点属于蓝色的正方形我们可以看到,KNN本质是基于一种数据统计的方法!其实很多机器学习算法也是基于数据统计的。KNN 是一种 memory-based learning, 也叫 instance-based learning, 属于 lazy learning 。即它没有明显的前期训练过程,而是程序开始运行时,把数据集加载到内存后,不需要进行训练,就可以开始分类了。具体是每次来一个未知的样本点,就在附近找K 个最近的点进行投票。最大熵模型统计学习方法朴素贝叶斯那章节后面的习题解答感知器:
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号