2019年非监督学习方法大全-

非监督学习方法大全篇一：非监督学习法非监督学习法本章重点 1.什么叫非监督学习方法什么叫有监督学习方法 2.非监督学习方法主要的用途 3.非监督学习方法的两种基本处理方法：按分布密集程度划分与按相似度聚类划分 4.按分布密度程度划分的基本方法 5.动态聚类方法与分级聚类方法的概念 6.典型的动态聚类方法C均值算法与ISODATA算法 7.使用非欧氏距离计算相似度的动态聚类方法 8.分级聚类方法本章课前思考题 1.如果给机器一维数据机器能自动地找出其中存在的规律 2.有人把非监督学习方法叫无教师的学习而把第二章、第三章讨论的内容成为有监督学习又称有教师的学习你知道谁是教师教师的作用体现在里 3.机器能总结数据中存在的些规律呢 4.机器能总结天气变化的规律给出天气预报 5.机器能炒股 6.非监督学习方法与数据有关系知识树 5.1引言以前各章讨论的分类器设计方法都是在样本集中的类别标签已知的条件下进行的这些样本称为训练样本在样本标签已知的情况下可以统计出各类训练样本不同的描述量如其概率分布或在特征空间分布的区域等利用这些参数进行分类器设计称为有监督的学习方法然而在实际应用中不少情况下无法预先知道样本的标签也就是说没有训练样本因而只能从原先没有样本标签的样本集开始进行分类器设计这就是通常说的无监督学习方法对一个具体问题来说有监督与无监督的作法是不相同的人们日常生活中经常要观察事物与分析事物从中寻找其规律性这就是非监督学习方法要解决的问题例如人们见到图5.1的道路图时会发现中间有一条带与图中其它区域不同见到图5.3会发现在这个二维空间中有数据显现出聚成两类的现象这就是事物(对我们来说就是数据集)自身体现出的一些规律性非监督学习方法就是寻找数据集中体现出来的规律性从中我们可以强调非监督学习与有监督学习方法的以下几种不同点： 1有监督学习方法必须要有训练集与测试样本在训练集中找规律而对测试样本使用这种规律；而非监督学习没有训练集这一说只有一组数据在该组数据集内寻找规律 2有监督学习方法的目的就是识别事物识别的结果表现在给待识别数据加上了标号因此训练样本集必须由带标号的样本组成而非监督学习方法只有要分析的数据集本身预先没有什么标号如果发现数据集呈现某种聚集性则可按自然的聚集性分类但不以与某种预先的分类标号对上号为目的例如图 5.1道路图像有监督学习方法的目的是找到“道路”而非监督学习方法则只是将中间一条带状区域区分开来本质上讲与“道路”这个标号没有关系 3非监督学习方法在寻找数据集中的规律性这种规律性并不一定要达到划分数据集的目的也就是说不一定要“分类”这一点是比有监督学习方法的用途要广泛譬如分析一堆数据的主分量或分析数据集有什么特点都可以归于非监督学习方法的范畴 4用非监督学习方法分析数据集的主分量与用KL变换计算数据集的主分量又有区别应该说后者从方法上讲不是一种学习方法因此用KL变换找主分量不属于非监督学习方法即方法上不是而通过学习逐渐找到规律性这体现了学习方法这一点在人工神经元网络中寻找主分量的方法属于非监督学习方法以上四点是对非监督学习方法的定义及与有监督学习方法的区别例如图5.1表示对一幅道路图像按路面与非路面分类可用两种不同做法其中左图是在图像中路面区与非路面中各找一个窗口将其中每个象素分别作为这两类的训练样本集用这两个样本集在特征空间的分布参数进行设计而无监督学习方法则不同它不预先选择样本类别的样本集而是将整幅图的像素都作为待分类样本集通过它们在特征空间中表现出来的聚类现象把不同类别划分开图5.1的有监督学习中样本集分布呈现交迭情况而无监督学习方法由于没有类别样本指导无法确定它们的交迭情况只能按分布的聚类情况进行划分在类似于该例的实际应用问题中预先选定不同类别的样本往往不可能如时间不允许或无法用人工干予等因素另外在某些有监督学习方法中也往往需要利用聚类方法将样本按其分布划分成若干子类等聚类方法就是无监督学习方法的一个内容它是经常应用的一门技术图5.1无监督学习方法可以分成两大类一类为基于概率密度函数估计的直接方法指设法找到各类别在特征空间的分布参数再进行分类另一类称为基于样本间相似性度量的间接聚类方法其原理是设法定出不同类别的核心或初始类核然后依据样本与这些核心之间的相似性度量将样本聚集成不同类别下面分别讨论这两种方法最常用的基于概率密度估计的直接方法的例子是直方图方法例如我们统计一所学校中学生身高分布就往往可采用直方图方法把身高划分成一段段如1米到1米75算一段然后对每一段统计身高在此范围内的学生数得到直方图如果这个学校的男女学生数目相近则我们就会发现该直方图会体现出有两个分布高峰那么找到两高峰中的谷点就会将学生划分成两类因此使用概率统计方法的关键是能找出各个峰值区这就是5.2节中的主要内容另一种方法则在5.3节中再进一步讨论5.2单峰子类的分离方法对于样本在某一种度量中的分布统计一般称为直方图统计在样本数量很大时又可作为概率统计的估计由于这种方法基于将样本投影到某个坐标轴上因而称为投影方法使用投影方法有两个组成部分一个是如何设计合适的坐标系统另一是如何设计直方图如果对于各类别的类条件概率分布一无所知我们只按待分类样本在特征空间的自然聚集进行划分如图5.2所示的一维特征空间中样本在整个特征空间中呈现出两个分布高峰如果从分布的谷点将此特征空间划分为两个区则对应每个区域样本分布就只有一个峰值这些区域被称为单峰区域而每个单峰区域则被看作不同的决策域落在同一单峰区域的待分类样本就被划分成同一类称为单峰子类下面讨论一些单峰子类的划分算法图5.2 5.2.1投影法投影法的原理很简单拿图5.3显示的一个二维空间为例在该分类问题中两个类别分别在其特征空间中形成两个聚类图中用两个区域的轮廓勾出这两类样本聚类的区域对人来说一旦画出这两类的空间分布可以很容易地判断出这两类在特征空间聚集的区域但是对计算机来说要识别出这两类的分布情况直接从二维的图形来说是很困难的更不用说在高维特征空间直接对样本的分布作出判断了一个办法是如果将样本对某个方向的轴作投影或换句话说只取这些样本的某一分量的统计值来看样本的分布往往显现出高峰与低谷找到低谷将峰值分别划分在不同的区域中每个区域只有一个高峰并把聚在同一高峰下的样本划分为一类这是计算机容易做到的对于样本在某一种度量中的分布统计一般称为直方图统计在样本数量很大时又可作为概率统计的估计由于这种方法基于将样本投影到某个坐标轴上因而称为投影方法图5.3 使用投影方法有两个组成部分一个是如何设计合适的坐标系统另一是如何设计直方图在样本属性完全不知的情况下如何选择坐标系统是比较困难的因为这时还没有一个准则函数来表征这样一个坐标系统的性质一种启发式的办法是使待分类的样本在某个坐标轴方向具有最大的分散性这可以采用上一章讨论过的KL变换方法具体说来是用混合样本协方差矩阵作为KL变换的产生矩阵找到其特征值并按大小排序对应最大特征值的特征向量对此混合样本来说离散程度最大预期能发现明显的峰值但是这种方法并不能保证分出各个聚类例如图5.4所示情况其两个特征向量都只呈现单峰状态无法用此法将他们分开图5.4 投影法的具体算法分以下几个步骤：步骤1：计算样本协方差矩阵具有最大特征值的特征向量Uj把数据投影到Uj轴上步骤2：用直方图方法求数据的边缘概率密度函数步骤3：在直方图的峰值间求最小值在这些最小点作垂直于Uj的各个超平面把数据划分为若干个聚类步骤4：如果在这个轴上没有这样的最小值则用下一个最大特征值对应的特征向量重复以上过程步骤5：对每个得到的子集(聚类)重复上述过程直到每个集不能再分(为单峰)为止 5.2.2基于对称集性质的单峰子集分离法不要求在一个多维空间中给单峰区域下严格的定义是困难的譬如一个单峰区域的数据集用表示峰值在处形成则可写在 (51) 但是仅满足(51)式的区域并不能保证是单峰区另一方面如果考虑数据其中任何一对点y1和y2之间的距离用式的性质外还具有以下性质：表示该数据集除了具备(51) 篇二：有监督学习(supervisedlearning)和无监督学习(unsupervisedlearning) 有监督学习(supervisedlearning)和无监督学习(unsupervisedlearning)机器学习的常用方法主要分为有监督学习(supervisedlearning)和无监督学习(unsupervisedlearning)监督学习就是人们常说的分类通过已有的训练样本（即已知数据以及其对应的输出）去训练得到一个最优模型（这个模型属于某个函数的集合最优则表示在某个评价准则下是最佳的）再利用这个模型将所有的输入映射为相应的输出对输出进行简单的判断从而实现分类的目的也就具有了对未知数据进行分类的能力在人对事物的认识中我们从孩子开始就被大人们教授这是鸟啊、那是猪啊、那是房子啊等等我们所见到的景物就是输入数据而大人们对这些景物的判断结果（是房子还是鸟啊）就是相应的输出当我们见识多了以后脑子里就慢慢地得到了一些泛化的模型这就是训练得到的那个（或者那些）函数从而不需要大人在旁边指点的时候我们也能分辨的出来些是房子些是鸟监督学习里典型的例子就是KNN、SVM无监督学习（也有人叫非监督学习反正都差不多）则是另一种研究的比较多的学习方法它与监督学习的不同之处在于我们事先没有任何训练样本而需要直接对数据进行建模这听起来似乎有点不可思议但是在我们自身认识世界的过程中很多处都用到了无监督学习比如我们去参观一个画展我们完全对艺术一无所知但是欣赏完多幅作品之后我们也能把它们分成不同的派别（比如些更朦胧一点些更写实一些即使我们不知道什么叫做朦胧派什么叫做写实派但是至少我们能把他们分为两个类）无监督学习里典型的例子就是聚类了聚类的目的在于把相似的东西聚在一起而我们并不关心这一类因此一个聚类算法通常只需要知道如何计算相似度就可以开始工作了那么什么时候应该采用监督学习什么时候应该采用非监督学习呢我也是从一次面试的过程中被问到这个问题以后才开始认真地考虑答案一种非常简单的回答就是从定义入手如果我们在分类的过程中有训练样本(trainingdata)则可以考虑用监督学习的方法；如果没有训练样本则不可能用监督学习的方法但是事实上我们在针对一个现实问题进行解答的过程中即使我们没有现成的训练样本我们也能够凭借自己的双眼从待分类的数据中人工标注一些样本并把他们作为训练样本这样的话就可以把条件改善用监督学习的方法来做当然不得不说的是有时候数据表达的会非常隐蔽也就是说我们手头的信息不是抽象的形式而是具体的一大堆数字这样我们很难凭借人本身对它们简单地进行分类这个说的好像有点不大明白举个例子说就是在bagofwords模型的时候我们利用kmeans的方法聚类从而对数据投影这时候用kmeans就是因为我们当前到手的只有一大堆数据而且是很高维的当我们想把他们分为50个类的时候我们已经无力将每个数据标记说这个数应该是个类那个数又应该是个类了所以说遇到这种情况也只有无监督学习能够帮助我们了那么这么说来能不能再深入