聚类算法学习笔记-－金锄头文库

聚类的定义聚类是一个将数据集划分为若干个子集的过程，并使得同一集合内的数据对象具有较高的相似度，而不同集合中的数据对象则是不相同的，相似或不相似的度量是基于数据对象描述属性的聚类值来确定的，通常就是利用各个聚类间的距离来进行描述的。聚类分析的基本指导思想是最大程度地实现类中对象相似度最大，类间对象相似度最小。聚类与分类不同，在分类模型中，存在样本数据，这些数据的类标号是已知的，分类的目的是从训练样本集中提取出分类的规则，用于对其他标号未知的对象进行类标识。在聚类中，预先不知道目标数据的有关类的信息，需要以某种度量为标准将所有的数据对象划分到各个簇中。因此，聚类分析又称为无监督的学习。聚类主要包括以下几个过程：（1）数据准备：包括特征标准化和降维。（2）特征选择、提出：从最初的特征中选择是有效的特征，并将其存储于向量中。（3）特征提取：通过对所选择的特征进行转换，形成新的突出特征。（4）聚类（或分组）：首先选择合适特征类型的某种距离函数（或构造新的距离函数）进行接近程度的度量，然后执行聚类或分组。聚类结果评估：指对聚类结果进行评估。评估主要有 3 种：外部有效性评估、内部有效性评估和相关性测试评估。聚类算法的要求（1）可扩展性。许多聚类算法在小数据集（少于 200 个数据对象）时可以工作很好；但一个大数据库可能会包含数以百万的对象。利用采样方法进行聚类分析可能得到一个有偏差的结果，这时就需要可扩展的聚类分析算法。（2）处理不同类型属性的能力。许多算法是针对基于区间的数值属性而设计的。但是有些应用需要对实类型数据。如：二值类型、符号类型、顺序类型，或这些数据类型的组合。（3）发现任意形状的聚类。许多聚类算法是根据欧氏距离和 Manhattan 距离来进行聚类的。基于这类距离的聚类方法一般只能发现具有类似大小和密度的圆形或球状聚类。而实际一个聚类是可以具有任意形状的，因此设计能够发现任意开关类集的聚类算法是非常重要的。（4）需要（由用户）决定的输入参数最少。许多聚类算法需要用户输入聚类分析中所需要的一些参数（如：期望所获得聚类的个数）。而聚类结果通常都与输入参数密切相关；而这些参数常常也很难决定，特别是包含高维对象的数据集。这不仅构成了用户的负担，也使得聚类质量难以控制。（5）处理噪声数据的能力。大多数现实世界的数据库均包含异常数据、不明数据、数据丢失和噪声数据，有些聚类算法对这样的数据非常敏感并会导致获得质量较差的数据。（6）对输入记录顺序不敏感。一些聚类算法对输入数据的顺序敏感，也就是不同的数据输入顺序会导致获得非常不同的结果。因此设计对输入数据顺序不敏感的聚类算法也是非常重要的。（7）高维问题。一个数据库或一个数据仓库或许包含若干维属性。许多聚类算法在处理低维数据时（仅包含二到三个维）时表现很好，然而设计对高维空间中的数据对象，特别是对高维空间稀疏和怪异分布的的数据对象，能进行较好聚类分析的聚类算法已成为聚类研究中的一项挑战。（8）基于约束的聚类。现实世界中的应用可能需要在各种约束之下进行聚类分析。假设需要在一个城市中确定一些新加油站的位置，就需要考虑诸如：城市中的河流、调整路，以及每个区域的客户需求等约束情况下居民住地的聚类分析。设计能够发现满足特定约束条件且具有较好聚类质量的聚类算法也是一个重要聚类研究任务。（9）可解释性和可用性。用户往往希望聚类结果是可理解的、可解释的，以及可用的，这就需要聚类分析要与特定的解释和应用联系在一起。因此研究一个应用的目标是如何影响聚类方法选择也是非常重要的。各种聚类算法介绍随着人们对数据挖掘的深入研究和了解，各种聚类算法的改进算法也相继提出，很多新算法在前人提出的算法中做了某些方面的提高和改进，且很多算法是有针对性地为特定的领域而设计。我们必须清楚地了解各种算法的优缺点和应用范围，根据实际问题选择合适的算法。基于层次的聚类算法基于层次的聚类算法对给定数据对象进行层次上的分解，可分为凝聚算法和分裂算法。 (1)自底向上的凝聚聚类方法。这种策略是以数据对象作为原子类，然后将这些原子类进行聚合。逐步聚合成越来越大的类，直到满足终止条件。凝聚算法的过程为：在初始时，每一个成员都组成一个单独的簇，在以后的迭代过程中，再把那些相互邻近的簇合并成一个簇，直到所有的成员组成一个簇为止。其时间和空间复杂性均为 O(n2)。通过凝聚式的方法将两簇合并后，无法再将其分离到之前的状态。在凝聚聚类时，选择合适的类的个数和画出原始数据的图像很重要。(2)自顶向下分裂聚类方法。与凝聚法相反，该法先将所有对象置于一个簇中，然后逐渐细分为越来越小的簇，直到每个对象自成一簇，或者达到了某个终结条件。其主要思想是将那些成员之间不是非常紧密的簇进行分裂。跟凝聚式方法的方向相反，从一个簇出发，一步一步细化。它的优点在于研究者可以把注意力集中在数据的结构上面。一般情况下不使用分裂型方法，因为在较高的层很难进行正确的拆分基于密度的聚类算法很多算法都使用距离来描述数据之间的相似性，但对于非凸数据集，只用距离来描述是不够的。此时可用密度来取代距离描述相似性，即基于密度的聚类算法。它不是基于各种各样的距离，所以能克服基于距离的算法只能发现“类圆形”的聚类的缺点。其指导思想是：只要一个区域中的点的密度（对象或数据点的数目）大过某个阈值，就把它加到与之相近的聚类中去。该法从数据对象的分布密度出发，把密度足够大的区域连接起来，从而可发现任意形状的簇，并可用来过滤“噪声”数据。常见算法有 DBSCAN，DENCLUE 等基于划分的聚类算法给定一个 N 个对象的元组或数据库，根据给定要创建的划分的数目 k，将数据划分为 k 个组，每个组表示一个簇类（=N）时满足如下两点：(1)每个组至少包含一个对象；(2)每个对象必须属于且只属于一个组。算法先随机创建一个初始划分，然后采用一种迭代的重定位技术，通过将对象根据簇类之间的差异从一个划分移到另一个划分来提高簇类内数据之间的相似程度。一种好的划分的一般准则是：在同一个类中的对象尽可能“接近”或相似，而不同类中的对象尽可能“远离”或不同。为了达到全局最优，基于划分的聚类会要求穷举所有可能的划分。典型的划包括：K-means，PAM，EM 等。划分法收敛速度快，在对中小规模的数据库中发现球状簇很适用。缺点是它倾向于识别凸形分布大小相近、密度相近的聚类，不能发现分布形状比较复杂的聚类，它要求类别数目 k 可以合理地估计，且初始中心的选择和噪声会对聚类结果产生很大影响。还要求用户预先指定聚类个数。基于网格的聚类算法首先将数据空间量化为有限个单元的网格结构，然后对量化后的单个的单元为对象进行聚类。典型的算法有 STING，CLIQUE 等。网格聚类法处理速度快，处理时间与数据对象的数目无关，一般由网格单元的数目决定。缺点是只能发现边界是水平或垂直的聚类，不能检测到斜边界。该类算法也不适用于高维情况，因为网格单元的数目随着维数的增加而呈指数增长。另外还有下列问题：一是如何选择合适的单元大小和数目，二是怎样对每个单元中对象的信息进行汇总，三是存在量化尺度的问题。基于模型的聚类算法基于模型的方法给每一个聚簇假定了一个模型，然后去寻找能够很好满足这个模型的数据集。这个模型可能是数据点在空间中的密度分布函数，它由一系列的概率分布决定，也可能通过基于标准的统计数字自动决定聚类的数目。它的一个潜在假定是：目标数据集是由一系列的概率分布所决定的。一般有 2种尝试方向：统计的方案和神经网络的方案。COBWEB 是一种流行的简单增量概念聚类算法，以一个分类树的形式来创建层次聚类，它的输入对象用分类属性-值对来描述。COBWEB 的优点为：可以自动修正划分中类的数目；不需要用户提供输入参数。缺点为：COBWEB 基于这样一个假设：在每个属性上的概率分布是彼此独立的。但这个假设并不总是成立。且对于偏斜的输入数据不是高度平衡的，它可能导致时间和空间复杂性的剧烈变化，不适用于聚类大型数据库的数据。模糊聚类算法现实中很多对象没有严格的属性，其类属和形态存在着中介性，适合软划分。恰好模糊聚类具有描述样本类属中间性的优点，因此成为当今聚类分析研究的主流。常用的模糊聚类有动态直接聚类法、最大树法、FCM 等。基本原理为：假设有 N 个要分析的样本，每个样本有 M 个可量化的指标，一般步骤为：(1)标准化数据：常用的数据标准化方法有：小数定标规范化，最大最小值规范化，标准差规范化等。(2)建立模糊相似矩阵，标定相似系数。(3)计算多极相似矩阵，计算整体相似关系矩阵，有传递闭包法，动态直接聚类法，最大树法等。(4)给定一个聚类水平，计算绝对相似矩阵，按行列调整绝对相似矩阵，每个分块即为一个分类。其它聚类算法（1）基于群的聚类方法该法是进化计算的一个分支，模拟了生物界中蚁群、鱼群等在觅食或避敌时的行为。可分为蚁群算法 ACO 和 PSO。蚁群聚类算法的许多特性，如灵活性、健壮性、分布性和自组织性等，使其非常适合本质上是分布、动态及又要交错的问题求解中，能解决无人监督的聚类问题，具有广阔的前景。PSO 模拟了鱼群或鸟群的行为。在优化领域，PSO 可以与遗传算法相媲美，并在预测精度和运行速度方面占优势。对 ACO 或 PSO 在数据挖掘中应用的研究仍处于早期阶段，要将这些方法用到实际的大规模数据挖掘的聚类分析中还需要做大量的研究工作。（2）基于粒度的聚类方法从粒度的角度看，我们会发现聚类和分类有很大的相通之处：聚类操作实际上是在一个统一粒度下进行计算的；分类操作是在不同粒度下进行的。所以说在粒度原理下，聚类和分类是相通的，很多分类的方法也可以用在聚类方法中。作为一个新的研究方向，虽然目前粒度计算还不成熟，尤其是对粒度计算语义的研究还相当少，但相信随着粒度理论的不断发展，今后几年它必将在聚类算法及其相关领域得到广泛的应用。（3）谱聚法谱聚类方法建立在谱图理论基础之上，并利用数据的相似矩阵的特征向量进行聚类，是一种基于两点间相似关系的方法，这使得该方法适用于非测度空间。它与数据点的维数无关，而仅与数据点的个数有关，可以避免由特征向量的过高维数所造成的奇异性问题。它又是一个判别式算法，不用对数据的全局结构作假设，而是首先收集局部信息来表示两点属于同一类的可能性；然后根据某一聚类判据作全局决策，将所有数据点划分到不同的数据集合中。通常这样的判据可以在一个嵌入空间中得到解释，该嵌入空间是由数据矩阵的某几个特征向量张成的。谱聚类算法成功原因在于：通过特征分解，可以获得聚类判据在放松了的连续域中的全局最优解。与其他算法相比，它不仅思想简单、易于实现、不易陷入局部最优解，而且具有识别非凸分布的聚类能力，非常适合于许多实际问题。目前，该算法已应用于语音识别、VLSI 设计、文本挖掘等领域。（4）多种聚类方法的融合实际应用的复杂性和数据的多样性往往使得单一的算法无能为力。因此，很多人对多种算法的融合进行了广泛研究并取得了一些成果。大致可分为以下几类：(1)基于传统聚类方法的融合，如 CLIQUE、CUBN 等。(2)模糊理论与其他聚类法的融合，如遗传模糊 C2 均值混合聚类法等。(3)遗传算法与机器学习的融合。(4)传统聚类法与其他学科理论的融合，如谱算法等。总之，很多新算法是以上几类方法中两种或两种以上方法有机结合而得的，它们取长补短，优势明显，这也是我们数据挖掘研究人员要努力的研究方向之一。