资源预览内容
第1页 / 共62页
第2页 / 共62页
第3页 / 共62页
第4页 / 共62页
第5页 / 共62页
第6页 / 共62页
第7页 / 共62页
第8页 / 共62页
第9页 / 共62页
第10页 / 共62页
亲,该文档总共62页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据仓库与数据发掘技术第6章 数据预处置技术主讲人:孙水华 副教授信息科学与工程学院目 录n数据预处置概述 n数据清理 n数据集成n数据变换 n数据归约 n小 结 数据预处置(data preprocessing)是指在对数据进展数据发掘主要的处置以前,先对原始数据进展必要的清洗、集成、转换、离散和归约等等一系列的处置任务,以到达发掘算法进展知识获取研讨所要求的最低规范和规范。 现实世界的数据库往往易受噪声、丧失数据和不一致数据的侵扰,由于数据库太大(经常多达数千兆字节,甚至更多),并且多半来自多个异构数据源。低质量的数据将导致低质量的发掘结果。这就需求进展数据预处置,从而提高数据质量,进而提高发掘结果的质量。 如今人们曾经积累了大量的数据预处置技术。如何恰中选择和运用这些技术得到更有效的数据,是一个值得讨论的问题。 数据仓库和数据发掘的运用产生了大量的数据,这些数据不一定是规范化的,它以不同的方式存储在不同的地方。根据“渣滓进,渣滓出原理,这些低质量的数据进入系统将会导致昂贵的操作费用和系统漫长的呼应时间,并且对从数据集中抽取的方式的正确性和导出规那么的准确性产生宏大的影响,更严重的是会使得决策支持系统产生错误的分析结果,误导决策。6.1 数据预处置概述数据预处置概述6.1.1 数据预处置的必要性数据预处置的必要性 现实世界采集到的大量的各种各样的数据是不符合发掘算法进展知识获取研讨所要求的规范和规范的。主要具有以下特征: 1不完好性。指的是数据记录中能够会出现有些数据属性的值丧失或不确定的情况,还有能够缺失必需的数据。这是由于系统设计时存在的缺陷或者运用过程中一些人为要素所呵斥的,如有些数据缺失只是由于输入时以为是不重要的;相关数据没有记录能够是由于了解错误,或者由于设备缺点;与其他记录不一致的数据能够曾经删除;历史记录或修正的数据能够被忽略等等。 2含噪声。指的是数据具有不正确的属性值,包含错误或存在偏离期望的离群值。产生的缘由很多。比如搜集数据的设备能够出缺点;人或计算机的错误能够在数据输入时出现;数据传输中也能够出现错误。不正确的数据也能够是由命名商定或所用的数据代码不一致,或输入字段(如时间)的格式不一致而导致的。实践运用的系统中,还能够存在大量的模糊信息,有些数据其至还具有一定的随机性。 3杂乱性(不一致性)。原始数据是从各个实践运用系统中获取的,由于各运用系统的数据缺乏一致规范的定义,数据构造也有较大的差别,因此各系统间的数据存在较大的不一致性,往往不能直接拿来运用。同时来自不同的运用系统中的数据由于合并而普遍存在数据的反复和信息的冗余景象。 常见的数据预处置方法有:数据清洗、数据集成、数据变换和数据归约。图6.1给出了数据预处置的典型方式。6.1.2 数据预处置的根本方法数据预处置的根本方法数据清理数据集成数据变换数据归纳-2,32,100,59,48-0.02,0.32,1.00,0.59,0.48属性属性图6.1 数据预处置的典型方式 数据清理(data cleaning)处置例程通常包括:填补脱漏的数据值、平滑有噪声数据、识别或除去异常值,以及处理不一致问题。 数据集成(data integration)就是未来至多个数据源的数据合并到一同,构成一致的数据存储,如将不同数据库中的数据集成入一个数据仓库中存储。之后,有时还需求进展数据清理以便消除能够存在的数据冗余。 数据变换(data transformation)主要是将数据转换成适宜于发掘的方式,如将属性数据按比例缩放,使之落入一个比较小的特定区间。这一点对那些基于间隔的发掘算法尤为重要。包括平滑处置、聚集处置、数据泛化处置、规格化、属性构造。 数据归约(data reduction)在不影响发掘结果的前提下,经过数值聚集、删除冗余特性的方法紧缩数据,提高发掘方式的质量,降低时间复杂度。 目前,数据仓库和数据发掘在实际和运用上都获得了极大的开展,数据预处置作为其重要的、必不可少的组成部分,技术也随之快速开展。现阶段数据预处置技术中研讨最多的是数据清洗和数据归约技术。6.1.3 数据预处置的研讨现状数据预处置的研讨现状 数据清洗研讨内容主要涉及以下几方面: 1对数据集进展检测。现阶段主要有以下方法:可以采用统计学的方法来对数据进展统计分析,计算属性值的各种数值,如思索属性值之间差别大小,方差等。还有可以对与其他数据格式不一致的数据进展格式转换,使之格式符合数据发掘的需求。 2对数据集中反复的对象进展消除,也就是对反复记录的清理。对反复数据的处置在数据仓库环境下特别重要,由于在具有多个数据源的时候能够会产生大量的反复记录。 3对缺失数据的补齐,研讨者大多采用可靠的算法将与缺失的值最类似的值交换缺失值的方法,包括贝叶斯网络、神经网络、k-最临近分类、粗糙集实际等,这些方法大都需求判别缺失记录与完好记录之间的记录类似度,这是其中心问题。 数据归约技术及其主要内容为: 1降维处置。主要采用删除冗余属性的方法,假设用手工方法去除冗余属性就需求用到专家知识。通常运用属性子集选择方法,包括逐渐向前选择法、逐渐向后删除法、断定树归纳法等。 2从数据集中选择较小的数据表示方式来减少数据量,需求用到数值归约技术,主要采用直方图、聚类等技术。 3对信息系统中与决策属性没有关联或者关联度不大的属性进展约简。经过属性约简算法之后可以得到关键属性,减少冗余属性,从而减少得到决策结果所需求的时间。 4离散化技术减少给定延续属性值的个数。这种方法可以经过简化运算量,但大多是递归的,需求破费大量的时间在每一步的数据排序上。 数据清洗可以分为有监视和无监视两类。有监视过程是在领域专家的指点下,分析搜集的数据,去除明显错误的噪声数据和反复记录,填补缺值数据;无监视过程是用样本数据训练算法,使其获得一定的阅历,并在以后的处置过程中自动采用这些阅历完成数据清洗任务。6.2 数据清理数据清理6.2.1 填充缺失值填充缺失值 很多的数据都有缺失值。比如,银行房屋贷款信誉风险评价中的客户数据,其中的一些属性能够没有记录值,如客户的家庭月总收入。填充丧失的值,可以用下面的方法。 1忽略元组。当短少类标号时通常这样做(假定发掘义务涉及分类)。除非元组有多个属性短少值,否那么该方法不是很有效。当每个属性短少值的百分比变化很大时,它的性能特别差。 2人工填写缺失值。此方法很费时,特别是当数据集很大、短少很多值时,该方法能够不具有实践的可操作性。 3运用一个全局常量填充缺失值。将缺失的属性值用同一个常数(如“Unknown或-)交换。但这种方法由于大量的采用同一个属性值能够会误导发掘程序得出有偏向甚至错误的结论,因此要小心运用。 4用属性的均值填充缺失值。例如,知重庆市某银行的贷款客户的平均家庭月总收入为9000元,那么运用该值交换客户收入中的缺失值。 5用同类样本的属性均值填充缺失值。例如,将银行客户按信誉度分类,就可以器具有信誉度一样的贷款客户的家庭月总收入交换家庭月总收入中的缺失值。 6运用最能够的值填充缺失值。可以用回归、运用贝叶斯方式化的基于推理的工具或决策树归纳确定。例如,利用数据集中其他客户顾客的属性,可以构造一棵决策树来预测家庭月总收入的缺失值。 7用最临近方法填充缺失值。 方法36使数据偏置,填入的值能够不正确。然而,方法6是流行的战略,与其他方法相比,它运用已有数据的大部分信息来预测缺失值。在估计家庭月总收入的缺失值时,经过思索其他属性的值,有更大的时机坚持家庭月总收入和其他属性之间的联络。6.2.2 光滑噪声数据光滑噪声数据 噪声(noise)是被丈量的变量的随机误差或方差。给定一个数值属性,如price,我们怎样才干“光滑数据,去掉噪声?我们看看下面的数据光滑技术。 1分箱(binning)。分箱方法经过调查数据的“近邻(即周围的值)来光滑有序数据的值。有序值分布到一些“桶或箱中。由于分箱方法调查近邻的值,因此进展部分光滑。普通来说,宽度越大光滑效果越大。箱也可以是等宽的,每个箱值的区间范闱是个常量。 2回归。可以用一个函数(如回归函数)拟合数据来光滑数据。线性回归涉及找出拟合两个属性(或变量)的“最正确线,使得一个属性可以用来预测另一个。多元线性回归是线性回归的扩展,其中涉及的属性多于两个,并且数据拟合到一个多维曲面。 3聚类。可以经过聚类检测离群点,将类似的值组织成群或“簇。直观地,落在簇集合之外的值视为离群点。 4人工检测。人工检测是由专业人员识别孤立点。经过人与计算机的结合,相比单纯手动检查整个数据库可以提高效率。 把数据清理作为一个过程,该过程包括以下两个步骤: 第一步是偏向检测(discrepancy detection)。发现噪声、离群点和需求调查的不寻常的值时,可以运用已有的关于数据性质的知识。这种知识或“关于数据的数据称作元数据。调查每个属性的定义域和数据类型、每个属性可接受的值、值的长度范围;调查能否一切的值都落在期望的值域内、属性之间能否存在知的依赖;把握数据趋势和识别异常,比如远离给定属性均值超越两个规范差的值能够标志为潜在的离群点。另一种错误是源编码运用的不一致问题和数据表示的不一致问题(如日期“20210925和“25092021)。而字段过载(field overloading)是另一类错误源。调查数据还要遵照独一性规那么、延续性规那么和空值规那么。可以运用其他外部资料人工地加以更正某些数据不一致。如数据输入时的错误可以运用纸上的记录加以更正。但大部分错误需求数据变换。6.2.3 数据清理过程数据清理过程第二步是纠正偏向。也就是说,一旦发现偏向,通常我们需第二步是纠正偏向。也就是说,一旦发现偏向,通常我们需求定义并运用求定义并运用(一系列一系列)变换来纠正它们。商业工具可以支持变换来纠正它们。商业工具可以支持数据变换步骤。但这些工具只支持有限的变换,因此,我们数据变换步骤。但这些工具只支持有限的变换,因此,我们经常能够选择为数据清理过程的这一步编写定制的程序。经常能够选择为数据清理过程的这一步编写定制的程序。偏向检测和纠正偏向这两步过程迭代执行。偏向检测和纠正偏向这两步过程迭代执行。随着我们对数据的了解添加,重要的是要不断更新元数据以随着我们对数据的了解添加,重要的是要不断更新元数据以反映这种知识。这有助于加快对一样数据存储的未来版本的反映这种知识。这有助于加快对一样数据存储的未来版本的数据清理速度。数据清理速度。6.3 数据集成数据集成 数据集成主要是将多文件或多数据库运转环境中的异构数据进展合并处置,处理语义的模型性问题。该部分主要涉及数据的选择、数据的冲突问题以及不一致数据的处置问题。 在数据集成时,首先需求思索的是方式集成和对象匹配问题。来自多个信息源的现实世界的等价实体的匹配涉及实体识别问题。例如,判别一个数据库中的customer_id与另一个数据库中的cust_number能否是一样的属性。每个属性的元数据可以用来协助防止方式集成的错误,元数据还可以用来协助变换数据。 冗余是在数据集成时另一个需求思索的重要问题。一个属性能够是冗余的,假设它能由另一个或另一组属性“导出。属性或维命名的不一致也能够导致结果数据集中的冗余。 有些冗余可以被相关分析检测到。给定两个属性,这种分析可以根据可用的数据度量两个属性之间的相关系数估计一个属性能在多大程度上蕴涵另一个属性。对于数值属性a和b,之间的相关系数rAB为 其中,n是数据集的样本个数,ai和bi分别是元组i中a和b的值,和分别是a和b的均值,A和B分别是a和b的规范差,即 -1rab+l。假设rab大于0,那么a和b是正相关的,该值越大,相关性越强(即每个属性蕴涵另一个的能够性越大)。因此,一个较高的rab值阐明a(或b)可以作为冗余而被去掉。假设结果值等于0,那么a和b是独立的, 不存在相关。假设结果值小于0,那么a和b是负相关的,一个值随另一个的减少而添加。这意味每一个属性都阻止另一个属性的出现。 数据集成的第三个重要问题是数据值冲突的检测与处置。例如,对于现实世界的同一实体,来自不同数据源的属性值能够不同。这能够是由于表示、比例或编码不同。例如,分量属性能够在一个系统中以公制单位存放,而在另一个系统中以英制单位存放。对于连锁旅馆,不同城市的房价不仅能够涉及不同的货币,而且能够涉及不同的效力(如免费早餐)和税。 数据变换把数据转换成顺应于发掘的方式。经过对某些属性按比例进展缩放,使属性取值落在较小的区间,例如数值型属性可以规范化到0,1区间,这种变换对聚类、神经网络等算法都是必要的。延续属性离散化也是决策树等分类分析常用的预处置。 属性规范化会减少发掘过程所用的时间,而且规范化可以有效地防止较大取值的属性对数据发掘的过度影响。 数据变换主要涉及如下方法:光滑、聚集 、数据泛化、规范化 。6.4 数据变换数据变换1光滑 光滑:去掉数据中的噪声。这种技术包括分箱、回归和聚光滑:去掉数据中的噪声。这种技术包括分箱、回归和聚类等。回归和聚类技术在后面介始,这里简要引见一下分箱技类等。回归和聚类技术在后面介始,这里简要引见一下分箱技术。分箱是经过分析临近的值平滑存储数据的值,可处置延续术。分箱是经过分析临近的值平滑存储数据的值,可处置延续型和分类型变量,以得到更少的变量取值种类以便于分析。数型和分类型变量,以得到更少的变量取值种类以便于分析。数据被分布到箱中,分箱的方法是进展部分的平滑,也可以作为据被分布到箱中,分箱的方法是进展部分的平滑,也可以作为一种离散化技术运用。在图一种离散化技术运用。在图6.2中,学生的数学成果已排序中,学生的数学成果已排序被划分存入到等深的深度为被划分存入到等深的深度为3的箱中,然后采用下面的方法之的箱中,然后采用下面的方法之一平滑。一平滑。 1按箱平均值平滑分箱:箱中每一个值都按箱中的平均值按箱平均值平滑分箱:箱中每一个值都按箱中的平均值交换,例如箱交换,例如箱1中的值中的值61、65、69的平均值是的平均值是65,该箱中的每,该箱中的每一个值被箱中的平均值一个值被箱中的平均值65交换。交换。 2按箱中值平滑:箱中的每一个值,按箱中的中值交换。按箱中值平滑:箱中的每一个值,按箱中的中值交换。 3按箱边境平滑:箱中的最大和最小值被视为箱边境。箱按箱边境平滑:箱中的最大和最小值被视为箱边境。箱中的每一个值被最近的边境交换。中的每一个值被最近的边境交换。 2聚集 聚集:聚集: 对数据进展汇总或聚集。例如,可以聚集对数据进展汇总或聚集。例如,可以聚集日销售数据,计算月和年销售量。通常,这一步用来日销售数据,计算月和年销售量。通常,这一步用来为多粒度数据分析构造数据立方体。聚集产生较小的为多粒度数据分析构造数据立方体。聚集产生较小的数据集,使得分析的数据更稳定,但也应留意能够会数据集,使得分析的数据更稳定,但也应留意能够会丧失有趣的细节。丧失有趣的细节。 3数据泛化 数据泛化:运用概念分数据泛化:运用概念分层,用高,用高层概念交概念交换低低层或或“原始数据。例如,分原始数据。例如,分类的属性,如街道,可以泛化的属性,如街道,可以泛化为较高高层的概念,如城市或国家。的概念,如城市或国家。类似地,数似地,数值属性如年属性如年龄,可以映射到,可以映射到较高高层概念如青年、中年和老年。概念如青年、中年和老年。4规范化 规范化:假设描画样本或记录的变量单位不一致,规范化:假设描画样本或记录的变量单位不一致,数值差别比较大,就需求把数据归一化、指数化或规范数值差别比较大,就需求把数据归一化、指数化或规范化,把不同的属性进展比例缩放,使它们的值落在大致化,把不同的属性进展比例缩放,使它们的值落在大致一样的范围内,如一样的范围内,如-1.O1.0或或O.O1.0。 有许多数据规范化的方法,常用的有三种:最小有许多数据规范化的方法,常用的有三种:最小-最大最大规范化、规范化、z-score规范化和按小数定标规范化。规范化和按小数定标规范化。 1最小-最大规范化。假定mA和MA分别为属性A的最小值和最大值。最小-最大规范化经过计算将A的值v映射到区间new_mA,new_MA中的v。最小-最大规范化对原始数据进展线性变换,坚持原始数据值之间的联络。假设今后的输入落在A的原始数据值域之外,该方法将面临“越界错误。2z-score规范化(零均值规范化)。把属性A的值v基于A的均值和规范差规范化为v,经过以下公式计算:其中,和A分别为属性A的均值和规范差。当属性A的实践最大和最小值未知,或离群点左右了最大-最小规范化时,该方法是有用的。假定属性平均家庭月总收入的均值和规范差分别为9000元和2400元,值12600元运用z-score规范化转换为:3小数定标规范化。经过挪动属性A的小数点位置进展规范化。小数点的挪动位数依赖于A的最大绝对值。A的值v规范化为v,由下式计算: 其中,j是使得Max(|v|)1的最小整数。例如,假定A的取值是-975923。A的最大绝对值为975。运用小数定标规范化,用1 000(即j=3)除每个值,这样,-975规范化为-0.975,而923被规范化为0.923。规范化将原来的数据改动,特别是上面的后两种方法。有必要保管规范化参数(如均值和规范差,假设运用z-score规范化),以便未来的数据可以用一致的方式规范化。5属性构造 属性构造属性构造(或特征构造或特征构造):属性构造是由给定的属性构造:属性构造是由给定的属性构造和添加新的属性,协助提高准确率和对高维数据构造的了解。和添加新的属性,协助提高准确率和对高维数据构造的了解。可以构造新的属性并添加到属性集中,以协助发掘过程。可以构造新的属性并添加到属性集中,以协助发掘过程。 有些数据属性对发现义务是没有影响的,这些属性的参与会大大影响发掘效率,甚至还能够导致发掘结果的偏向。数据简化是在对发现义务和数据本身内容了解的根底上,寻觅依赖于发现目的的表达数据的有用特征,以缩减数据模型,从而在尽能够坚持数据原貌的前提下最大限制地精简数据量。 下面引见几种常见的数据归约技术。6.5 数据归约数据归约6.5.1 数据立方体聚集数据立方体聚集 数据立方体存储多维聚集信息。每个单元存放一个聚集值,对应于多维空间的一个数据点,每个属性能够存在概念分层,允许在多个笼统层进展数据分析。数据立方体提供对估计算的汇总数据进展快速访问,因此,适宜联机数据分析处置和数据发掘。例如搜集的数据是某公司过去几年间每个季度的销售数据,而感兴趣的数据是年销售数据,可以经过对数据聚集汇总得到年总销售额。数据立方体聚集为在线分析处置的上钻、下钻等操作提供了可以快速访问的汇总数据。 数据立方体聚集的根底是概念分层,用于处置数据立方体中的数据。在概念分层的最低笼统层创建的立方体称为根本方体(base cuboid)。根本方体该当对应于感兴趣的个体实体。即最低层该当是对应于分析可用的或有用的数据。最高层笼统的立方体称为顶点方体(apex cuboid)。对不同笼统层创建的数据立方体称为方体(cuboid),因此数据立方体可以看作方体的格(lattice of cuboids)。每个较高层笼统将进一步减少结果数据的规模。当回答数据发掘查询时,该当运用与给定义务相关的最小可用方体。6.5.2 属性子集选择属性子集选择 用于分析的数据集能够包含数以百计的属性,其中大部分属性与发掘义务不相关或冗余。 属性子集选择的根本启发式方法包括以下几种: 1逐渐向前选择。该过程由空属性集作为归约集开场,确定原属性集中最好的属性,并将它添加到归约集中。在其后的每一次迭代步,将剩下的原属性集中最好的属性添加到该集合中。 2逐渐向后删除。该过程由整个属性集开场。在每一步,删除尚在属性集中最差的属性。 3向前选择和向后删除的结合。可以将逐渐向前选择和向后删除方法结合在一同,每一步选择一个最好的属性,并在剩余属性中删除一个最差的属性。 4决策树归纳。决策树算法最初是用于分类的。决策树归纳构造一个类似于流程图的构造,其中每个内部(非树叶)节点表示一个属性的测试,每个分枝对应于测试的一个输出;每个外部(树叶)节点表示一个类预测。在每个节点,算法选择“最好的属性,将数据划分成类。当决策树归纳用于属性子集选择时,由给定的数据构造决策树。不出如今树中的一切属性假定是不相关的。出如今树中的属性构成归约后的属性子集。方法的终了规范可以不同。该过程可以运用一个度量阈值来决议何时停顿属性选择过程。6.5.3 维度归约维度归约 维度归约运用数据编码或变换,以便得到原数据的归约或“紧缩表示。两种流行、有效的有损的维归约方法是:小波变换和主成分分析。1. 小波变换 小波变换可以用于多维数据,如数据立方体。可以按以下方法做:首先将变换用于第一个维,然后第二个,如此下去。计算复杂性关于立方体中单元的个数是线性的。对于稀疏或倾斜数据和具有有序属性的数据,小波变换给出很好的结果。小波变换有许多实践运用,包括指纹图像紧缩、计算机视觉、时间序列数据分析和数据清理。 2主成分分析 主成分分析(Principal Components Analysis,PCA)搜索k个最能代表数据的n维正交向量,其中kn。这样,原来的数据投影到一个小得多的空间,导致维度归约。PCA经过创建一个交换的、更小的变量集“组合属性的根本要素。原数据可以投影到该较小的集合中。PCA经常提示先前未曾觉察的联络,并因此允许解释不寻常的结果。根本过程如下: 1对输入数据规范化,使得每个属性都落入一样的区间。此步有助于确保具有较大定义域的属性不会支配具有较小定义域的属性。 2PCA计算k个规范正交向量,作为规范化输入数据的基。这些是单位向量,每一个方向都垂直于另一个。这些向量称为主成分。输入数据是主成分的线性组合。 3对主成分按“重要性或强度降序陈列。主成分根本上充任数据的新坐标轴,提供关于方差的重要信息。也就是说,对坐标轴进展排序,使得第一个坐标轴显示数据的最大方差,第二个显示次大方差,如此下去。 4主成分根据“重要性降序陈列,那么可经过去掉较弱的成分(即方差较小)来归约数据的规模。运用最强的主成分,该当可以重构原数据的很好的近似。PCA计算开销低,可以用于有序和无序的属性,并且可以处置稀疏和倾斜数据。多于2维的多维数据可以经过将问题归约为2维问题来处置。主成分可以用作多元回归和聚类分析的输入。与小波变换相比,PCA可以更好地处置稀疏数据,而小波变换更适宜高维数据。6.5.4 数值归约数值归约 数值归约技术指的是选择替代的、“较小的数据表示方式来减少数据量。几种常用数值归约技术如下:1回归和对数线性模型 回归和对数线性模型可以用来近似给定的数据。在(简单)线性回归中,对数据建模,使之拟合到一条直线。例如,可以用以下公式,将随机变量y(称作呼应变量)建模为另一随机变量x(称为预测变量)的线性函数。 y=wx+b 其中,假定y的方差是常量。在数据发掘中,x和y是数值数据库属性。系数w和b(称作回归系数)分别为直线的斜率和Y轴截距。系数可以用最小二乘方法求解,它最小化分别数据的实践直线与直线估计之间的误差。多元线性回归是(简单)线性回归的扩展,允许呼应变量y建模为两个或多个预测变量的线性函数 。 2直方图 直方图运用分箱来近似数据分布。属性A的直方图将A的数据分布划分为不相交的子集或桶。假设每个桶只代表单个属性值频率对,那么称为单桶。通常,桶表示给定属性的一个延续区间。 确定桶和属性值的划分规那么,包括如下: 1等宽。在等宽直方图中,每个桶的宽度区间是一致的。 2等频(或等深)。在等频直方图中,创建桶,使得每个桶的频率粗略地为常数(即每个桶大致包含一样个数的临近数据样本)。 3V最优。给定桶的个数,对于一切能够的直方图,那么V最优直方图是具有最小方差的直方图。直方图的方差是每个桶代表的原来值的加权和,其中权等于桶中值的个数。 4MaxDiff:在MaxDiff直方图中,思索每对相邻值之间的差。桶的边境是具有-1个最大差的对,其中是用户指定的桶数。V最优和MaxDiff直方图看来是最准确和最适用的。对于近似稀疏和稠密数据、高倾斜和均匀的数据,直方图是高度有效的。多维直方图可以表现属性间的依赖,这种直方图可以有效地近似多达5个属性的数据。但有效性尚需进一步研讨。对于存放具有高频率的离群点,单桶是有用的。3聚类 聚类技术将数据元组视为对象。它将对象划分为群或簇,使一个簇中的对象相互“类似,而与其他簇中的对象“相异。通常,类似性基于间隔函数,用对象在空间中的“接近程度定义。簇的“质量可以用直径表示,直径是簇中恣意两个对象的最大间隔。质心间隔是簇质量的另一种度量,定义为由簇质心(表示“平均对象,或簇空间中的平均点)到每个簇对象的平均间隔。4抽样 抽样可以作为一种数据归约技术运用,由于它允许用数据的小得多的随机样本(子集)表示大型数据集。最常用的抽样方法有4种:(假定大型数据集D包含N个元组) 1s个样本无放回简单随机抽样(SRSWOR)。 2s个样本有放回简单随机抽样(SRSWR)。 3聚类抽样:假设D中的元组分组放入M个互不相交的“簇,那么可以得到s个簇的简单随机抽样(SRS),其中sM。例如,数据库中元组通常一次检索一页,这样每页就可以视为一个簇。也可以利用其他携带更丰富语义信息的聚类规范。 4分层抽样:假设D划分成互不相交的部分,称作层,那么经过对每一层的SRS就可以得到D的分层样本。特别是当数据倾斜时,这可以协助确保样本的代表性。 采用抽样进展数据归约的优点是,得到样本的破费正比于样本集的大小s,而不是数据集的大小N。因此,抽样的复杂度子线性(sublinear)于数据的大小。其他数据归约技术至少需求完全扫描D。对于固定的样本大小,抽样的复杂度仅随数据的维数n线性地添加;而其他技术,如运用直方图,复杂度随n指数增长。 用于数据归约时,抽样最常用来估计聚集查询的回答。在指定的误差范围内,可以确定(运用中心极限定理)估计一个给定的函数所需的样本大小。样本的大小s相对于N能够非常小。对于归约数据集的逐渐求精,只需求简单地添加样本大小即可。6.5.5 数据离散化与概念分层数据离散化与概念分层 经过将属性值域划分为区间,数据离散化技术可以用来减少给定延续属性值的个数。区间的标志可以替代实践的数据值。用少数区间标志交换延续属性的数值,从而减少和简化了原来的数据。这导致发掘结果的简约、易于运用的、知识层面的表示。 对于给定的数值属性,概念分层定义了该属性的一个离散化。经过搜集较高层的概念(如青年、中年或老年)并用它们交换较低层的概念(如年龄的数值),概念分层可以用来归约数据。经过这种数据泛化,虽然细节丧失了,但是泛化后的数据更有意义、更容易解释。 这有助于通常需求的多种发掘义务的数据发掘结果的一致表示。此外,与对大型未泛化的数据集发掘相比,对归约的数据进展发掘所需的I/O操作更少,并且更有效。正由于如此,离散化技术和概念分层作为预处置步骤,在数据发掘之前而不是在发掘过程进展。1数值数据的离散化和概念分层产生 数值属性的概念分层可以根据数据离散化自动构造。通常,每种方法都假定待离散化的值曾经按递增序排序。 1分箱分箱是一种基于箱的指定个数自项向下的分裂技术。经过运用等宽或等频分箱,然后用箱均值或中位数交换箱中的每个值,可以将属性值离散化,就像分别用箱的均值或箱的中位数光滑一样。这些技术可以递归地作用于结果划分,产生概念分层。分箱并不运用类信息,因此是一种非监视的离散化技术。它对用户指定的箱个数很敏感,也容易受离群点的影响。 2直方图分析 像分箱一样,直方图分析也是一种非监视离散化技术,由于它也不运用类信息。运用等频直方图,理想地分割值使得每个划分包括一样个数的数据元组。直方图分析算法可以递归地用于每个划分,自动地产生多级概念分层,直到到达预先设定的概念层数过程终止。也可以对每一层运用最小区间长度来控制递归过程。最小区间长度设定每层每个划分的最小宽度,或每层每个划分中值的最少数目。直方图也可以根据数据分布的聚类分析进展划分。 3基于熵的离散化 熵(entropy)是最常用的离散化度量之一。基于熵的离散化是一种监视的、自顶向下的分裂技术。它在计算和确定分裂点(划分属性区间的数据值)时利用类分布信息。对离散数值属性A,选择A的具有最小熵的值作为分裂点,并递归地划分结果区间,得到分层离散化。这种离散化构成A的概念分层。 4基于x2分析的区间合并 采用自底向上的战略,递归地找出最正确临近区间,然后合并它们,构成较大的区间。这种方法是监视的,它运用类信息。其根本思想是,对于准确的离散化,相对类频率在一个区间内该当相当一致。因此,假设两个临近的区间具有非常类似的类分布,那么这两个区间可以合并。否那么,它们该当坚持分开。 初始,将数值属性A的每个不同值看作一个区间。对每对相邻区间进展x2检验。具有最小x2值的相邻区间合并在一同,由于低x2值阐明它们具有类似的类分布。该合并过程递归地进展,直到满足预先定义的终止规范。 5聚类分析 聚类分析是一种流行的数据离散化方法。将属性A的值划分成簇或组,聚类思索A的分布以及数据点的临近性,可以产生高质量的离散化结果。遵照自顶向下的划分战略或自底向上的合并战略,聚类可以用来产生A的概念分层,其中每个簇构成概念分层的一个节点。在前者,每一个初始簇或划分可以进一步分解成假设干子簇,构成较低的概念层。在后者,经过反复地对临近簇进展分组,构成较高的概念层。 6根据直观划分别散化 3-4-5规那么可以用来将数值数据分割成相对一致、看上去自然的区间。普通该规那么根据最高有效位的取值范围,递归逐层地将给定的数据区域划分为3、4或5个相对等宽的区间。2分类数据的概念分层产生 1由用户或专家在方式级显式地阐明属性的偏序 通常,分类属性或维的概念分层涉及一组属性。用户或专家在方式级经过阐明属性的偏序或全序,可以很容易地定义概念分层。 2经过显式数据分组阐明分层构造的一部分 这根本上是人工地定义概念分层构造的一部分。在大型数据库中,经过显式的值枚举定义整个概念分层是不现实的。然而,对于一小部分中间层数据,我们可以很容易地显式阐明分组。 3阐明属性集但不阐明它们的偏序 用户可以阐明一个属性集构成概念分层,但并不显式阐明它们的偏序。然后,系统可以尝试自动地产生属性的序,构造有意义的概念分层。可以根据给定属性集中每个属性不同值的个数自动地产生概念分层。具有最多不同值的属性放在分层构造的最低层。一个属性的不同值个数越少,它在所产生的概念分层构造中所处的层次越高。在许多情况下,这种启发式规那么都很顶用。在调查了所产生的分层之后,假设必要,部分层次交换或调整可以由用户或专家来做。 4只阐明部分属性集 在定义分层时,有时用户能够不小心,或者对于分层构造中该当包含什么只需很模糊的想法。结果,用户能够在分层构造阐明中只包含了相关属性的一小部分。为了处置这种部分阐明的分层构造,重要的是在数据库方式中嵌入数据语义,使得语义亲密相关的属性可以捆在一同。用这种方法,一个属性的阐明能够触发整个语义亲密相关的属性组“拖进,构成一个完好的分层构造。然而必要时,用户该当可以选择忽略这一特性。6.6 小结小结 本章主要引见了数据预处置的相关概念和主要技术。 现实世界的数据往往存在噪声、丧失数据和不一致数据等问题。为了提高发掘结果的质量就需求进展数据预处置任务。数据预处置(data preprocessing)是指在对数据进展数据发掘主要的处置以前,先对原始数据进展必要的清洗、集成、转换、离散和归约等等一系列的处置任务,以到达发掘算法进展知识获取研讨所要求的最低规范和规范。 人们曾经积累了大量的数据预处置技术。如何恰中选择和运用这些技术得到更有效的数据,是一个值得讨论的问题。 下课了。下课了。休憩一会儿。休憩一会儿。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号