资源预览内容
第1页 / 共158页
第2页 / 共158页
第3页 / 共158页
第4页 / 共158页
第5页 / 共158页
第6页 / 共158页
第7页 / 共158页
第8页 / 共158页
第9页 / 共158页
第10页 / 共158页
亲,该文档总共158页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
*第二章 数据预处理*1为什么要进行数据挖掘?现实世界的数据是脏的不完整: 缺乏属性值,缺乏有意义的属性,或者 只包含了汇总数据e.g., occupation=“ ”有噪声: 包含错误的数据或异常值e.g., Salary=“-10”不一致: 在代码或者名字中存在矛盾或不一致e.g., Age=“42” Birthday=“03/07/1997”e.g., Was rating “1,2,3”, now rating “A, B, C”e.g., discrepancy between duplicate records*2为什么数据预处理重要?No quality data, no quality mining results!Quality decisions must be based on quality datae.g., duplicate or missing data may cause incorrect or even misleading statistics.Data warehouse needs consistent integration of quality dataData extraction, cleaning, and transformation comprises the majority of the work of building a data warehouse*3*4数据预处 理的主要 内容:*数据预处理的主要内容一、原始数据的表述二、数据清理三、数据变换四、元组的归约五、属性的归约*5数据样本是数据挖掘过程的基本组成部分。一、原始数据的表述*6每个样本都用几个特征来描述,每个特征有不 同类型的值。* *常见的数据类型有:数值型和分类型。数值型包括实型变量和整型变量注:具有数值型值的特征有两个重要的属 性:其值有顺序关系和距离关系。 7* *一个有两个值的分类型变量:分类型变量的两个值可以平等或不平等。原则上可以转化成一个二进制的数值型变量 ,这种数值型变量有两个值:0或1;而有N值的分类型变量原则上可以转化成 一个二进制的数值型变量,这种数值型变 量有N个值。8* *例如:如果变量“眼睛颜色”有4个值:黑色、 蓝色、绿色、褐色。特征值 编码黑色 1000蓝色 0100绿色 0010褐色 00019* *变量的分类:连续型变量和离散型变量。连续型变量也认为是定量型或是量度型, 是指在一定区间内可以任意取值的变量 。离散型变量也叫定性型变量,是指全部可 能取到的不相同的值是有限个的变量 。注:一种特殊类型的离散型变量是周期变 量,例如:星期、月和年中的日期。10* *与时间有关的数据分类:静态数据数据不随时间变化而变化动态数据(时间数据)随时间变化而 变化的属性。注:大多数数据挖掘方法更适用于静态数 据,在对动态数据进行挖掘时要有特殊的考 虑和预处理。11*二、数据清理缺失值的填补*对数据挖掘的实际应用而言,即使数据量很大 ,具有完整数据的案例也非常少,这样就面临数 据的缺失问题。应用数据挖掘方法之前如何处理这样现象,最 简单的办法是减少数据集,去掉所有有缺失值的 样本。如果我们不想扔掉这些有缺失值的样本,就必 须找到它们的缺失值,用什么方法来实现呢?填补缺失值。 12*1、单一填补法(1)均值填补法。均值填补法是根据与含缺失值的目标属性相关性高的 其它属性的信息将样品分为若干组,然后分别计算各 组目标属性的均值,将各组均值作为组内所有缺失项 的填补值。均值填补的优点是操作简便,并且可以有效地降低其 点估计的偏差。但它的缺点也比较突出:首先,由于同组中的缺失值 由同一个值填补,填补结果歪曲了目标属性的分布; 其次,也导致在均值和总量估计中对方差的低估。*13例:*14均值填补:*15*(2)随机填补法。随机填补法是采用某种概率抽样的方式, 从有完整信息的元组中抽取缺失数据的填补 值的方法。它虽然能够避免均值填补中填补值过于凝 集以及容易扭曲目标属性分布的弱点,使得 填补值的分布与真值分布更为接近。但它却 增大了估计量的方差,并且稳定性不够。*16*(3)热卡填补法。热卡填补法(hot deck imputation)是规定一个或多 个排序属性,按其观察值大小对全部观察单位排序 ,如果选择的是两个以上的属性,排序按属性的入 选顺序依次进行。排序属性值完全相同的观察单位称为匹配,缺失值 就用与之匹配的观察单位的属性值来填补。如果有 多例相匹配,可取第一例或随机取其一。如果没有 相匹配的,可以每次减少一个排序属性,再找相匹 配的元组。如果直到最后一个排序属性,还没有找 到相匹配的,则需要重新规定排序属性。*17项目性别年龄学生身分收入办卡1男45否高 会 2女3145否高会 3女2030是低会 4男45否高 会 2女3145否高会 3女2030是低会 4男20是低不会 5女2030是中不会 6女2030否中会 7女3145否高会 8男3145是中不会 9男3145否中会 10女20是低会*Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.1042 4.43006.2022 4.51006.3036 4.64006.4025 4.72006.5014 4.85006.6020 4.94116.7035 58206.8012 5.18106.9013 5.23107010 5.31007.1001 5.45107.2003 5.52507.3001 5.60517.4001 5.72517.6001 5.81337.7004 5.90217.9001 6042*举例:IRIS样本集的具体步骤 71*首先,从第一个分割点开始,将属性值分为两部分即 4.3,4.4)和4.4,7.9,则分割后新的类别熵为:*区间d1d2d3合计 4.3,4.4)1001 4.4,7.949505014972*以此类推,如把属性值分为4.3,5.6)和5.6,7,9两个区 间时,产生的新的类别熵为:*区间d1d2d3合计 4.3,5.6)4711159 5.6,7.9339499173*对所有的分割点将属性值分为两个区间的新类别熵计 算出来,有*d1 d2 d3 新的类别熵d1 d2 d3 新的类别熵4.31000.4739260420.34937 4.43000.464086.10420.35875 4.51000.459666.20220.36751 4.64000.446796.30360.39202 4.72000.439546.40250.40965 4.85000.420436.50140.42275 4.94110.421886.60200.42049 58200.398366.70350.43673 5.18100.362776.80120.43983 5.23100.349366.90130.44308 5.31000.3424770100.43583 5.45100.311227.10010.43954 5.52500.309387.20030.45034 5.60510.327887.30010.45385 5.72510.321787.40010.45730 5.81330.330407.60010.46071 5.90210.337427.70040.47392 7.900174*从上表中可以看到,将属性值分为4.3,5.6)和5.6,7,9两个区间时,类别熵最小,因此首先把属性值分为两大部分。按照上述步骤, 分别再找出区间 4.3,5.6)和5.6,7,9的二分点,以此类推,逐渐将区间分割为更小的区间,直到满足某个终止条件为止。*75* *d1 d2 d3 新的类别熵d1 d2 d3 新的类别熵4.31000.4739260420.34937 4.43000.464086.10420.35875 4.51000.459666.20220.36751 4.64000.446796.30360.39202 4.72000.439546.40250.40965 4.85000.420436.50140.42275 4.94110.421886.60200.42049 58200.398366.70350.43673 5.18100.362776.80120.43983 5.23100.349366.90130.44308 5.31000.3424770100.43583 5.45100.311227.10010.43954 5.52500.309387.20030.45034 5.60510.327887.30010.45385 5.72510.321787.40010.45730 5.81330.330407.60010.46071 5.90210.337427.70040.47392 7.900176* *4、CHIMERGE算法77* *78Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.1042 4.43006.2022 4.51006.3036 4.64006.4025 4.72006.5014 4.85006.6020 4.94116.7035 58206.8012 5.18106.9013 5.23107010 5.31007.1001 5.45107.2003 5.52507.3001 5.60517.4001 5.72517.6001 5.81337.7004 5.90217.9001 6042* *79* *80*应用采用Iris样本集进行统计 模拟。现在以花 萼长( sepal length in cm )属性为例,来 进行连续 型值属性的离散化。*81*Sepallen:(cm)d1d2d3Sepallen:(cm)d1d2d34.31006.1042 4.43006.2022 4.51006.3036 4.64006.4025 4.72006.5014 4.85006.6020 4.94116.7035 58206.8012 5.18106.9013 5.23107010 5.31007.1001 5.45107.2003 5.52507.3001 5.60517.4001 5.72517.6001 5.81337.7004 5.90217.9001 6042*82*具体步骤:(1)观察各区间,先将类分布完全相同的区间进行合并。*区间d1d2d3区间d1d2d34.3,4.9)16005.7,5.9)3844.9,5.0)4115.9,6.6)018225.0,5.3)19406.6,6.7)0205.3,5.4)1006.7,7.0)05105.4,5.6)7607.0,7.1)0105.6,5.7)0517.1,7.9)001283* *(2)考察4.3,4.9)与4.9,5),看其是否能够合并?两区间的卡方统计量和为5.87,大于临界值,因此两区间 不能合并。区间d1d2d3求和4.3,4.9)1600164.9,5)4116求和201122区间eijeijeij 4.3,4.9)14.5450.7270.727 4.9,5)5.4550.2730.273区间2 4.3,4.9)0.1450.7270.7271.6 4.9,5)0.3881.9391.939 4.267表1:两区间的列联表表2:计算各项的eij表3:两区间的卡方统计量值84* *(3)继续考察区间4.9,5)与5.0,5.3) ,看其是否能够合并,直到所有的区间卡方统计量大于阀值为止。85*五、属性的
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号