资源预览内容
第1页 / 共47页
第2页 / 共47页
第3页 / 共47页
第4页 / 共47页
第5页 / 共47页
第6页 / 共47页
第7页 / 共47页
第8页 / 共47页
第9页 / 共47页
第10页 / 共47页
亲,该文档总共47页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据挖掘与知识发现 (复杂数据对象的数据挖掘与知识发现)4 数 据 挖掘的预处理数据挖掘的困难所在nNoisenSkewed distributionnMissing values (incomplete info)nScalabilitynHigh dimensionalitynBias in datan.预处理在知识发现中所占份量预处理n各种不同的数据源和数据对象数据的选择、集成与整合,对问题进行限定n数据库中的数据具有噪声、缺值、不易至数据的去噪和规范化问题,提高挖掘精度n数据的变换规范化、映射到不同的空间,提高挖掘效率n数据的规约取出冗余、属性聚类来压缩数据数据的预处理是KDDn从以上讨论可以看出,利用语言场理论对连续 属性进行离散化,该方法简单,计算时间短, 可以根据专家(用户)的意愿来划分连续属性 ,从而用自然语言来描述最后得到的规则,使 之更为用户所理解,因此比较实用,其不足之 处是受人为因素的影响。 离散化的问题n离散化方法的一个先天不足是可能降低发现的 知识的精确度,因此离散化过程如同其他的汇 总小结过程一样,可能会导致某些相关的详细 信息的丢失。另外,离散化方法对挖掘出的知 识的质量的影响如何,仍是一个有待研究的课 题。n离散化方法即改变连续属性为离散值。属性进 行离散化的思想是输入一个(整数的或连续值 的)属性值输出一个有序区间,因此整个输入 域相应与一个有序区间列表。离散化方法常常 跟分类问题相联系。
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号