资源预览内容
第1页 / 共105页
第2页 / 共105页
第3页 / 共105页
第4页 / 共105页
第5页 / 共105页
第6页 / 共105页
第7页 / 共105页
第8页 / 共105页
第9页 / 共105页
第10页 / 共105页
亲,该文档总共105页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
概念描述Date1特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n解析特征化: 分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结Date2什么是概念描述?n描述性 vs. 预测性 数据挖掘n描述性数据挖掘:n预测性数据挖掘:n概念描述: n特征化:对所选择的数据集给出一个简单明了的 描述,汇总n比较:提供对于两个或多个数据集进行比较的描 述Date3概念描述和OLAP区别n概念描述: n 能够处理复杂的数据类型和各种汇总方法n 更加自动化nOLAP: n只能限制于少量的维度和数据类型n用户控制的流程Date4特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化: 分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结Date5数据概化和基于汇总的特征化n数据概化n将大量的相关数据从一个较低的概念层次抽象、转化到 一个比较高的层次n方法:nOLAP方法:n面向属性的归纳Date6OLAP方法n在数据立方体上进行计算和存储结果n优点n效率高n能够计算多种汇总n如:count,average,sum,min,maxn还可以使用roll-down和roll-up操作n限制n只能处理非数值化数据和数值数据的简单汇总。n只能分析,不能自动的选择哪些字段和相应的概念层次Date7面向属性的归纳nKDD Workshop(89)中提出n不限制于种类字段和特定的汇总方法n方法介绍:n使用SQL等收集相关数据n通过数据属性值删除和属性值概化来实现概化n聚集通过合并相等的广义元组,并累计他们对 应的计数值进行n和使用者之间交互式的呈现方式.Date8基本方法n数据聚焦:选择和当前分析相关的数据,包括维。n属性删除: 如果某个属性包含大量不同值,但是1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。n属性概化:如果某个属性包含大量不同值,同时在 该属性上有概化操作符,则运用该操作符进行概化 。n属性阈值控制: typical 2-8, specified/default.n概化关系阈值控制: 控制最终关系的大小Date9基本算法nInitialRel: 得到相关数据,形成初始关系表nPreGen: 通过统计不同属性的含有的不同值的个数 决定是丢弃该属性还是对其进行汇总。nPrimeGen:根据上一步的计算结果,对属性概化到相 应的层次,计算汇总值,得到主概化关系。n结果的表示:概化关系、交叉表、3D立方体Date10示例nDMQL: use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate”n相应的SQL: Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “Msc”, “MBA”, “PhD” Date11类特征化:示例Prime Generalized RelationInitial RelationDate12概化结果的表示n概化关系: n一个表格,其中有属性字段,后附汇总方法。n交叉表:n二维交叉表n可视化方法:nPie charts, bar charts, curves, cubes, and other visual forms.n量化特征规则: (上表与136页例4.26)Date13表达方式-概化关系(133页例4.22)Date14表达方式交叉表(133页例4.23)Date15使用Cube技术进行实现n对给定的数据动态创建数据立方体:n便于有效的下钻操作n可能增加响应时间n解决方法:实现存储一些较高层次的统计信息 。n使用预定义的数据立方体:n预先构建数据立方体nCube计算的花费和额外的存储空间Date16特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化: 分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结Date17属性相关性分析nwhy?n哪些维需要包括? n需要概化到什么层次?n减少属性;从而容易理解模型结果nWhat?n使用统计的方法进行数据预处理n过滤掉一些不相关或者相关性比较弱的字段n保留并对相关属性进行排序n相关性和维度、层次有关n分析特征化,分析比较 Date18属性相关性分析n步骤:n数据收集n使用保守的AOI进行预相关分析n相关性分析,删除不相关和弱相关属性n使用AOI产生概念描述Date19相关性度量标准n相关性度量标准决定了如何对属性进行判断的标 准n方法n信息增益information gain (ID3)n增益比gain ratio (C4.5)nGini索引gini indexn不确定性n相关系数Date20Entropy 和 Information Gainn集合S中类别Ci的记录个数是si 个 i = 1, , m n期望信息n属性A的熵是n信息增益Date21一个例子(131页例5.9)n任务n使用分析特征化来了解研究生的一般特征n属性名称 gender, major, birth_place, birth_date, phone#, and gpanGen(ai) = concept hierarchies on ainUi = attribute analytical thresholds for ainTi = attribute generalization thresholds for ainR = attribute relevance thresholdDate22例子:分析特征化(续)n1. 数据收集ntarget class: graduate studentncontrasting class: undergraduate studentn2.使用 Ui分析概化n属性删除nremove name and phone#n属性概化n generalize major, birth_place, birth_date and gpanaccumulate countsn候选关系: gender, major, birth_country, age_range and gpaDate23例子:分析特征化 (2)Candidate relation for Target class: Graduate students (=120)Candidate relation for Contrasting class: Undergraduate students (=130)Date24例子:分析特征化 (3)n3. 相关性分析n计算期望信息n计算每个属性的熵Number of grad students in “Science”Number of undergrad students in “Science”Date25例子:分析特征化 (4)n得出每个属性的熵n计算每个属性的Information GainnInformation gain for all attributesDate26例子:分析特征化 (5)n4. Initial working relation (W0) derivationnR = 0.1n删除不相关或者弱相关的属性 = drop gender, birth_countryn删除比较类的关系n5. 在W0进行AOI分析Initial target class working relation W0: Graduate studentsDate27特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化: 分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结Date28挖掘类比较n比较:比较两个或者更多类.n方法: n将相关的数据分成目标类和比较类。 n将两个类别的数据概化到相同的层次。n用相同层次的描述对元组进行比较。 n对于每个元组展现其描述和两个衡量标准:nsupport - distribution within single classncomparison - distribution between classesn将差异很大的元组特别显示出来 n相关性分析:n发现最能体现类别之间差异的属性.Date29例子:分析性比较(133页例5.10)nTaskn使用区别规则来分析本科生和研究生nDMQL queryuse Big_University_DB mine comparison as “grad_vs_undergrad_students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa for “graduate_students” where status in “graduate” versus “undergraduate_students” where status in “undergraduate” analyze count% from studentDate30例子:分析性比较 (2)n条件:nattributes name, gender, major, birth_place, birth_date, residence, phone# and gpanGen(ai) = concept hierarchies on attributes ainUi = attribute analytical thresholds for attributes ainTi = attribute generalization thresholds for attributes ainR = attribute relevance thresholdDate31例子:分析性比较(3)n1. 数据收集n目标类和比较类n2. 属性相关性分析nremove attributes name, gender, major, phone#n3. 同步概化ncontrolled by user-specified dimension thresholdsnprime target and contrasting class(es) relations/cuboidsDate32例子:分析性比较 (4)Prime generalized relation for the target class: Graduate studentsPrime generalized relation for the contrasting class: Undergraduate studentsDate33例子:分析性比较 (5)n4. 在目标和比较类别上, Drill down, roll up and other OLAP operations,确定概化层次.n5. 展现方式n generalized relations, crosstabs, bar charts, pie charts, or rulesn比较性的度量,以体现目标类和比较类之间的 差别ne.g. count%Date34量化区分规则nCj = 目标类nqa = 概化元组n也覆盖比较类别的元组nd-weightn范围: 0, 1n量化区别规则Date
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号