数据挖掘5章概念描述：特征化与比较-

概念描述Date1特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n解析特征化: 分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结Date2什么是概念描述?n描述性 vs. 预测性数据挖掘n描述性数据挖掘:n预测性数据挖掘:n概念描述: n特征化:对所选择的数据集给出一个简单明了的描述，汇总n比较:提供对于两个或多个数据集进行比较的描述Date3概念描述和OLAP区别n概念描述: n 能够处理复杂的数据类型和各种汇总方法n 更加自动化nOLAP: n只能限制于少量的维度和数据类型n用户控制的流程Date4特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化: 分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结Date5数据概化和基于汇总的特征化n数据概化n将大量的相关数据从一个较低的概念层次抽象、转化到一个比较高的层次n方法:nOLAP方法：n面向属性的归纳Date6OLAP方法n在数据立方体上进行计算和存储结果n优点n效率高n能够计算多种汇总n如：count,average,sum,min,maxn还可以使用roll-down和roll-up操作n限制n只能处理非数值化数据和数值数据的简单汇总。n只能分析，不能自动的选择哪些字段和相应的概念层次Date7面向属性的归纳nKDD Workshop(89)中提出n不限制于种类字段和特定的汇总方法n方法介绍：n使用SQL等收集相关数据n通过数据属性值删除和属性值概化来实现概化n聚集通过合并相等的广义元组，并累计他们对应的计数值进行n和使用者之间交互式的呈现方式.Date8基本方法n数据聚焦:选择和当前分析相关的数据，包括维。n属性删除: 如果某个属性包含大量不同值，但是1)在该属性上没有概化操作，或者2）它的较高层概念用其它属性表示。n属性概化:如果某个属性包含大量不同值，同时在该属性上有概化操作符，则运用该操作符进行概化。n属性阈值控制: typical 2-8, specified/default.n概化关系阈值控制: 控制最终关系的大小Date9基本算法nInitialRel: 得到相关数据，形成初始关系表nPreGen: 通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。nPrimeGen:根据上一步的计算结果，对属性概化到相应的层次，计算汇总值，得到主概化关系。n结果的表示:概化关系、交叉表、3D立方体Date10示例nDMQL: use Big_University_DB mine characteristics as “Science_Students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “graduate”n相应的SQL: Select name, gender, major, birth_place, birth_date, residence, phone#, gpa from student where status in “Msc”, “MBA”, “PhD” Date11类特征化：示例Prime Generalized RelationInitial RelationDate12概化结果的表示n概化关系: n一个表格，其中有属性字段，后附汇总方法。n交叉表:n二维交叉表n可视化方法:nPie charts, bar charts, curves, cubes, and other visual forms.n量化特征规则: (上表与136页例4.26)Date13表达方式-概化关系(133页例4.22)Date14表达方式交叉表(133页例4.23)Date15使用Cube技术进行实现n对给定的数据动态创建数据立方体：n便于有效的下钻操作n可能增加响应时间n解决方法：实现存储一些较高层次的统计信息。n使用预定义的数据立方体：n预先构建数据立方体nCube计算的花费和额外的存储空间Date16特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化: 分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结Date17属性相关性分析nwhy?n哪些维需要包括? n需要概化到什么层次?n减少属性；从而容易理解模型结果nWhat?n使用统计的方法进行数据预处理n过滤掉一些不相关或者相关性比较弱的字段n保留并对相关属性进行排序n相关性和维度、层次有关n分析特征化，分析比较 Date18属性相关性分析n步骤：n数据收集n使用保守的AOI进行预相关分析n相关性分析，删除不相关和弱相关属性n使用AOI产生概念描述Date19相关性度量标准n相关性度量标准决定了如何对属性进行判断的标准n方法n信息增益information gain (ID3)n增益比gain ratio (C4.5)nGini索引gini indexn不确定性n相关系数Date20Entropy 和 Information Gainn集合S中类别Ci的记录个数是si 个 i = 1, , m n期望信息n属性A的熵是n信息增益Date21一个例子(131页例5.9)n任务n使用分析特征化来了解研究生的一般特征n属性名称 gender, major, birth_place, birth_date, phone#, and gpanGen(ai) = concept hierarchies on ainUi = attribute analytical thresholds for ainTi = attribute generalization thresholds for ainR = attribute relevance thresholdDate22例子：分析特征化（续）n1. 数据收集ntarget class: graduate studentncontrasting class: undergraduate studentn2.使用 Ui分析概化n属性删除nremove name and phone#n属性概化n generalize major, birth_place, birth_date and gpanaccumulate countsn候选关系: gender, major, birth_country, age_range and gpaDate23例子：分析特征化 (2)Candidate relation for Target class: Graduate students (=120)Candidate relation for Contrasting class: Undergraduate students (=130)Date24例子：分析特征化 (3)n3. 相关性分析n计算期望信息n计算每个属性的熵Number of grad students in “Science”Number of undergrad students in “Science”Date25例子：分析特征化 (4)n得出每个属性的熵n计算每个属性的Information GainnInformation gain for all attributesDate26例子：分析特征化 (5)n4. Initial working relation (W0) derivationnR = 0.1n删除不相关或者弱相关的属性 = drop gender, birth_countryn删除比较类的关系n5. 在W0进行AOI分析Initial target class working relation W0: Graduate studentsDate27特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化: 分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结Date28挖掘类比较n比较:比较两个或者更多类.n方法: n将相关的数据分成目标类和比较类。 n将两个类别的数据概化到相同的层次。n用相同层次的描述对元组进行比较。 n对于每个元组展现其描述和两个衡量标准:nsupport - distribution within single classncomparison - distribution between classesn将差异很大的元组特别显示出来 n相关性分析:n发现最能体现类别之间差异的属性.Date29例子：分析性比较(133页例5.10)nTaskn使用区别规则来分析本科生和研究生nDMQL queryuse Big_University_DB mine comparison as “grad_vs_undergrad_students” in relevance to name, gender, major, birth_place, birth_date, residence, phone#, gpa for “graduate_students” where status in “graduate” versus “undergraduate_students” where status in “undergraduate” analyze count% from studentDate30例子：分析性比较 (2)n条件：nattributes name, gender, major, birth_place, birth_date, residence, phone# and gpanGen(ai) = concept hierarchies on attributes ainUi = attribute analytical thresholds for attributes ainTi = attribute generalization thresholds for attributes ainR = attribute relevance thresholdDate31例子：分析性比较(3)n1. 数据收集n目标类和比较类n2. 属性相关性分析nremove attributes name, gender, major, phone#n3. 同步概化ncontrolled by user-specified dimension thresholdsnprime target and contrasting class(es) relations/cuboidsDate32例子：分析性比较 (4)Prime generalized relation for the target class: Graduate studentsPrime generalized relation for the contrasting class: Undergraduate studentsDate33例子：分析性比较 (5)n4. 在目标和比较类别上， Drill down, roll up and other OLAP operations，确定概化层次.n5. 展现方式n generalized relations, crosstabs, bar charts, pie charts, or rulesn比较性的度量，以体现目标类和比较类之间的差别ne.g. count%Date34量化区分规则nCj = 目标类nqa = 概化元组n也覆盖比较类别的元组nd-weightn范围: 0, 1n量化区别规则Date