四川理工学院-－金锄头文库

第一章概述1.数据挖掘的定义？（书 P2，PPT_P8）从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。2数据挖掘的源是否必须是数据仓库的数据？可以有哪些来源？（PPT_P14）关系数据库、数据仓库、事务数据库、高级数据等3数据挖掘的常用方法？（P4、PPT_P29）聚类分析、决策树、人工神经网络、粗糙集、关联规则挖掘、统计分析等4. 数据挖掘的过程包括哪些步骤，每一步具体包括哪些内容？（书 P2-3，PPT_P17-19）确定业务对象、数据准备、数据挖掘、结果分析与知识同化。5. 数据挖掘与数据仓库的关系（联系和区别）？区别：数据仓库是一种存储技术，它包含大量的历史数据、当前的详细数据以及综合数据，它能为不同用户不同决策需要提供所需的数据和信息。数据挖掘是从人工智能机器学习中发展起来的，他研究各种方法和技术，从大量的数据中挖掘出有用的信息和知识。联系：数据仓库为数据挖掘提供了更好的、更广泛的数据源；数据仓库为数据挖掘提供了新的支持平台；数据仓库为更好地使用数据挖掘工具提供了方便；数据挖掘为数据仓库提供了更好的决策支持；数据挖掘对数据仓库的数据组织提出了更高的要求；数据挖掘为数据仓库提供了广泛的技术支持。第二章数据仓库1. 数据仓库的定义数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合，支持管理部门的决策定制过程。2. 数据仓库数据的四大基本特征：面向主题的、集成的、不可更新的、随时间变化的。3. 数据仓库体系结构有三个独立的数据层次：信息获取层、信息存储层、信息传递层。4. 粒度的定义？它对数据仓库有什么影响？（ 1）是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度越小，细节程度越高，综合程度越低，回答查询的种类就越多。（ 2）影响存放在数据仓库中的数据量大小；影响数据仓库所能回答查询问题的细节程度。5. 在数据仓库中，数据按照粒度从小到大可分为四个级别：早期细节级、当前细节级、轻度细节级和高度细节级。6. 数据分割的标准：可按日期、地域、业务领域、或按多个分割标准的组合，但一般包括日期项。7. 数据仓库设计中，一般存在着三级数据模型：概念数据模型、逻辑数据模型、物理数据模型8. 数据仓库设计步骤（ 1）概念模型设计（2）技术准备工作（3）逻辑模型设计（4）物理模型设计（5）数据仓库的生成（6）数据仓库的使用和维护9. 数据装入时，并不是一次就将准备装入的数据全部装入数据仓库，而是按照逻辑模型设计中所确定和分析的主题域，先装入并生成某一主题域。10. 建立数据仓库的步骤并不是一成不变的，但最终应该满足用户的分析需求。第三章联机分析处理技术1. 联机事务处理与联机分析处理的区别？联机事务处理（OLTP）作为数据管理手段，主要用于事务处理，但它对分析处理一直不能令人满意。联机分析处理（OLAP ）是决策支持系统的有机组成部分，利用存储在数据仓库中的数据完成各种分析操作，并以直观易懂的形式将分析结果返回给决策分析人员。2.OLAP 的主要特征快速性、可分析性、多维性、信息性。3. 钻取 Drill/Roll up,Drill down 改变维的层次，变换分析的粒度。分向上钻取和向下钻取。向上钻取：在某一维上将低层次的细节数据概括到高层的汇总数据，或者减少维数。向下钻取：从汇总数据深入到细节数据进行观察或增加新维。4. ROLAP是基于关系数据库的OLAP实现，而MOLAP是基于多维数据结构组织的OLAP实现。 5OLAP根据其数据存储格式可分为三类：关系 OLAP（ROLAP）、多维 OLAP（MOLAP）和混合 OLAP（HOLAP）。6雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。7OLAP 的衡量标准（ 1 ）透明性准则：OLAP 在体系结构中的位置和数据源对用户是透明的。（ 2）动态的稀疏矩阵处理准则：对任意给定的稀疏矩阵，存在且仅存在一个最优的物理视图。（ 3 ）维的等同性准则：每一数据维在数据结构和操作能力上都是等同的。第四章数据预处理 1数据预处理的方法数据清洗、数据集成、数据变换、数据规约等。2分箱方法统一权重、统一区间、最小熵、用户自定义区间。3数据平滑处理方法按平均值、按边界值、按中值 4数据规范化定义？规范化的常用方法有哪些？（1）将数据按比例缩放，使之落入一个特定的区域，如0,1，称为规范化/标准化。（2）常用方法：最小-最大规范化、零-均值规范化、小数定标规范化。5数据规约从大数据集中得到其规约表示小数据集规约的目的是减少原始数据量；可以在小数据集上得到与原始数据相同的挖掘结果。6. 下面是一个超市某种商品连续 24 个月的销售数据（百元）:21，16，19，24，27，23，22，21，20，17，16，20， 23，22，18，24，26，25，20，26， 23，21，15，17使用统一权重、统一区间和自定义区间方法对数据分箱，并对分箱后的数据采用平均值、边界值或中值等方法进行平滑。箱1:15,16,16,17,17,18箱 2：19,20,20,20,21,21箱 3:21,22,22,23,23,23箱 4: 24,24,25,26,26,27边界：箱1:15,15,15,18,18,18箱 2：19,19,19,21,21,21箱 3:21,21,21,23,23,23箱 4: 24,24,24,27,27,27表示每箱6 个记录，分四箱：解：15，16,16,17,17,18,19,20,20,20,21,21,21,22,22,23,23,23,2,24,25,26,26,27 统一权重：设权重为 6统一区间：每个箱子宽度为（27-15） /4=3，区间15,18）、18,21）、21,24）、24,27）：箱1:15,16,16,17,17箱 2 ：18,19,20,20,20箱 3:21,21,21,22,22,23,23,23箱 4:24,24,25,26,26,27中值：箱1:16,16,16,16,16箱 2 ：20,20,20,20,20箱 3:22,22,22,22,22,22,22,22箱 4:25.5, 25.5, 25.5, 25.5, 25.5, 25.5第五章关联规则方法1关联规则挖掘的任务？找到事务数据库D中支持度和置信度分别满足用户指定的最小支持度min_sup和最小置信度 min_con 的规则。2.关联规则挖掘问题分哪两个步骤？（1）找出D中所有的频繁项集；（2）从频繁项集中产生关联规则。3.Apriori 性质：频繁项集的所有非空子集也都必须是频繁的这是频繁项集的先验知识；可以减少候选频繁项集的数量。4.负边界：负边界中的项集是非频繁的，但每个项集的所有子集都是频繁的。5数据库如下图所示，如果设定最小支持度s=40%，置信度c=70%,计算该数据库中的频繁项集和负边界，以及由频繁项集产生的规则。TID项目列表T111，13，I4T212，13，I5T311，12，13，I5T412，I5解： S=40%候选1-项集计数S (%)频繁1-项集L1i1250i1i2375i2i3375i3i4125i5375i5候选2-项集计数S(%)频繁2-项集L2i1, i2125i1, i3250i1, i3i1, i5125i2, i3250i2, i3i2, i5375i2, i5i3, i5250i3, i5候选3-项集计数S (%)频繁3-项集L3i2, i3, i5250i2, i3, i5频繁项集：L1, L2, L3,即i1、i2、i3、i5、i1, i3、i2, i3、i2, i5、i, i5、i2, i3, i5。负边界： i1, i2, i1, i5。置信度 c=70%频繁项集产生的规则置信度强规则i1, i3i1i32/21ii3i3i12/3i2, i3i2i32/3i3i22/3i2, i5i2i53/3i2i5i5i23/3i5i2i3, i5i3i52/3i5i32/3i2, i3, i5i2,i3i52/2i2,i3i5i2,i5i32/3i3,i5i22/2i3,i5i2第六章决策树方法1. 决策树的基本概念：适用于离散值属性、连续值属性；采用自项向下的规约方法产生一个类似于流程图的树结构；在根节点和各内部节点上选择合适的描述属性,并且根据该属性的不同取值向下建立分枝。2. 决策树的优点进行分类器设计时，决策树分类方法所需时间相对较少；决策树的分类模型是树型结构，简单直观，比较符合人类的理解方式；可以讲决策树中到达每个叶节点的路径转换为 IFTHEN 形式的分类规则，这种形式更有利于理解。3. 决策树剪枝决策树剪枝过程试图检测和去掉多余的分枝，以提高对未知类标号的数据进行分类时的准确性。第八章人工神经网络方法1. 神经网络直所以能胜任一些复杂的工作，是因为它有学习的能力。2. 具有较好的泛华能力是神经网络设计的评价指标之一。3. BP神经网络的拓扑结构分为多个层次：输入层、隐含层、输出层。4. 神经网络进行学习实际上就是学习其连接的权值。5. BP神经网络学习过程由信号的正向传播与误差的反响传播两个过程组成。6. 在线训练：每处理一个训练实例，就更新一次权重。7. 离线训练：把所有训练实例都处理一遍之后，再更新权重。8. 利用梯度下降法更新权重易于陷入局部极小值，从而无法得到最优解。9. BP 神经网络的优点和缺点（1）BP 神经网络的优点：抗噪性能好；既能处理连续数据，也能处理类别型数据；在多个领域有成功应用；既适合有监督学习，也适合无监督学习；具有较好的泛化能力；具有较好的逼近非线性映射的能力；具有较好的容错性。（2）BP 神经网络的缺点：缺乏可解释性；可能无法找到优解；可能存在过学习问题（overfitting）；收敛速度慢。第九章聚类分析1. 聚类分析定义把一个给定的数据对象集合分成不同的簇；在同一个簇（或类）中，对象之间具有相似性不同簇（或类）的对象之间具有较高的相宜性。2. 聚类分析方法通常分为哪些方法？基于划分方法；基于层次的方法；基于密度的方法；基于网格的方法；谱聚类方法