资源预览内容
第1页 / 共44页
第2页 / 共44页
第3页 / 共44页
第4页 / 共44页
第5页 / 共44页
第6页 / 共44页
第7页 / 共44页
第8页 / 共44页
第9页 / 共44页
第10页 / 共44页
亲,该文档总共44页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据挖掘中的统计 方法及其实践朱建平厦门大学经济学院计划统计系2018/8/13The Statistical Method for Data Mining and Its ApplicationZhu JianpingXiamen University*教学目的数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、 模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、 但又是潜在有用的信息和知识的过程。它是涉及机器学习、模式识 别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学 科。用统计的观点看,它可以看成是通过计算机对大量的复杂数 据集的自动探索性分析。作为一种独立于应用的技术,一经出现立 即受到广泛的关注。本课程从统计学的角度介绍该领域的全面情况,讲授有趣的 数据挖掘技术和方法,并讨论应用和研究方向。其目的是针对海量 数据,让我们掌握利用计算机分析数据、理解数据,并具有基于丰 富的数据做出决策的能力。 Date讲授的基本内容n 随着计算机技术和电子数据获取方面的不断进展以 及Internet和各种局域网的广泛普及,人们获得的数据 正以前所未有的速度急剧增加,最近几十年产生了很 多超大型数据库,遍及超级市场销售、银行存款、天 文学、粒子物理、化学、医学以及政府统计等领域。n 那么,如何从这些大型数据库中发现有用的信息、 模式和知识?如何开发有效的挖掘方法?已成为众多 科技工作者共同关注的焦点。在过去几年,一个称为“ 数据挖掘” (Data Mining)的新领域得到了快速发展,已 在经济、商业、金融、天文等行业得到了成功的应用, 在国际上掀起了一股空前的研究热潮。Daten 本课程从统计学的观点出发,立足理论,着眼应用 ,在明确了数据挖掘定义和对象的基础上,从七个方面 对数据挖掘的理论及统计方法和应用进行较为详细的介 绍。n 第一章介绍数据挖掘概况。讲授数据挖掘的定义, 并以技术和商业的角度给出了数据挖掘的定义。在此基 础上,澄清数据挖掘与知识发现的关系,明确数据挖掘 的对象。最后对数据分析提出一些思考。n 第二章数据挖掘与统计学的关系。以数据挖掘的发 展历史为线索,讲授数据挖掘领域研究所取得成果,解 释数据挖掘自身的特点,从中领悟到了数据挖掘与统计 学的关系。以现代统计方法的基本思想,让学生认识到 统计学在数据挖掘中所做的贡献,即统计方法在数据挖 掘中强有力的作用。Daten第三章介绍数据准备。在这一章将分析原始大型数据库的基本表 述和特征,了解数据准备的不同技术,比较去除丢失值的不同方 法,构造时间相关数据的统一表述方法,实现一些数据预处理技 术。 n第四章介绍Rough集的基本模型及有关概念。这一章讲授知识的分 类观点和概念的边界观点,知识的约简和决策表的约简。以统计 思想与Rough集理论相结合,介绍对事务性数据库的统计描述,对 事务性数据库事务项及属性项压缩的方法,构建事务性数据库列 联表示的模型的思想。并利用所介绍的方法进行实证分析。n第五章重点介绍数据挖掘中的聚类问题。讲授数据的排序与有向 聚类问题。介绍聚类分析数据类型衍生的思想,并对聚类分析方 法进行了比较和检验。让学生在实际应用中认识到其方法的可靠 性与稳定性。Daten 第六章介绍挖掘大型数据库中的关联规则。讲授关 联规则的意义和量度,维布尔关联规则,多层关联规 则,由关联规则到相关分析。另外,引入相应分析作 为数据挖掘中关联规则的提升,介绍相应分析适应性 检验的基本思想及方法,及相应分析适应性的分层量 度方法。利用可视化方法对所多度相应分析方法进行 了验证。n 第七章理解一些其它的数据挖掘技术。模糊聚类、 神经网络、时序稠密数据集的挖掘技术等。n 为了满足实际的需要,我们将利用所讲授的方法, 对某地区中国移动通讯用户消费数据库、某大学大学 生隐形教育调查资料和上证指数收盘价信息进行剖析 ,以便让学生充分地领悟到数据挖掘的理论和实际价 值。Date参考文献nCios, K. J., Pedrycz, W. and Swiniarski, R. W. (1998), Data Mining Methods for Knowledge Discovery, U.S.AnFriedman, J. H., Data Mining and Statistics: Whats The Connection? Technical Report, Stanford UniversitynGlymour, C., etc. Statistical Themes and Lessons for Data Mining, Data Mining and Knowledge Discovery 1, 11-28 (1997)nHan, J . W. and Kamber, M. Data Mining: Concepts and Techniques ,Higher Education Press, (2001)nTheresa, B., Frederick, E. P. and Gurdial, A., Information-Theoretic Measures of Uncertainty for Rough Sets and Rough Relational Databases, Journal of Information Sciences 109(1998), pp185-195nNelson , D. E., High Range Resolution Radar Target Classification: A Rough Set Approach,Paper of PhDDaten张尧庭,谢邦昌,朱世武,数据采掘入门及应用从统计技术 看数据采掘,中国统计出版社,北京,(2001.6) n史忠植著,知识发现,清华大学出版社,北京,(2002.1)n刘同明等编著,数据挖掘技术及其应用,国防工业出版社, (2001.9)n数据挖掘讨论组,数据挖掘的研究历史和现状, http:/datamining.126.com/n闪四清等译(Mehmed Kantardzic),数据挖掘概念、模型 、方法和算法,清华大学出版社,(2003.8)n张银奎等译(Hand, D),数据挖掘原理,机械工业出版社, (2003.4)n范明等译,统计学习基础数据挖掘、推理与预测,电子工业 出版社,(2004.1)Date第一章 数据挖掘概述1.1 数据挖掘的定义1.2 数据挖掘与知识发现1.3 数据挖掘对象1.4 数据分析的一些思考DateWhat are these numbers trying to Tell me?nMatrix Codesn:,舅舅:不要吃酒,吃酒误事, , ,吃了二两酒,不是动怒,就是动 武, ,. 。吃酒要被酒杀死,一点酒也不要 吃。DateWhat Are These Numbers Trying to Tell Us?DateWhat Are These Numbers Trying to Tell Us?n7 2 n2x3 n40 6 n二四六八 n0000 n 1 1 = 1 n10002 =100100100 n7/8 不三不四 接二連三 陸續不斷 無獨有偶 掛萬漏一 一成不變 千方百計 七上八下Date1.1 数据挖掘的技术定义与商业定义n什么是数据挖掘(Data Mining)?关于定义取决于定义者的观点和背景,各 人的说法不一. Friedman, J. H.在技术报告 Data Mining and Statistics: Whats The Connection? 中总结出了多家关于数据挖掘 的定义(也有对知识发现而言的):nFayyad提出数据挖掘是一个确定数据中有效 的、新颖的、潜在有用的,以及最终可理解 的模式的非平凡过程. DatenZekulin的说法是数据挖掘是一个从大型数据库中提取 以前未知的、可理解的、可执行的信息,并用它来进 行关键的商业决策的过程. nFerruzza给出数据挖掘是用在知识发现过程,来辩识 存在于数据中的未知关系和模式的一些方法.nJonn提到数据挖掘是发现数据中有益模式的过程. nParsaye定义数据挖掘是我们为那些未知的信息模式而 研究大型数据集的一个决策支持过程.n这些表达方式虽然不同,但从各自的角度描述出了对 数据挖掘的理解.这里我们主要从技术和商业的角度给 出数据挖掘的定义.Date1.1.1 数据挖掘的技术定义n从技术角度,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程.n它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科.Date这个定义包括好几层含义:n数据源必须是真实的、大量的、含噪声的;n发现的是用户感兴趣的知识;n发现的知识要可接受、可理解、可运用;n这些知识是相对的,是有特定前提和约束条件的,在 特定领域中具有实际应用价值.Date什么是知识呢?n从广义上理解,数据、信息是知识的表现形式, 但是人们更把概念、规则、模式、规律和约束等 看作知识.n人们把数据看作是形成知识的源泉,好像从矿石 中采矿或淘金一样.n原始数据可以是结构化的,如关系数据库中的数 据;也可以是半结构化的,如文本、图形和图像 数据;甚至是分布在网络上的异构型数据.n发现知识的方法可以是数学的,也可以是非数学 的;可以是演绎的,也可以是归纳的. 发现的知 识可以被用于信息管理、查询优化、决策支持和 过程控制等,还可以用于数据自身的维护.Date1.1.2 数据挖掘的商业定义从商业应用角度看,数据挖掘是一种新的商业信息 处理技术.其主要特点是对商业数据库中的大量业务数据进行 抽取、转换、分析和其他模型化处理,从中提取辅助 商业决策的关键性知识,即从一个数据库中自动发现 相关商业模式.实际上多年来,统计学家就开始手工挖掘数据库, 从数据库中寻找符合统计学规律的有意义的模式.这也 是统计学类型的数据挖掘技术,是目前数据挖掘技术 中最为成熟的重要原因之一.Date数据挖掘也可以描述为:按企业既 定业务目标,对大量的企业数据进行探 索和分析,揭示隐藏的、未知的或验证 已知的规律性,且进一步将其模型化的 数据处理方法.Date1.2 数据挖掘与知识发现 (DM & KDD)1.2.1 知识发现(Knowledge Discovery in Database)过程知识发现过程可以粗略的理解为三部曲: 数据准备(data preparation) 数据挖掘(data mining) 结果的解释评估(interpretation and evaluation) Date知识发现过程示意图Daten数据准备又可分为三个子步骤:数据选取、数据预 处理和数据变换.n数据选取的目的是确定发现任务的操作对象,即目 标数据.n数据预处理一般可能包括消除噪声、推导计算缺值 数据、消除重复记录、完成数据类型转换等.n数据变换的主要目的是消减数据维数或降维,即从 初始特征中找出真正有用的特征以减少数据开采时 要考虑的特征或变量数.Daten数据挖掘阶段主要是确定开采的任务,如数据总结、分 类、聚类、关联规则发现或序列模式发现等.n确定了开采任务后,就要决定使用什么样的开采算法.选择实现算法有两个需要考虑的因素:一是不同的数据有不同的特点,需要用与之相应的算 法来开采;二是根据用户或实际运行系统的要求来开采.Daten结果解释和评价主要是数据挖掘阶段发现出 的模式,
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号