资源预览内容
第1页 / 共67页
第2页 / 共67页
第3页 / 共67页
第4页 / 共67页
第5页 / 共67页
第6页 / 共67页
第7页 / 共67页
第8页 / 共67页
第9页 / 共67页
第10页 / 共67页
亲,该文档总共67页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
论文题目数据仓库与数据挖掘大作业院(系)名称信息技术学院专 业 年 级10级电子商务学号101144054学生姓名张泽果1目 录第1章 数据仓库和数据挖掘简介11.1数据仓库的概念11.2数据挖掘引论11.2.1 数据挖掘的作用11.2.2数据挖掘对企业的影响21.2.3数据挖掘概念31.3数据挖掘与数据仓库的关系41.4数据仓库与数据挖掘的区别5第2章 创建数据仓库62.1 数据仓库的来源62.2 数据表的结构6第3章 关联规则挖掘83.1 案例背景83.2 数据来源93.3 关联规则的应用93.3.1 Microsoft SQL Server 2005 Analysis Services操作步骤93.3.2模型解释173.4小结19第4章 分类挖掘204.1案例背景204.2数据来源204.3分类挖掘的应用214.3.1 Microsoft SQL Server 2005 Analysis Services操作步骤214.3.2模型解释264.4小结28第5章 聚类挖掘295.1案例背景295.2数据来源295.3聚类挖掘的应用305.3.1 Microsoft SQL Server 2005 Analysis Services操作步骤305.3.2模型解释325.4小结36I 第1章 数据仓库和数据挖掘简介1.1数据仓库的概念什么是数据仓库,目前有一下不同的看法:定义1:W.H.Inmon在Building the Data Warehouse中定义数据仓库为:“数据仓库是面向主题的、集成的、随时间变化的、历史的、稳定的、支持决策制定过程的数据集合。” 即数据仓库是在管理人员决策中的面向主题的、集成的、非易失的并且随时间而变化的数据集合。定义2:“DW是作为DSS基础的分析型DB,用来存放大容量的只读数据,为制定决策提供所需的信息。”定义3:“DW是与操作型系统相分离的、基于标准企业模型集成的、带有时间属性的。即与企业定义的时间区段相关,面向主题且不可更新的数据集合。” 定义4:数据仓库是一种来源于各种渠道的单一的、完整的、稳定的数据存储。这种数据存储提供给可以允许最终用户的可以是一种他们能够在其业务范畴中理解并使用的方式。定义5:数据仓库是大量有关公司数据的数据存储。定义6:仓库提供公司数据以及组织数据的访问功能,其中的数据是一致的(consistent),并且可以按每种可能的商业度量方式分解和组合;数据仓库也是一套查询、分析和呈现信息的工具;数据仓库是我们发布所用数据的场所,其中数据的质量是业务再工程的驱动器(driver of business reengineering)。定义的共同特征:首先,数据仓库包含大量数据,其中一些数据来源于组织中的操作数据,也有一些数据可能来自于组织外部;其次,组织数据仓库是为了更加便利地使用数据进行决策;最后,数据仓库为最终用户提供了可用来存取数据的工具。综合对数据仓库的各种理解以及其特征,我们可以定义数据仓库是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合。1.2数据挖掘引论1.2.1 数据挖掘的作用数据挖掘解决诸如欺诈甄别(fraud detection)、保留客户(customer retention)、 消除摩擦(attrition)、数据库营销(database marketing)、市场细分(market segmentation)、风险分析(risk analysis)、亲和力分析(affinity analysis)、客户满意度(customer satisfaction)、破产预测(bankruptcy prediction)、职务分析(portfolio analysis)等业务问题提供了有效的方法。 例如,数据挖掘运用于客户行为分析,企业从中受益体现在以下四个方面:1.可以方法顾客和访问者的爱好、生活模式等。2.可以解决怎样来争取新顾客,怎样使产品适销对路,怎样给产品定价,怎样吸引单个顾客,怎样优化Web站点等问题。即可以通过顾客定制和指定的产品和服务交换信息,对Web上的商业模式建模,预测、了解影响销售的各种因素,以便迅速调整其市场、价格、存货等;通过页面访问情况,分析出的客户生活和购物模式,根据客户的爱好等来定制个性化Web界面。3.可以利用相应的信息确定顾客消费的生命周期,针对不同的产品定制相应的营销策略。4.可以却东客户细分,为每一个顾客的独特需求设计“量身定制”的产品。有些问题的产生是显然的,如:开辟新产品的市场;为现存的产品和服务定价;了解客户流失的原因。同时和各种人员的交流也是很重要的,当他们了解了数据挖掘之后,就有可能提出更好的问题。1.2.2数据挖掘对企业的影响诺贝尔奖得主Penziad博士在1999年1月的计算机世界上发表评论认为:“数据挖掘将变得更加重要,因为数据挖掘如此有价值,以至于企业将不再会丢失与其客户有关的任何信息。如果你不在这方面做些什么,那么你将会失去你的生意。”如果数据挖掘能够对改善商务过程起到明显的作用,则它就是一种能够赢得竞争的武器。表1.1给出的3个例子清楚地说明数据挖掘可以对企业的盈利能力产生直接影响。这3个例子中,企业的销售收入都受到通过数据挖掘所收集到的信息数据量的影响。当然,在某些领域(如股票市场),数据挖掘产生预测的准确性要比其他领域差一些。例如,在零售业中对于直接信函而言,采用数据挖掘,从有可能对直接信函做出响应的人当中识别出其中10%为可能性最高的人就是一件比较容易的事情。很多企业都在利用数据挖掘技术帮助管理客户生命周期的各个阶段,包括争取新的客户、在已有客户的身上赚更多的钱和保持优质客户。如果能够确定优势客户的特点,那么就能提供针对性的服务。如此,已经发现了购买某一商品的客户的特征,那么就可以向那些具有这些特征但还没有购买此商品的客户推销这个商品;找到流失的客户的特征就可以对那些具有相似特征的客户还未流失之前进行针对性的弥补,因为保留一个客户要比争取一个客户容易得多。表2-1 图书借阅登记表零售业业务问题增加对直接信函(direct mail)的响应率解决方案销售人员通过数据挖掘建立的预测模型以了解哪些人最有可能对直接信函作出响应获得的收益由于将直接信函发送给正确的客户而增加了销售额保险业业务问题减少保险欺诈案件的发生数量解决方案业务人员通过数据挖掘建立预测模型识别出哪些赔偿要求最可能具有欺诈性获得的收益由于减少欺诈造成的费用而增加了利润金融业业务问题改进预测市场波动的能力,在金融市场建模中得到广泛应用。如何采用神经网络方法提高金融增益和在采用数据挖掘技术建立股票市场模型。解决方案金融分析员通过数据挖掘建立预测模型以识别出历史上曾引起过市场被动的因素所具有的模式获得的收益由于投资更加准确而增加了收入数据挖掘可以应用在各个不同的领域。电讯公司和信用卡公司就是用数据挖掘检测欺诈行为的先行者。保险公司和证券公司也开始采用数据挖掘来减少欺诈。零售商则更多的使用数据挖掘来决定每种商品在不同地点的库存量,通过数据挖掘更灵活地进行商品促销和优惠活动。1.2.3数据挖掘概念数据挖掘在1989年8月美国底特律市召开的第十一界国际联合人工智能学术会议上正式形成。从1995年开始,每年举行一次知识发现国际学术会议,把对数据挖掘和知识发现的研究推入高潮。数据挖掘还有被译为数据采掘、数据开采和数据发掘等,但数据挖掘还未有一致的定义。对数据挖掘有如下定义:定义1 :G.Piatetsky Shapior,W.J.Frawley等定义数据挖掘为从数据库的大量数据中揭示出隐含的、先前未知的、潜在有用的信息的非平凡过程。定义2 :有人简单认为,数据挖掘就是数据库中知识的发现。定义3 :有人认为,数据挖掘为发现数据中隐藏的模式和关系的过程。定义4 :有人认为,数据挖掘就是从大量数据中提取或挖掘知识。定义5 :Fayyad等在“知识发现96国际会议上”认为,知识发现是从数据库中发现知识的全部过程,而数据挖掘则是此全部过程中一个特定的关键一步。这种观点将数据挖掘的对象局限于数据库。定义6 :数据挖掘广义的定义为在一些事实或观察数据的集合中寻找模式的决策支持的过程。综上所述,我们定义数据挖掘为在不同的数据源中包括结构化的数据、半结构化的数据和非结构化的数据,即既可以是数据库,也可以是文件系统,或其他任何组织在一起的数据集合,通过一定的工具与方法寻找出有价值的知识的一类深层次的数据分析方法。1.3数据挖掘与数据仓库的关系数据挖掘和数据仓库作为决策支持新技术,在近十年来迅速发展。数据仓库和数据挖掘二者既相互结合、共同发展,又相互影响、相互促进。二者的联系概括如下:1.数据仓库为数据挖掘提供了更好更广泛的数据源数据仓库中集成和存储着来自异质的信息源的数据,而这些信息源本身就可能是一个规模庞大的数据库。同时数据仓库存储了大量长时间的历史数据,这可以进行数据长期趋势的分析,为决策者的长期决策行为提供了支持。数据仓库中数据在时间轴上的纵深性是数据挖掘不能回避的又一个新难点。2.数据仓库为数据挖掘提供了新的支持平台数据仓库的发展不仅为数据挖掘开辟了新的空间,更对数据挖掘技术提出了更高的要求。作为数据挖掘对象,数据仓库技术的产生和发展为数据挖掘技术开辟了新的战场,提出了新要求和挑战。数据仓库的体系结构努力保证查询和分析的实时性。数据仓库一般设计成只读方式,数据仓库的更新由专门一套机制保证,数据仓库对查询的强大支持使数据挖掘效率更高。3.数据仓库为更好地使用数据挖掘工具提供了方便数据仓库的建立,充分考虑数据挖掘的要求。用户可以通过数据仓库服务器得到所需的数据,形成开采中间数据库,利用数据挖掘方法进行开采,获得知识。数据仓库为数据挖掘集成了企业内各部门的全面的、综合的数据,数据挖掘要面对的是关系更复杂的企业全局模式的知识发现。而且,数据仓库机制大大降低了数据挖掘的障碍,一般进行数据挖掘要花大量的精力在数据准备阶段:数据仓库中的数据已经被充分收集起来,进行了整理、合并,并且有些还进行了初步的分析处理。这样,数据挖掘的注意力能够更集中于核心处理阶段。另外,数据仓库中对数据不同粒度的集成和综合,更有效地支持广多层次、多种知识的开采。4.数据挖掘为数据仓库提供了更好的决策支持企业领导的决策要求系统能够提供更高层次的决策辅助信息,而基于数据仓库的数据挖掘能更好地满足高层战略决策的要求。数据挖掘对数据仓库中的数据进行模式抽取和发现知识,从数据仓库中揭示出对企业有潜在价值的规律知识,形成知识发现,为知识管理提供了内容,在知识管理中起到中流砥柱的作用。这些正是数据仓库所不能提供的。5.数据挖掘对数据仓库的数据组织提出了更高的要求数据仓库作为数据挖掘的对象,要为数据挖掘提供更多、更好的数据。其数据的设计、组织都要考虑到数据挖掘的要求。6.数据挖掘还为数据仓库提供广泛的技术支持数据挖掘的可视化技术、统计分析技术等都为数据挖掘提供了强有力的技术支持。总之,数据仓库在纵向和横向都为
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号