资源预览内容
第1页 / 共43页
第2页 / 共43页
第3页 / 共43页
第4页 / 共43页
第5页 / 共43页
第6页 / 共43页
第7页 / 共43页
第8页 / 共43页
第9页 / 共43页
第10页 / 共43页
亲,该文档总共43页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数学科学学院周书锋1第1章 数据仓库概述数学科学学院周书锋2nnn数据仓库基础.段云峰等译.电子工业出版社.2004年4月(Data Warehousing Fundamentals.Paulraj Ponniah)数据仓库原理与实践.林宇.人民邮电出版社.2003年1月数据仓库与数据挖掘.陈文伟.人民邮电出版社.2004年1月& 教材数学科学学院周书锋3引言:n主要介绍从数据库到数据仓库的演变过程,着重说明“蜘蛛网”问题产生原因以及随之而来的种种问题。为此,必须将操作型环境和分析型环境分离,使企业由以数据库为中心的生产环境过渡到以数据仓库为中心的生产环境。最后简要介绍数据仓库技术的应用前景。数学科学学院周书锋4内容、数据库到数据仓库的演变、操作型系统和分析型系统的分离、数据仓库定义、数据仓库解决的问题、数据仓库体系结构、数据仓库的运行结构、一个现实的问题、数据仓库应用前景数学科学学院周书锋5数据库到数据仓库的演变n1、蜘蛛网问题n2、蜘蛛网现象n3、蜘蛛网问题特征数学科学学院周书锋61、蜘蛛网问题n随着数据库技术的广泛应用,企业的运营环境逐渐转化为以数据库为中心。企业对数据的需求是多方面的(企业级、部门级、个人级),这样随着数据逐层提取就会形成一种“蜘蛛网”结构,使数据的访问相当复杂。数学科学学院周书锋72、蜘蛛网现象部门个人个人部门部门部门企业级数据库部门个人部门个人企业级数据库个人个人个人个人个人个人个人数学科学学院周书锋83、蜘蛛网问题特征n数据分析的结果缺乏可靠性n电信公司“市场部”和“计划部”对同一业务得出截然相反的结果。n数据处理的效率很低n错综复杂的体系结构中,不同级别的数据库可能使用不同类型的数据库系统。大型:Oracle、DB2;中型:MicrosoftSQLServer; 小型:Foxpro、MySQL。n难于将数据转化为信息n综合数据处理复杂分析程序1不同部门分析过程的差异企业级数据计划部外部市场信息A外部市场信息B外部市场信息C外部信息分析程序2数学科学学院周书锋分析结果2:业务A没有场前景9抽取数据的内容不同分析程序和分析内容不同分析结果1:业务A市场前景很好抽取数据的时间不同2001/03/05市场部2001/03/25数学科学学院周书锋10操作型和分析型系统分离n背景:nnnn目前,随着技术的发展和应用需求的不断提高,以及当前的市场形势促使企业必须保持旺盛活力。关键:适时掌握准确信息,利用这些信息作出正确决策。获取和利用信息的方式就是建立覆盖企业所有部门的企业综合信息系统。采用不同技术使得信息必须一致、准确数学科学学院周书锋11操作型处理和分析型处理n数据处理:nn操作型:以传统的数据库为中心进行企业的日常业务处理。如:电信计费系统,银行系统。分析型(信息型):以数据仓库为中心分析数据背后的关联和规律,为企业的决策提供可靠有效的依据。如:对超市近期数据分析发现畅销商品;对连锁店各个营业点不同时期营业情况的分析。n处理目标:nn操作型:操作员使用,实现企业的业务运营分析型:企业的中高层管理者或从事数据分析的工程师,为企业的决策者提供支持信息。数学科学学院周书锋12客户数据库计费数据库财务数据库操作型系统面向操作人员,解决业务运营问题,某个数据库只包含企业中的部分信息数据仓库系统面向管理人员,解决决策支持问题,数据仓库中包含企业中整体的宏观信息分析型数学科学学院周书锋13两种处理的区别分析型数据表示业务处理的静态情况(综合提炼)处理过去历史数据不可更新,只读型用户是综合的提炼的结论性数据操作需求事先并不知道,不知道下一步用户要做什么少数查询访问大量数据对性能要求宽松面向分析,支持管理需求用户需理解数据库得出结论操作型数据表示业务处理的动态情况(细节)存取瞬时数据可更新,由企业录入员录入处理业务细节问题操作需求事先可知,可按预计的工作量进行优化有许多事务,影响局部数据对性能要求高面向应用,支持日常操作用户只输入数据数学科学学院周书锋以数据库为中心数据库应用B应用C生产环境应用A数据库以数据仓库为中心应用A应用B应用C数据库分析应用A分析应用B分析应用C14生产环境数学科学学院周书锋15数据仓库定义n数据仓库定义:(数据仓库之父W.H.Inmon)nnDataWarehouse:是一个面向主题的、集成的、非易失的(稳定的)且随时间变化的数据集合,用来支持管理人员的决策。面向主题:指围绕企业的基本实体设计的;如:城市数据仓库,可考虑人口总数、人均工资水平等。但是,企业业务系统是以优化事务处理的方式来构造数据结构的,对于某个主题的数据常常分布在不同的业务数据库中。16收益数据客户数据市场数据客户服务数据库财务数据库面向主题的数据仓库数学科学学院周书锋市场信息数据库计费数据库现有业务系统数学科学学院周书锋17nnn数据集成:决策支持系统需要集成的数据。全面而正确的数据是有效分析和决策的首要前提,相关数据收集得越完整,得到的结果就越可靠。通过设计实现命名协议、关键字、关系、编码的一致等手段使数据库中的分散数据经过汇总、提炼而集成在一起;决策支持系统需要的不是静态的集成,而是动态的集成。数据仓库必须能够使集成数据以一定的周期进行刷新。数学科学学院周书锋18nnn非易失:数据不进行实时更新,数据经过复杂的提取过程后定期转入数据仓库。随时间按不同时段组织数据。数据仓库中的数据只能增加不能随意删除;可看成是一个“虚拟的只读型”数据库系统;数据仓库为了能在尽量短的时间内将数据呈现给使用人员,使用所谓的“空间换时间”技术,增加了数据的冗余度,从而减小系统的响应时间。数据仓库系统数据稳定性时间:3月24日客户号:1001费用(元):22019数据仓库中又增加一条记录数学科学学院周书锋业务运营系统客户号:1001费用(元):20023日数据提取记录号:XXX时间:3月23日客户号:1001费用(元):200客户号:1001费用(元):22024日数据提取记录号:XXX时间:3月23日客户号:1001费用(元):200记录号:XXX数学科学学院周书锋2001025324552t1t2t3t4t5t6数据仓库的快照集合业务系统的运营数据仓库数据随时间变化的特点数学科学学院周书锋21数据仓库定义(续)n数据仓库的开拓者SeanKelly认为数据是:nnnnnnn彼此分离可利用的综合的包含时间标记的面向主题的非易失的能访问的数学科学学院周书锋22数据仓库解决的问题n数据仓库技术可以解决事务处理相关的决策问题,具有动态集成和综合处理能力nnn解决“业绩下降10%”与“业绩上升15%”的问题解决企业环境中多数据源及数据不一致性问题充分而高效地利用企业积累的大量历史数据n数据仓库中主要存储历史数据和大量的汇总数据,因而基于历史数据的分析在数据仓库系统中则非常方便,且效率显著提高。n进行辅助决策分析n基于数据挖掘、数据抽取和决策支持数学科学学院周书锋23数据仓库体系结构n背景:nnn数据仓库技术是随着计算机技术的飞速发展而产生的;传统的数据库技术是单一的数据资源,即数据库为中心,进行事务处理、批处理到决策分析等;由于计算机和网络的应用,计算向两个方向拓展:nn广度计算:把计算机的应用范围尽量扩大,同时实现广泛的数据交流深度计算:对以往的大量简单数据操作,提出更高的要求,希望计算机能够更多地参与数据分析与决策地制定数学科学学院周书锋24数据仓库体系结构(续)n数据库和数据仓库应用的出发点不同,数据仓库将独立于业务数据系统,但是数据仓库又同业务数据库系统息息相关;不是简单地对数据进行存储,而是对数据进行“再组织”定期由业务数据库综合、提炼后转入到数据仓库,为后期分析做准备。数据挖掘系统/数据展现系统数据仓库存储数据市场数据数据数据市场数据市场数据市场企业外部数据提取仓库25数据清洗/转换数据提取业务操作型系统数学科学学院周书锋关系数据库数据文件其他数据数据仓库管理工具抽取、转换装载元数据数据建模工具综合数据当前数据历史数据用户查询工具C/S工具OLAP工具DM工具数据源仓库管理 数据仓库数学科学学院周书锋分析工具26数据仓库系统结构数学科学学院周书锋27数据集市nnn数据仓库是企业级的,能为整个企业各个部门的运行提供决策支持手段;数据集市:则是部门级的,一般只能为某个局部范围内的管理人员服务,因此也称为部门级数据仓库(DepartmentDataWarehouse)两种数据集市nn从属数据集市:数据直接来源于数据仓库独立数据集市:数据直接来源于各生产系统数学科学学院周书锋28数据集市结构数据源数据仓库从属数据集市数据分析数据源独立数据集市数据分析数学科学学院周书锋29数据仓库软件工具集n包括两类分析工具n查询工具nn可视化工具:以图形化方式展示数据,帮助了解数据的结构、关系以及动态性;多维分析工具(OLAP):通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,方便用户对数据进行深入的分析和观察;n挖掘工具n从大量数据中挖掘具有规律性的知识,常采用数据挖掘(DM)工具;数学科学学院周书锋30体系结构的稳定性n稳定性nnn体系结构的本质特性是稳定性,但需求是流动;任何体系结构,不管多么坚固和灵活,总有有限的扩展;体系结构应提供一个灵活的平台,在高度连贯而松散结合的框架下包容许多可能性,才能避免冲击,在发展的环境中持续提供服务;数学科学学院周书锋31维数据结构n数据仓库侧重于维间数据结构的区分;nnnnn时间维地点维客户维产品维事实维数学科学学院周书锋32数据仓库体系结构的基本特点nn数据仓库中存储的信息越有价值,保密就越重要。为了采取防范措施,通常在网络层和后端数据仓库中,采用对工作组授权的方法,以防范有意的或偶然的攻击和破坏体系结构必须是灵活的,它必须能适应不断变化的商业规则和环境,允许对其进行有效的修改、指导和管理,所以数据仓库必须是可移植的。数学科学学院周书锋33基本特点(续)n特点:nnnnn安全性、健壮性、可移植性和灵活性:开放性:使用公开的标准,独立于某个主导企业,或在主要的技术设计上代表实事标准,应用程序接口通过更改控制来发布和修改一致性:单独的组件有定义良好的接口,不受其他组件实现的改变的影响可维护性:通过对由于环境的变化而改变或磨损的特性进行常规检查,系统的生命周期可以延长可扩展性:系统组件可用于新的不可预见的环境数学科学学院周书锋34基本特点(续)nnnn工具化:系统有内置传感器或数据收集设备这样,如果出现问题,无需大量工作就可以诊断;可重用性:组件定义良好,可以进行配置管理;连通性:信息和功能可以通过预定义的接口、路径和系统其他地方的连接,包括跨分布式节点的连接得到;可缩放性:当增加系统组件处理增大的数据量、用户和处理需求时,系统性能提高,并呈线性或近似线性增长;数学科学学院周书锋35数据仓库的运行结构n数据仓库应用是一个典型的客户/服务器(C/S)结构。nnn服务器端:对外提供服务,主要有各种辅助决策的SQL查询、复杂的计算和各类综合功能等;客户端主要做:客户交互、格式化查询、结果显示和报表生成等;注:随着网络的广泛应用提出了三层C/S结构,即在客户与数据仓库服务器之间增加一个多维数据分析(OLAP)服务器;数学科学学院周书锋36数据仓库应用的三层C/S结构OLAP如SASMDDB数据仓库BOIBMOLAPServerCognos、WebEIS数学科学学院周书锋37一个现实的问题nnn企业的数据仓库建设不是一蹴而就,其基础和必须进行的工作是数据的不断积累与重组。一旦历史数据达到一定规模,就会自然推动企业引进新的信息技术,采取新的解决方案;使数据或信息资源更有效地为企业服务;数据仓库并不是数据的简单堆积,而是合理地提出适合企业数据仓库的解决方案数据仓库技术不仅是技术问题,更是管理问题。数学科学学院周书锋38数据仓库的应用前景n以数据仓库为基础的商业智能系统强大的功能在实际应用中能带来高利润的回报,所以在证卷业、银行领域、税务领域、控制金融风险、保险、客户管理等领域有广泛应用:数学科学学院周书锋391.客户服务及营销方面的应用n客户关系管理(CustomerRelationManagement,CRM)nnnnnnn客户概况分析(Profiling)层次、爱好、习惯客户忠诚度分析(Persistency)忠诚、持久性客户利润分析(Profitability)边缘、总体和净客户性能分析(Performance)不同客户所消费的产品按种类、渠道、销售点等划分销售额等客户未来分析(Prospecting)争取客户客户产品分析(Product)产品设计、供应链等客户促销分析(Promotion)广告、宣传等数学科学学院周书锋402.银行领域的应用n如何防范银行的经营风险、实现科学管理以及进行决策是金融研究的一个重要课题nn银行决策支持系统是建立在银行管理信息系统基础上的、以银行数据库和数据仓库为基础,包括各种辅助制定货币政策、开拓金融业务等的模型库、方法库和知识库。中国银行广东省分行开发的中国银行省市两级金融管理信息系统,工程组织和总体方案设计上采用数据仓库及联机分析处理。主要:财务分析、业务管理、动态报表和金融资讯等。1997年22家数学科学学院周书锋413.保险业的应用n如何满足保险业日益增长的各种查询、统计、报表以及分析的需求;如何提高防范和化解经营风险的能力;如何有效利用这些数据实现经营目标,预测发展趋势;甚至如何来设计企业的发展宏图等是保险业决策支持系统需要解决的问题;n2000年6月菲奈特公司与深圳华安保险公司合作开发财产险主业务系统(SPS)和保险决策支持系统(IDSS)。有联机分析和数据挖掘等数学科学学院周书锋42本章小结nnnnn现代信息处理向两个方向发展:广度计算和深度计算;企业面对两类数据:操作型数据和分析型数据;数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合;数据仓库技术主要面对决策支持问题,具有动态集成和综合处理能力;数据仓库建模是将操作型数据转换为分析型数据的过程;数学科学学院周书锋43梦想下周见
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号