资源预览内容
第1页 / 共43页
第2页 / 共43页
第3页 / 共43页
第4页 / 共43页
第5页 / 共43页
第6页 / 共43页
第7页 / 共43页
第8页 / 共43页
第9页 / 共43页
第10页 / 共43页
亲,该文档总共43页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
学学 号号 :10720938:10720938 姓姓 名名 : :赵海红赵海红提纲提纲u数据仓库的实质与价值u数据仓库新的应用与环境u数据仓库的模型与设计方法u传统的数据仓库体系结构及其改进u数据仓库的操作问题u展望提纲提纲u数据仓库的实质与价值数据仓库的实质与价值u数据仓库新的应用与环境u数据仓库的模型与设计方法u传统的数据仓库结构及其改进u数据仓库的操作问题u展望数据仓库的实质与价值数据仓库的实质与价值数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision-Support)。其实数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用,这也是为什么叫“仓库”,而不叫“工厂”的原因。因此数据仓库的基本架构主要包含的是数据流入流出的过程,可以分为三层源数据源数据、数据仓库数据仓库、数据应用数据应用:数据仓库的实质与价值数据仓库的实质与价值从图中可以看出数据仓库的数据来源于不同的源数据,并提供多样的数据应用,数据自下而上流入数据仓库后向上层开放应用,而数据仓库只是中间集成化数据管理的一个平台。数据仓库从各数据源获取数据及在数据仓库内的数据转换和流动都可以认为是ETL(抽取Extra, 转化Transfer, 装载Load)的过程,ETL是数据仓库的流水线,也可以认为是数据仓库的血液,它维系着数据仓库中数据的新陈代谢,而数据仓库日常的管理和维护工作的大部分精力就是保持ETL的正常和稳定。数据仓库的价值数据仓库的价值高效的数据组织形式时间价值集成价值历史数据提纲提纲u数据仓库的实质与价值u数据仓库新的应用与环境数据仓库新的应用与环境u数据仓库的模型与设计方法u传统的数据仓库结构及其改进u数据仓库的操作问题u展望数据仓库新的应用领域数据仓库新的应用领域 随着数据仓库的技术的发展和普及,将来可能在以下俩方面提出新的发展瓶颈和挑战:p首先,是对新数据类型的出现,提出新的数据仓库技术对其支持p非传统的系统架构和新的需求,在数据仓库技术中可以找到好的解决办法空间数据仓库空间数据仓库随着移动互联网和基于位置服务的发展,同时卫星遥感,GPS,医药成像以及其他空间可计算工具获得数据的普及,我们获取了大量的关于时空的数据。但是,这些数据的结构复杂,数据量大的特点,对其处理和分析的技术还有一定的欠缺,近年来,提出了空间数据仓库的概念,现在已经存在了几个大型的空间数据仓库。例如美国的联合国环境规划署(EP)空间数据仓库空间数据仓库 空间数据仓库是融合了数据仓库跟空间数据库技术,利用这两种技术提高了对大量空间数据的处理、分析、管理的能力,但是现在还是存在一下几种挑战:1.空间数据粒度的划分2.空 间数据的分割3.空间数据的集成4.当前数据仓库的数据模型标准化推广5.空间DW对决策系统的支持6.对空间DW的多维度表示Web数据仓库数据仓库Web数据仓库数据仓库本体数据仓库本体数据仓库本体数据仓库本体数据仓库其他领域数据仓库其他领域数据仓库生命科学数据仓库模式数据仓库数据仓库新的应用环境数据仓库新的应用环境业务流程数据仓库数据流,实时动态数据仓库数据仓库与云计算提纲提纲u数据仓库的实质与价值u数据仓库新的应用与环境u数据仓库的模型与设计方法数据仓库的模型与设计方法u传统的数据仓库结构及其改进u数据仓库的操作问题u新的挑战数据仓库模型与设计方法数据仓库模型与设计方法数据仓库建立模型的过程实际上是一个从关系型、规范式的数据模型向多维模型转换的过程。其中数据仓库建模和数据仓库开发方法是数据仓库的构建过程中最为关键的技术环节,它直接决定数据仓库构建的成败。数据仓库建模数据仓库建模概念建模 概念建模为数据仓库的设计提供了一个高层次的抽象,从各个方面描述了数据仓库的过程和体系结构,从而完成数据仓库的实施。通常,借助于图形表示法能让设计者和商业用户更方便的对概念模式进行表达、理解和管理。现有的方法可以分为三类:扩展ER模型;扩展UML模型;特殊的模型。当前概念模型存在的问题有以下:缺乏标准概念模型安全问题Mining-aware design逻辑建模逻辑建模 逻辑建模逻辑建模的总体任务是将概念模型转换成逻辑模型。在数据仓库领域,目标数据库系统通常要么是关系型的,要么是多维的。对于关系型的而言,人们普遍采用所谓的星型、星座和雪花模型来处理数据立方体,并且各个厂商也对这些模型提供支持。关于多维模型的实施,人们提出几种有效的多维数据结构,如浓缩数据立方体来管理数据立方体。当前逻辑模型最大的存在问题:概念数据模型与关系或者数据立方多维实现的语义差别的问题物理建模物理建模 物理建模 根据逻辑模型设计阶段的星型模型或雪花模型能够方便地定义物理数据结构,一般将指标实体转化为物理数据库表,称为事实表。事实表首先包括星型模型中心的指标量,其次应包括星型模型角上的维度实体中层次最低单位的主码。维度实体通常也转化为维数据库表,称为维表,它包括其每一层次的主码和对应的值。维表的关键字是该维度实体对应的详细类别实体的主码。维表和事实表通过维表关键字相关联。概念模型概念模型 (1) 界定系统的边界 (2) 确定主要的主题域概念模型概念模型学年学期维 课程信息维 概念模型概念模型学生信息维 教师信息维 概念模型概念模型逻辑模型逻辑模型物理模型物理模型数据仓库开发方法数据仓库开发方法2)数据仓库开发方法数据仓库的设计和创建是一个分布实施的连贯过程,在确定用户需求的基础上,完成数据仓库的设计和建立、提取和加载,最后进行长期的使用和维护。从系统的角度看,数据仓库的建立首先必须明确其设计方法,针对解决问题的短期性或长效性,将数据仓库设计方法分为以下3种:自顶向下的方法、自底向上的方法、联合方法,当前的方法都还存在以下问题:首先是需求分析评估质量指标的问题互操作与元数据互操作与元数据在物理模型和逻辑模型中的混杂性,同时在市场中存在的多种工具和软件产品,这就会产生大量的多种多样的元数据,在我们把一种元数据转换成另一种元数据的时候,就会损失掉大量的信息。所以在数据仓库中就需要这样的一种标准转换,当前工业界有两种标准:开放信息模型和元数据结合。但是这两种模型都有大量的缺陷提纲提纲u数据仓库的实质与价值u数据仓库新的应用与环境u数据仓库的模型与设计方法u传统的数据仓库结构及其改进传统的数据仓库结构及其改进u数据仓库的操作问题u新的挑战数据仓库的体系结构数据仓库的体系结构首先,要有更好的方法获得用户想要的数据并且把他们智能化其次,既要能分析标准化的数据,也要能分析非标准化的数据再次,提高数据的安全性和有效性传统的体系结构传统的体系结构传统的体系结构传统的体系结构参考体系结构参考体系结构提纲提纲u数据仓库的实质与价值u数据仓库新的应用与环境u数据仓库的模型与设计方法u传统的数据仓库结构及其改进u数据仓库的操作问题数据仓库的操作问题u展望数据仓库操作的问题数据仓库操作的问题OLAP标准化的问题Approximate answers.(近似解答)What-if analysis.(假设分析)Holistic aggregation(整理聚合)提纲提纲u数据仓库的实质与价值u数据仓库新的应用与环境u数据仓库的模型与设计方法u传统的数据仓库结构及其改进u数据仓库的操作问题u展望展望接下来要做的工作接下来要做的工作 现状:现状:现状:现状:数据仓库的概念已经被国内用户接受多年,但数据仓库的概念已经被国内用户接受多年,但数据仓库的概念已经被国内用户接受多年,但数据仓库的概念已经被国内用户接受多年,但在应用方面的收效仍很有限。在应用方面的收效仍很有限。在应用方面的收效仍很有限。在应用方面的收效仍很有限。 原因:原因:原因:原因: 尚不存在可靠的、完善的、被广泛接受的数据仓库标准;尚不存在可靠的、完善的、被广泛接受的数据仓库标准;尚不存在可靠的、完善的、被广泛接受的数据仓库标准;尚不存在可靠的、完善的、被广泛接受的数据仓库标准; 现有的数据库系统不健全,数据积累还不够,无法提出决策现有的数据库系统不健全,数据积累还不够,无法提出决策现有的数据库系统不健全,数据积累还不够,无法提出决策现有的数据库系统不健全,数据积累还不够,无法提出决策支持需求;支持需求;支持需求;支持需求; 缺乏能够担负规划、设计、构建和维护数据仓库的重任的复缺乏能够担负规划、设计、构建和维护数据仓库的重任的复缺乏能够担负规划、设计、构建和维护数据仓库的重任的复缺乏能够担负规划、设计、构建和维护数据仓库的重任的复合型人才;合型人才;合型人才;合型人才; 缺乏数据仓库前端工具(如缺乏数据仓库前端工具(如缺乏数据仓库前端工具(如缺乏数据仓库前端工具(如OLAPOLAP工具、数据挖掘工具等);工具、数据挖掘工具等);工具、数据挖掘工具等);工具、数据挖掘工具等); 由于国内外文化的差异,一些用于构建数据仓库的知名产品由于国内外文化的差异,一些用于构建数据仓库的知名产品由于国内外文化的差异,一些用于构建数据仓库的知名产品由于国内外文化的差异,一些用于构建数据仓库的知名产品无法处理一些难以预料的问题,使得建立数据仓库的困难加无法处理一些难以预料的问题,使得建立数据仓库的困难加无法处理一些难以预料的问题,使得建立数据仓库的困难加无法处理一些难以预料的问题,使得建立数据仓库的困难加大。大。大。大。前景:前景:前景:前景:随着计算机技术的发展,尤其是分布式随着计算机技术的发展,尤其是分布式随着计算机技术的发展,尤其是分布式随着计算机技术的发展,尤其是分布式技术的发展,技术的发展,技术的发展,技术的发展, 数据仓库在我国有着广阔的发展数据仓库在我国有着广阔的发展数据仓库在我国有着广阔的发展数据仓库在我国有着广阔的发展空间和良好的发展前景。空间和良好的发展前景。空间和良好的发展前景。空间和良好的发展前景。例如:例如:例如:例如: 由于银行商业化的步伐正在加大,开始重新考虑自身的业务,由于银行商业化的步伐正在加大,开始重新考虑自身的业务,由于银行商业化的步伐正在加大,开始重新考虑自身的业务,由于银行商业化的步伐正在加大,开始重新考虑自身的业务,特别是信贷风险管理方面特别注意,因而特别是信贷风险管理方面特别注意,因而特别是信贷风险管理方面特别注意,因而特别是信贷风险管理方面特别注意,因而有关信贷风险管理和有关信贷风险管理和有关信贷风险管理和有关信贷风险管理和风险规章风险规章风险规章风险规章的基于数据仓库的决策支持系统的需求逐渐增多;的基于数据仓库的决策支持系统的需求逐渐增多;的基于数据仓库的决策支持系统的需求逐渐增多;的基于数据仓库的决策支持系统的需求逐渐增多; 由于由于由于由于电子商务电子商务电子商务电子商务的迅速发展,越来越多的电子商务网站,开始考的迅速发展,越来越多的电子商务网站,开始考的迅速发展,越来越多的电子商务网站,开始考的迅速发展,越来越多的电子商务网站,开始考虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,虑如何将数据仓库应用于商品销售分析、顾客的诚信度分析等,为客户提供更进一步的个性化服务;为客户提供更进一步的个性化服务;为客户提供更进一步的个性化服务;为客户提供更进一步的个性化服务; 如如如如移动通信移动通信移动通信移动通信等各大型企业也开始考虑着手进行决策支持以及数等各大型企业也开始考虑着手进行决策支持以及数等各大型企业也开始考虑着手进行决策支持以及数等各大型企业也开始考虑着手进行决策支持以及数据仓库规划。据仓库规划。据仓库规划。据仓库规划。参考文献参考文献1.Joachim Hammer,Manifesto of a Markus Schneider , Timos Perspectives Seminar,Data Warehousing at the Crossroads .Dagstuhl,一2004.2.The Model of Data War ehouse Based on OntologyCHEN Zhi-gang, LUO Xin-nan3.Research in Data Warehouse Modeling an Design: Dead or Alive?4.张维明.数据仓库原理与应用 M .北京: 北京电子工业出版社,2002:5- 7.5.陈超, 沙基昌, 罗爱民, 等.一种基于本体的数据仓库开发模型 J .计算机仿真, 2005 ( 2) :255- 258.謝謝聆聽,請多多指教。謝謝聆聽,請多多指教。
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号