资源预览内容
第1页 / 共81页
第2页 / 共81页
第3页 / 共81页
第4页 / 共81页
第5页 / 共81页
第6页 / 共81页
第7页 / 共81页
第8页 / 共81页
第9页 / 共81页
第10页 / 共81页
亲,该文档总共81页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
上海交通大学 硕士学位论文 对提高企业级数据仓库数据即时性的研究 姓名:黄帆 申请学位级别:硕士 专业:软件工程 指导教师:陈昊鹏;方建安 20091229 对提高企业级数据仓库数据即时性的研究 V 对提高企业级数据仓库数据即时性的研究 对提高企业级数据仓库数据即时性的研究 摘 要 摘 要 随着计算机技术和信息技术的飞速发展,电子信息数据在企业的日常运营中越来越重 要,企业迫切需要高效、精确、及时地分析数据。传统数据仓库的数据加载周期较长,往 往只能提供对历史数据的分析与查询,不能实时地反应企业商业信息变。实时数据仓库作 为传统数据仓库的扩展,有效地缩短了信息延时,为企业提供了更有价值的战术型决策支 持。数据仓库建模,ETL 实现,前端查询是实现整个数据仓库的关键环节,要在数据仓库 系统中,提高实现实时性,数据建模,设计相应的 ETL 数据抽取方案。 本文在全面分析实时数据仓库的研究现状和数据仓库技术的基础上,给出了实时数据 仓库的体系结构,并且讨论了实时数据仓库的应用。本文通过对企业级数据仓库的架构研 究和提出改进的架构开始,通过对实时数据仓库的关键技术,重点分析了实时的实现难点 :针对与企业级数据仓库结构体系中存在的结构单一性导致的开发和性能的问题提出一个 较合理的改进方案;针对企业级数据仓库数据模型中的设计步骤和技术提出一些优化性能 的方案,包括数据聚簇的使用、针对数据仓库特殊模型的表划分设计、数据模型的约束一 致性的设计和数据仓库中数据库索引的优化设计;针对于传统数据仓库中的 ETL 中的变更 数据捕获和汇总数据更新的运行效率较低导致的数据仓库数据不即时性问题,提出企业级 数据仓库的 ETL 的优化设计方案。 通过针对这些问题的分析、研究和解决过程,本文提出了企业级数据仓库的基本架构 方案来解决企业级数据仓库架构的可拓展性和节约开发的成本;通过对企业级数据仓库的 数据模型技术的研究提出一套数据仓库建模的优化方案从数据模型上来优化数据仓库的被 访问实时性能;通过对 ETL 技术的改进和数据库相关技术的分析提出了基于数据库复制技 术的变更数据捕获方案和基于 ODS 实时分区的汇总数据更新解决方案来从数据抽取、捕捉 和转换的过程中缩短时间窗口来减少 ETL 时间窗口在整个数据仓库的占用时间,并详细阐 对提高企业级数据仓库数据即时性的研究 VI 述了设计过程及实现。最后以汽车行业“EDS 实时数据仓库”项目为背景,实现了所提出 的实时的企业级数据仓库解决方案,结果证明了方案的合理性与有效性。 关键词 数据仓库,ODS 建模,聚簇索引,实时数据仓库,ETL,变更数据捕获,汇总数 据更新。 对提高企业级数据仓库数据即时性的研究 VII THE RESEARCH OVER IMPROVING DATA TIMELINESS OF ENTERPRISE DATA WAREHOUSE ABSTRACT Because of the rapid development of computer science, the electronic information data has become more and more important in the daily management of the enterprises. Effective, accurate and timely data analysis has become an imperative demand of the enterprises. Because traditional data warehouse has quite long loading cycle, and only supports analysis and queries over history data, thus lacks the capability of displaying the real-time change business information. The Real- Time data warehouse extends the applications of traditional data warehouse. The real-time data warehouse can effectively shorten the time-delay, and thereby can provide more valuable tactical support to the decision making of the enterprises. Data Modeling, ETL and front-end queries are the key segments for realizing the overall Data Warehouse infrastructure. Its become more sophisticated and imminent to implement real time in Data Warehouse. Therefore, the investigation towards real time solution is very important. The paper firstly introduces the background of the technology and current status of the data warehouse system, through the contrast between the real-time data warehouse and traditional data warehouse. A series of countermeasures to realize the real-time data warehouse were given. Then according to the real-time data warehouse structure, this paper discussed the central issues about DW architecture, DW modeling, data-change capture, aggregate data update, and advanced new solutions like adopting data replication, and real-time segment. In the meantime, the design and implementation of solutions were discussed in detail. 对提高企业级数据仓库数据即时性的研究 VIII After analyzing and discussing, this paper introduces new features and solutions, which run through the overall life cycle of data warehouse project, including the architecture, design and implementation based on EDS BASIC project. The solutions are proved to be reasonable and effective by the data warehouse test result. Keywords Data warehouse, Real-time data warehouse, ETL, Changed Data Capture, Aggregate Data Update, Clustered Index, ODS. 对提高企业级数据仓库数据即时性的研究 III 上海交通大学上海交通大学 学位论文原创性声明学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进 行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包 含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做 出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识 到本声明的法律结果由本人承担。 学位论文作者签名: 日期:2009 年 12 月 29 日 对提高企业级数据仓库数据即时性的研究 IV 上海交通大学上海交通大学 学位论文版权使用授权书学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意 学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论 文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部 分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手 段保存和汇编本学位论文。 保密保密,在 年解密后适用本授权书。 本学位论文属于 不保密 不保密。 (请在以上方框内打“”) 学位论文作者签名: 指导教师签名: 日期: 2009 年 12 月 29 日 日期: 2009 年 12 月 29 日 对提高企业级数据仓库数据即时性的研究 1 1 1 绪论 绪论 随着国际国内市场竞争的日益加剧,企业为了在激烈的市场竞争中求得生存和发展, 为了把握稍纵即逝的商机,就必须在决策支持方面努力。面临竞争的全球化发展,企业也 面临巨大的压力,它们采用各种先进技术来提高自己的竞争能力。在激烈的市场竞争中, 信息对于企业的生存和发展发挥着越来越重要的作用 1。 由于计算机技术的普及应用,承载信息的数据随着时间的推移而不断增长。能否从纷 繁复杂、大量沉淀的数据环境中得到有用的决策信息,及时做出正确的分析与决策,已成 为企业生存与发展至关重要的环节。自从 20 世纪 70 年代提出决策支持的概念以来,人们 在决策支持 (Decision Support System, DSS) 理论及应用上做了大量的研究工作,并在企业 决策中发挥了积极的作用 2。随着企业数据量的不断增加,需要对原有的信息进行提炼和 加工,需要为企业领导提供集成化和历史化的数据,需要为企业全局的战略决策和长期趋 势分析提供更有效的支持 3。 数据仓库概念始于上世纪 80 年代中期,首次出现是“数据仓库之父”William. Inman 的建立数据仓库一书中,“数据仓库是在企业管理和决策中面向主题、集成的、与时 间相关的、可修改的数据集合”,数据仓库与传统数据库不同,它不是业务系统的基础, 而是专门面向分析型环境,是整个企业和组织的数据中心、信息中心,为企业决策提供信 息支持。传统的数据仓库主要是面向企业的高端决策层的,为企业提供一些战略上的决策 支。传统的数据仓库收集、清理和集成组织内的数据,这些数据用来产生报表和查询,以 支持决策的制定。 新经济环境下,企业有着新的客户期望值、客户关系和发展机会,这就需要主动的决 策支持能力,而不是被动的。今天的数据仓库环境下的数据正在发生演变。数据仓库负担 着客户关系管理、一对一营销、及时制定决策等工作,具备控制和影响市场的能力。未来 的趋势里,数据仓库会更好的向支持企业的运营方向发展,为企业提供战术性决策支持。 随着组织对数据仓库的熟悉,数据仓库支持预测分析的能力越来越好的被用来驱动商业决 策。从分析市场将要发生什么变化,到分析市场正在发生什么变化,再到基于事件触发, 对提高企业级数据仓库数据即时性的研究 2 最终控制市场朝着自己想要的方向发展。顺应这一发展趋势,业界提出了实时数据仓库 (Real-Time Data Warehouse, RTDW)理论。实时数据仓库这一在传统数据仓库上发展起 来的新数据仓库体系架构也得到了广泛认可 4。 (1) 国内外现状 近来,数据仓库的发展有几个趋势:一个重要的技术趋势
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号