资源预览内容
第1页 / 共3页
第2页 / 共3页
第3页 / 共3页
亲,该文档总共3页全部预览完了,如果喜欢就下载吧!
资源描述
计算机科学2 0 0 2 V 0 1 2 9 N 2 8 ( 增刊)数据仓库E T L 过程支撑框架研究R e s e a r c hO fE T LS y s t e mA r c h i t e c t u r ef o rD a t aW a r e h o u s e张卫华方幼林杨冬青唐世渭余立波付强( 北京大学计算机科学与技术系北京1 0 0 8 7 1 )( 北京大学视觉与听觉处理国家重点实验室北京1 0 0 8 7 1 )A b s t r a c tB u i l d i n gw a r e h o u s ed a t aE T Ls y s t e m si so n eo ft h em o s ti m p o r t a n ta n dc r i t i c a lp h a s e so fw a r e h o u s ec o n s t r u c t i o n T h e r ew i l lb ev a r i o u so fp r o c e s s e si n c l u d i n gc l e a n i n g ,t r a n s f o r m a t i o na n dv o l u m ed a t am o v e m e n t T h et r a d i t i o n a lt o o l so fd a t a b a s ef o rd a t at r a n s l a t i n gc a n tf u l f i lt h er e q u e s tO fd a t aE T L S ow em u s tu s em a n yo f f t h e - s h e l ft o o l sa n dc u s t o mp r o g r a m st od oi t B u ti ti sd i f f i c u hf o rU St Om a n a g et h et o o l s I nt h i sa r t i c l ew ep r o v i d ead a t aw a r e h o u s e ( D W ) t r a n s l a t i n gs y s t e ma r c h i t e c t u r e U s i n gt h ef r a m e w o r ka n dd i s c i p l i n e so ft h i sa p p r o a c h ,c u s t o m e r sc a nm a n a g et h ep a c k a g e dt o o l sa n dc u s t o m i z e dm o d u l e sc o n f i d e n t l y T h i ss y s t e mc a ne n s u r em a x i m u mf l e x i b i l i t y ,c o n s i s t e n c ya n ds i m p l e rm a n a g e m e n ta n dw o u l db ec o n f i d e n tf o rt h er e s u m p t i o no fi n t e r r u p t e dw a r e h o u s el o a d s K e y w o r d sE T Lt o o l s ,D a t aw a r e h o u s e ,S y s t e ma r c h i t e c u t r e1引言2 数据迁移工具存在的问题随着企业信息化建设的发展,将会有越来越多的企业实施数据仓库工程。而在数据仓库建设过程中,数据建设的成功与否直接决定着数据仓库的应 用质量。有效的数据提取、转换和加载( E T L ) 过程是数据仓库数据质量得以保证的前提。数据仓库工程 的主要技术难点就集中在数据的有效提取、转换和加载这一过程中。根据D B R e v i e w 的数据资料报告,在典型的数据仓库工程中,E T L 过程大约要占据数据仓库建设和维护总体时间的7 0 。E T L 工具提供了有效快速的数据抽取、转换和加载处理,使用户易于维护和管理数据更新处理。E T L 过程不仅负责移动数据到数据仓库,而且还要负责物理激活仓库数据模型、依据商业处理模型维护数据完整性、满足用户潜在的需求以及与仓库元数据模型集成。数据仓库初始实现及其持续的操作生命力最关键的技术成功因素是数据仓库E T L 过程的成功。本文系统首先分析了当前数据仓库建设过程中 数据迁移遇到的困难,在此基础上,提出了一种解决专用数据抽取、转换、加载( E T L ) 工具和实现程序集成的支撑框架。应用该E T L 支撑框架,可以极大地方便用户对E T L 工具的使用和管理,并有利于数据加载故障恢复的实现,提高效率。* ) 本课题属于国家9 7 3 项目项目编号:G 1 9 9 9 6 3 2 7 0 5 8 2 1 ) 数据仓库所涉及到的数椐迁移种类繁多,形式复杂。传统数据库提供的数据迁移功能不足,不能全面满足对数据抽取和转换功能的要求。传统的关系型数据库管理系统支持一般的数据抽取、数据复制和一定程度上的数据重新组织、聚集( a g g r e g a t i o n ) 和汇总,但是,如果数据源之间的数据 存在逻辑上的不一致,需要进行额外的重新组织和转换加工,那么,传统数据库所提供的功能可能就力不从心了。因此,只有当数据源中的数据完全正确可靠、组织合理、没有任何的不一致性时,才能直接采用传统关系型数据库管理系统中的数据复制功能来进行数据抽取工作。然而,在工程实践中,源数据组织不合理、包含冗余数据、数据在逻辑上冲突、数据定义冲突等问题十分常见,因此,数据仓库体系结构设计人员可以根据具体的需求,选择合适的数据抽取和转换工具,与数据库管理系统相互配合,全面实施数据抽取和转换。 2 ) 针对某一特定类型的数据的抽取、转换、加载的E T L 专用工具太多,对用户的使用和管理造成极大不便。因为数据抽取、转换、加载的过程很多,需要做的处理也纷繁复杂。其中数据抽取过程中要完成多个数据源模式转换、文本文件处理、特殊格式文件处理等问题;在数据转换过程中要完成数据类型转换、日期B e 间格式的转换、字段解码、离散化、有效值、复杂的重新格式化、通用标识符问题、目标元素的多 个来源冲突问题、衍生数据计算数据问题;在数据加载阶段要分别处理完全加载、增量加载、定制加载 问题。此外,针对数据仓库的海量数据特性,在加载时还要考虑故障恢复,因此若没有一个构造良好、易于分段管理的体系结构,想很好进行数据抽取、转换 和加载是不可想象的。E T L 过程支撑框架模型目前多数数据仓库专家倡导的多层企业级D W体系结构中通常只有一个数据迁移系统负责从操作 型和分类的数据源整理合并数据。而实际上这种数据迁移系统可能由许多工具、产品和定制的程序组成。如果这种工具的组合和集成要被视作是一个逻辑整体,并作为一个逻辑整体来管理,就需要一定的集成方法和更深入的精细体系结构,作为E T L 工具、产品和定制程序的集成平台。本文所要讨论的支撑框架就是要实现这种平台。由于绝大部分的数据仓库都需要1 0 个以上的数可视化设计善元数据仓库据源提供数据,目前有些工具可以集成多个数据源,但还没有一种能处理全部的数据类型,并满足全部的数据转换要求。因此,勿庸置疑,我们应该将使用 多个工具和定制的方法,并且把它们组织成一个共同的集成解决方法。考虑到数据仓库技术发展日新月异,我们提出的E T L 过程支撑框架采用层次支持的开放式软件结构,如图1 所示。这种结构支持多领域用户对该框 架的不同需求,分别为应用者、开发者、系统者三类用户提供了不同层次的使用环境。1 ) 应用层:结合一些常用的数据源抽取和转换格式,平台为用户预先定义好相应的工具,主要针对一些简单地数据迁移。 2 ) 可视化设计层:用户按照数据迁移的要求,采用可视化的方法为特定的数据迁移设计出复杂的迁移方式。通过可视化设计器和元数据仓库以及E T L引擎的交互作用来达到用户的目的。3 ) 新增模块接口:用户利用平台提供的专用工具接口,可以将开发出的适合自己需求的标准数据迁移模块很好地嵌入到E T L 框架中,从而在应用层 直接被用户所调用。图1D W 数据迁移系统的参照模型E T L 引擎卜磊爵面 墙结束图2E T L 过程支撑框架体系结构数据流程在我们的数据仓库和数据迁移系统教程中的最开始的体系结构如图1 所示。这是一个传统抽取、转换和加载体系结构的简单表示。主要体系结构组件之间采用通用文件格式。将数据保存为标准通用的格式可确保最大限度的重用现存工具和实用程序。该支撑框架提供了这样一个体系结构,以保证最大限度地功能重用和管理性。它主要包括E T L 引擎、可视化设计器、模块构造器和元数据管理四个部分。其中模块构造器主要针对数据迁移工具开发人员,其他三个部分主要面向数据库数据抽取、转换和加载的操作人员。下面我们将分别介绍这些部分的结构和功能。4E T L 服务引擎的设计有了功能强大的工具管理模块,还必须将数据8 3 流程精细地规范好,E T L 引擎将解决这部分问题,程详细地划分为9 个步骤:为了更好的管理,我们将数据的抽取、转换和加载过图3 数据迁移系统一数据处理流程逻辑结构第一层是提取,负责有效地不中断地从数据源文件或数据库中读取数据。这个提取层常常使用专有的厂商提供的工具或程序实现;预格式化层负责将专有提取的数据转换成标准的通用文件格式;过滤层负责过滤掉不想要的和无效的数据;而智能合并则处理多对一源到目标的映射。变化检测层负责检测变化的数据并删除没有变化的记录。清洗层处理数据清洗任务包括洗刷、格式化变化和逆向工程。转换层是数据迁移系统的主干,负责数据导出和转换。它是源一目标映射实现的层次。数据整理层将转换后的数据进行整理并创建加载输入,被任何工具和程序所使用,由加载层有效快速地将整理好的数据加载到数据仓库中。这种数据抽取、转换和加载的处理逻辑结构也非常有利于数据加载发生故障时,更完整、全面、快速地恢复数据加载工作。5 可视化设计器本模块在用户和E T L 系统之间通信,允许用户和系统交互,通过可视化的编辑环境和开放式的接口让用户指定数据迁移的数据来源、所需的各种转换和清洗过程等,该模块集成的工具还根据用户的定义,建立有关元数据。元数据存储在元数据知识库中,描述了源数据的格式、目标数据的格式以及如何把源数据转换成目标数据。此工具还提供某种程序脚本语言的描述工具,让数据仓库管理员定义高级的转换过程。6 元数据管理元数据是“有关数据”的数据,它的功能非常强大,也是平台所有操作得以正常工作的基础。有关数据抽取、各种数据转换、加载的定义数据以及相应的触发器定义等等都保存在这里,因此,元数据管理部分是极其重要的部分,包括元数据的收集和维护策略以及方便地查询。该子系统提供规范的元数据定义格式,灵活性方便的查询功能,并通过用户管理保证元数据的安8 4 全性,通过这部分,不但可以提高了开发的效率。为负责创建和维护决策支持系统的技术人员创造了一个更加高效率的开发环境;另一方面,商业元数据给商业用户提供了一个良好的决策支持环境,从而使商业用户更好地理解数据仓库中的信息,更好地利用数据仓库。如何及时地将元数据收集到元数据仓库中也是成功实施元数据驱动的数据仓库的基础,为保证准确性和完备性,我们尽量采用自动方式进行收集,并自动感知相应元数据的变化,在元数据仓库中及时更新。为了很好地利用元数据,我们还提供了方便的元数据查询功能,用户可以按照多种分类方式查询,比如用户可以根据数据源、转换类型、目标数据库等主题查询相应的元数据,还可以按照面向数据,面向工具的要求查询元数据。结论建立数据仓库数据迁移系统应被视作仓库建造过程中最重要和关
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号