首页
搜索资源
资源分类
资源描述
文档编号 产品版本 密级 1.0 共87页 数据仓库系统 总体设计 文档作者:__ ____日期:2001/12/20 项目经理:__ ____日期:2001/12/28 部门经理:__ __ 日期:2002/01/08 总 工 办:__ ____日期:2002/01/08 目 录 1 概述 7 1.1 背景 7 1.1.1 待开发的软件系统名称 8 1.1.2 系统的基本概念 8 1.1.3 项目组名称 8 1.1.4 项目代号 8 1.2 术语和缩写词 8 1.3 设计目标 9 2 系统设计 9 2.1 设计原则 9 2.2 系统结构 11 2.2.1 子系统划分 11 2.3 系统数据结构 17 2.3.1 逻辑结构 12 2.3.2 层次结构 13 2.3.3 网络拓扑结构 14 2.3.4 网络层次结构 16 2.4 行业特殊需求 17 2.5 底层数据库(仓库)设计 19 2.5.1 设计原则 19 2.5.2 数据现状 20 2.5.3 数据存储整体规划 21 2.6 ETL系统 24 2.6.1 需求规定 24 2.6.2 运行环境 24 2.6.3 设计思想 24 2.6.4 结构说明 25 2.6.5 处理流程 26 2.7 系统管理 27 2.7.1 需求规定 27 2.7.2 运行环境 28 2.7.3 设计思想 28 2.7.4 结构说明 28 2.7.5 处理流程 29 2.8 数据展现 30 2.8.1 需求规定 30 2.8.2 运行环境 32 2.8.3 设计思想 32 2.8.4 结构说明 32 2.8.5 处理流程 34 2.9 界面设计 34 2.9.1 需求规定 34 2.9.2 主程序界面 34 2.9.3 主要页面设计 35 2.10 接口设计 38 2.10.1 外部接口 38 2.10.2 内部接口 39 2.11 安全设计 39 2.11.1 网络安全 39 2.11.2 数据库安全 42 2.12 系统可靠性设计 43 2.12.1 可靠性 43 2.12.2 可维护性 43 2.12.3 可扩展性 44 2.12.4 健壮性 44 2.12.5 性能保证 44 2.12.6 出错处理 45 2.12.7 备份与恢复 45 2.13 运行设计 46 2.14 相关工具选择 46 2.14.1 数据库选择 47 2.14.2 WEB服务器和应用服务器 47 2.14.3 数据库建模工具 48 2.14.4 分析型工具 48 2.14.5 OLAP工具介绍 49 2.14.6 ORACLE公司OLAP介绍 50 2.15 开发环境 51 2.15.1 硬件环境 51 2.15.2 操作系统 51 2.15.3 开发语言 52 2.15.4 数据库系统 52 2.15.5 中间件系统 52 2.15.6 应用系统 53 3 系统调试和测试 53 3.1 目的 53 3.2 基本要求 54 3.2.1 测试计划 54 3.2.2 测试说明 54 3.2.3 测试环境建立 54 3.2.4 测试报告 54 3.3 应遵循的原则 54 3.4 测试方法 55 3.5 测试重点 55 4 项目进度 56 4.1 项目资源计划 56 4.1.1 项目组 56 4.1.2 数据仓库领导小组办公室 56 4.2 项目工期计划 56 4.3 时间进度计划 56 4.3.1 数据仓库系统需求调查与系统 57 4.4 第一期开发主题 57 4.5 第二期开发主题 57 4.6 工作量分配计划 57 5 小结 58 6 参考文献 60 7 附录 61 7.1 Oracle性能评估报告 61 7.2 主流WEB服务器比较 65 7.3 IBM小型机性能评估报告 76 7.4 详细网络拓扑图及设备清单 78 7.5 在多层体系结构下建立数据仓库 83 摘 要 数据仓库系统的建立可以解决传统数据库不能很好提供分析决策功能的问题,可以发掘历史数据中隐含的大量有价值的信息,为国民经济的发展和宏观决策提供大量有效的参考信息。系统数据来源复杂,在数据仓库设计中不能采用常规方法解决问题;主题众多且分析热点会随时间变化而变化,要求主题下所含的信息在一定范围可变;主题下指标可能需要调整等实际情况,这和数据仓库的数据的不可修改性有矛盾;等等。我们结合数据仓库的特点和系统实际情况,提供了一套完整的数据仓库系统的解决方案。整个数据仓库系统从数据采集到数据展现共分为四部分:1、数据抽取、转换、加载;2、系统管理(包括数据库维护);3、数据展现;4、支撑整个系统的数据库的设计(包括ETL中间数据库和数据仓库)保证系统具有相当的灵活性。各个部分独立完成本部分功能,同时紧密协作组成数据仓库系统。数据仓库系统管理与数据导入部分采用C/S模式有针对性的开发;数据仓库系统的数据展现采用流行的B/S模式向用户提供数据查询、决策分析。 关键词: 指标,主题,数据仓库,联机分析,数据挖掘,决策支持。 1 概述 1.1 背景 经过2个多月的需求分析调查,确定了数据仓库系统总体定位(省政府数据仓库是以充分发挥信息的社会作用和经济效益为最终目的)和系统功能需求。现根据需求分析规定和局具体情况,确定数据仓库整体方案,以指导数据仓库系统研究、开发、实现。 省政府局数据具有建立数据仓库系统的基本条件: l 积累了大量历史数据,这是数据仓库存在的必要条件; l 随着市场经济的发展,社会各界(如金融投资等领域为了规避市场风险,提高决策的准确度,开发新的市场和利润增长点,挖掘市场潜力)对数据的需求不断增大,社会各界迫切需要利用数据进行决策分析,指导经济建设。 省政府数据仓库建设存在以下困难: l 当前局各个处室没有统一规划的数据库系统; l 只有少量数据以电子文件形式存在,大部分历史数据保存在纸介质上,到目前为止,建国以来的数据有一般以上以纸介质方式存储; l 由于我国制度在不断发展完善,指标在不同的历史时期的口径不同,为了使同类指标具有可比性,要确定不同时期各个指标的调整规则,并对历史数据按规则进行调整,这种调整除了少数指标可以按统一的算法进行以外,大部分调整工作需要人工参与; 因此,省政府数据仓库的建设中数据的整理加载工作量极大,ETL(Extract、Transform、Cleaning、Load)工具开发难度大;完善的、与数据仓库系统良好联接的、统一规划的各个处室的数据库系统是据仓库系统的具有长久生命力的基本保障,因此各处室数据库的建设应同步进行。 1.1.1 待开发的软件系统名称 省政府数据仓库系统 1.1.2 系统的基本概念 指标:系统的数据以指标为载体,所有的数据都是指标在不同时间,不同地域上的取值,统一指标可能有年度、月度、季度、半年、连续某几个月等时间段的数据,可能有国家、省、地、市、县、乡、村的数据,甚至有居民户、具体企业单位的明细数据,数据仓库中的数据就是这些数据的有机集合。 主题:数据仓库中的数据按主题组织,这是由数据仓库以分析决策为主要目的决定的。主题是一个在较高层次上将数据归类的标准,每一个主题对应一个宏观的分析领域。省政府数据仓库是将指标数据按分析主题集成起来,供查询、分析、辅助决策。 1.1.3 项目组名称 数据仓库项目组 1.1.4 项目代号 XhnTJDW001-0019 1.2 术语和缩写词 指标:Statistical Parameter 数据仓库:DW(DataWarehouse) 主题:Subject 数据集市:DataMart 元数据:MetaData 数据抽取、转换、加载:ETL(Extract、Transform、Cleaning、Load) 联机分析处理:OLAP(On-LineAnalyticalProcessing) 联机事务处理:OLTP(On-LineTransactionProcessing) 决策支持系统:DSS(DecisionSupportSystem) 数据挖掘:DM(DataMining) 应用服务器:AS(ApplicationServer) Web服务器:WebServer 1.3 设计目标 省政府数据仓库系统是以充分发挥信息的社会效益和经济价值为最终目的。 将大量事务处理数据库中的数据进行清理、抽取和转换,并按决策主题进行多维重组,在高效的网络平台上充分发挥系统作为社会“数据库,信息库,思想库,智囊库”的作用,直接向党政领导、社会各界提供数据、信息服务,为信息工程建设提供一个“决策数据管理与分析中心”的基本解决方案。 为省政府局建立一套面向党政领导、专业分析人员、广大社会群众对外发布信息的数据仓库系统。整个系统集数据采集、管理、维护、展现于一体,旨在建立数据仓库后既减轻局工作人员工作量,又能很好的为公众服务。前端数据展现要有通用性,采用浏览器浏览数据,是瘦客户端。后端维护系统要具有高效性,能及时、高效处理、管理数据,功能强大,是胖客户端。 数据仓库系统重在建立一个适应分析的系统环境,首期开发“”信息咨询,企业名录、人口普查、字典、工业经济、农业经济等主题。 2 系统设计 2.1 设计原则 从充分发挥系统作为社会“数据库,信息库,思想库,智囊库”的作用,直接向党政领导、社会各界提供“快、精、准”的信息服务的需要出发,采用当今数据库领域成熟稳定的数据仓库、决策分析等技术,在高效的网络平台上为全省信息工程建设提供一个“决策数据管理与分析中心”的基本解决方案。 1、 系统采用多层体系结构,建立一个良好开放性的数据仓库系统环境,适应不断增加和变化的业务需求。多层体系结构通过引入中间层组件,扩大了传统的客户/服务器和两层计算模式。多层结构可由以下三类分层来定义:前端的客户层,负责提供可移植的表达逻辑;中间的应用层,允许用户通过将其与实际应用隔离而共享和控制业务逻辑;后端的数据管理与服务层,提供对专门服务(例如数据库服务器)的访问。多层结构与传统的客户/服务器结构的区别在于:在传统的客户/服务器两层结构中,用户将实际的业务逻辑放置到客户端(作为对表达逻辑的增补)或放置到后端数据库(作为数据逻辑的一部分包含在存储过程中)。而在多层结构中,用户将业务逻辑放到中间层上。这种模块化方法明确地划分了表达逻辑、业务逻辑和数据存储。多层结构通过将应用逻辑集中到中间层,开发者可以迅速更新业务逻辑,而无需重新将应用递交到成千上万的桌面系统上。提高数据库的性能、改善系统的开放性、可扩展性和数据的安全性,并降低管理的复杂性。 2、 结构化、层次化、模块化。采用面向对象技术,使系统高度结构化、模块化、层次化,整个系统由接口定义良好的多个模块组成,每个模块都有详细的功能说明和设计文稿,每个模块完成相对独立的功能,模块之间的接口定义规范,使模块功能的变化相对独立,不影响整个系统的功能和结构,便于系统升级,维护。 3、 具有良好的平台移植性。选用支持多种操作平台的数据库服务器、应用服务器、WEB服务器等服务器软件系统,选用具有良好平台移植性的B/S和C/S模式下的开发语言开发应用程序和应用中间件,提高应用系统的平台移植性; 4、 统一性和多样性相结合。面向用户的各个应用系统,尽量保持统一风格以适应用户的操作习惯,但各个系统根据内容具有各自的特色,整个系统和谐统一,清新明了。 5、 自主开发和利用现有工具相结合。尽量利用各成熟的数据仓库系统软件(工具)为数据仓库这个具有特殊性的项目服务,针对具有特殊性的需求,开发特定的系统软件,缩短数据仓库开发周期,降低开发成本,保证系统
点击显示更多内容>>
收藏
网站客服QQ:
2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号