资源预览内容
第1页 / 共90页
第2页 / 共90页
第3页 / 共90页
第4页 / 共90页
第5页 / 共90页
第6页 / 共90页
第7页 / 共90页
第8页 / 共90页
第9页 / 共90页
第10页 / 共90页
亲,该文档总共90页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据仓库结构设计与数据仓库结构设计与开发开发 提纲提纲n1.数据仓库的发展n2.数据仓库的概念及特性n3.数据仓库的结构n4.数据仓库的开发过程n5.数据仓库的典型应用数据仓库的发展数据仓库的发展Development of DataWarehouse数据仓库的发展(1)nNCR公司为公司为Wal-mart建立了第一个数据仓库。建立了第一个数据仓库。n1996年,加拿大的年,加拿大的IDC公司调查了公司调查了62家实现了数据仓库的欧美企业,家实现了数据仓库的欧美企业,结果表明数据仓库为企业提供了巨大的收益。结果表明数据仓库为企业提供了巨大的收益。nIBM的实验室在数据仓库方面已经进行了的实验室在数据仓库方面已经进行了10多年的研究,并将研究多年的研究,并将研究成果发展成为商用产品。成果发展成为商用产品。n其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。其他数据库厂商在数据仓库领域也纷纷提出了各自的解决方案。数据仓库的发展(2)nIBM:在其在其DB2UDB发布一年后的发布一年后的1998年年9月发布月发布5.2版,并版,并于于1998年年12月推向中国市场,除了用于联机分析处理月推向中国市场,除了用于联机分析处理(OLAP)的后台服务器的后台服务器DB2OLAPServer外,外,IBM还提供还提供了一系列相关的产品,包括前端工具,形成一整套解决方了一系列相关的产品,包括前端工具,形成一整套解决方案。案。nInformix公司公司:在其动态服务器在其动态服务器IDS(InformixDynamicServer)中提供一系列相关选件,如高级决策支持选件中提供一系列相关选件,如高级决策支持选件(AdvancedDecisionSupportOption)、)、OLAP选件选件(MetaCubeROLAPOption)、)、扩展并行选件(扩展并行选件(ExtendedParallelOption)等,这种体系结构严谨、管理方便、索引等,这种体系结构严谨、管理方便、索引机制完善,并行处理的效率更高,其中数据仓库和数据库机制完善,并行处理的效率更高,其中数据仓库和数据库查询查询的的SQL语句的一致性使得用户开发更加简便。语句的一致性使得用户开发更加简便。数据仓库的发展(3)n微软公司微软公司:在其在其SQLServer7.0以及以及SQLServer2000中集成中集成了代号为了代号为Plato的的OLAP服务器。服务器。nSybase:提供了专门的提供了专门的OLAP服务器服务器SybaseIQ,并将其与数并将其与数据仓库相关工具打包成据仓库相关工具打包成WarehouseStudio。nOracle公司公司:则推出从数据仓库构建、则推出从数据仓库构建、OLAP到数据集市管到数据集市管理等一系列产品包(如理等一系列产品包(如OracleWarehouseBuilder、OracleExpress、DataMartSuit等)。等)。为什么要建立数据仓库为什么要建立数据仓库n数据大量积累数据大量积累n数据丰富、知识贫乏数据丰富、知识贫乏n数据数据信息信息知识知识效益的转换需求效益的转换需求(DSS)nOLTP的局限性的局限性OLTP的局限性的局限性 n事务处理(操作型处理)和分析处理的性能特性不同事务处理(操作型处理)和分析处理的性能特性不同 nOLTP对数据的存取操作频率高而每次操作处理的时间短; n在分析处理环境中,某个DSS应用程序可能需要连续几个小时,从而消耗大量的系统资源。n数据保留最新,量少数据保留最新,量少n数据松散,集成度不高数据松散,集成度不高n数据面向应用而非主题数据面向应用而非主题n数据质量问题数据质量问题数据库应用的规模和深度的发数据库应用的规模和深度的发展展高级数据库高级数据库n从在线事务处理从在线事务处理(OLTP)到在线分析处理到在线分析处理(OLAP)、数据挖掘数据挖掘(DataMining)和决策支持和决策支持(DS)突出的问题突出的问题n数据库适于存储高度结构化的日常事务细节数据,决数据库适于存储高度结构化的日常事务细节数据,决策者可能并不关心具体的细节信息;存取操作频率高,策者可能并不关心具体的细节信息;存取操作频率高,操作处理的时间短;操作处理的时间短;n决策型数据多为历史性、汇总性或计算性数据,多表决策型数据多为历史性、汇总性或计算性数据,多表现为静态数据,周期性刷新;多维性,分析内容复杂;现为静态数据,周期性刷新;多维性,分析内容复杂;细节数据量太大严重影响分析效率,分散决策者的注细节数据量太大严重影响分析效率,分散决策者的注意力;连续运行,消耗大量的系统资源;数据来自企意力;连续运行,消耗大量的系统资源;数据来自企业内部或企业外部,在分析时直接对这些数据操作会业内部或企业外部,在分析时直接对这些数据操作会造成分析混乱。外部一些非结构化数据,数据库系统造成分析混乱。外部一些非结构化数据,数据库系统常无能为力。常无能为力。多库系统的限制多库系统的限制n可用性:源站点或通信网络故障将导致系统瘫痪可用性:源站点或通信网络故障将导致系统瘫痪,源站源站点不能通过网络在线联入多库系统。点不能通过网络在线联入多库系统。n响应速度:全局查询多级转换和通信传输响应速度:全局查询多级转换和通信传输,延迟和低层延迟和低层效率影响响应速度。效率影响响应速度。n系统性能:总体性能取决于源站点中性能最低的系统系统性能:总体性能取决于源站点中性能最低的系统,影响系统性能的发挥影响系统性能的发挥;n系统开销:系统开销:每次查询要启动多个局部系统每次查询要启动多个局部系统,通信和运通信和运行开销大。行开销大。实施数据仓库的条件实施数据仓库的条件n数据积累已达到一定规模n面临激烈的市场竞争n在IT方面的资金能得到保障 数据仓库的概念数据仓库的概念Data Warehouse数据仓库的概念数据仓库的概念 n n数据仓库已被多种方式定义,使得很难提出一种严格的数据仓库已被多种方式定义,使得很难提出一种严格的数据仓库已被多种方式定义,使得很难提出一种严格的数据仓库已被多种方式定义,使得很难提出一种严格的定义。按照定义。按照定义。按照定义。按照W.H.InmonW.H.Inmon这位数据仓库系统构造方面的这位数据仓库系统构造方面的这位数据仓库系统构造方面的这位数据仓库系统构造方面的领头设计师的说法:数据仓库是一个面向主题的、集成领头设计师的说法:数据仓库是一个面向主题的、集成领头设计师的说法:数据仓库是一个面向主题的、集成领头设计师的说法:数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策的、时变的、非易失的数据集合,支持管理部门的决策的、时变的、非易失的数据集合,支持管理部门的决策的、时变的、非易失的数据集合,支持管理部门的决策过程。过程。过程。过程。 n n与其他数据库应用不同的是,数据仓库更像一种过程,与其他数据库应用不同的是,数据仓库更像一种过程,与其他数据库应用不同的是,数据仓库更像一种过程,与其他数据库应用不同的是,数据仓库更像一种过程,对分布在企业内部各处的业务数据的整合、加工和分析对分布在企业内部各处的业务数据的整合、加工和分析对分布在企业内部各处的业务数据的整合、加工和分析对分布在企业内部各处的业务数据的整合、加工和分析的过程的过程的过程的过程建立数据仓库看作构造和使用数据仓库的过建立数据仓库看作构造和使用数据仓库的过建立数据仓库看作构造和使用数据仓库的过建立数据仓库看作构造和使用数据仓库的过程。程。程。程。数据仓库特性数据仓库特性 n n面向主题面向主题面向主题面向主题n n典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目典型的主题领域:客户;产品;交易;帐目n n集成的集成的集成的集成的n n数据提取、净化、转换、装载数据提取、净化、转换、装载数据提取、净化、转换、装载数据提取、净化、转换、装载n n非易失的非易失的非易失的非易失的n n数据仓库的数据通常是一起载入和访问的,但并不进行一般意数据仓库的数据通常是一起载入和访问的,但并不进行一般意数据仓库的数据通常是一起载入和访问的,但并不进行一般意数据仓库的数据通常是一起载入和访问的,但并不进行一般意义上的数据更新义上的数据更新义上的数据更新义上的数据更新n n随时间的变化性随时间的变化性随时间的变化性随时间的变化性n n数据仓库中的时间期限要远远长于操作型系统中的时间期限数据仓库中的时间期限要远远长于操作型系统中的时间期限数据仓库中的时间期限要远远长于操作型系统中的时间期限数据仓库中的时间期限要远远长于操作型系统中的时间期限(510510年);年);年);年);n n数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库中的数据是一系列某一时刻生成的复杂的快照;数据仓库中的数据是一系列某一时刻生成的复杂的快照;n n数据仓库的键码结构总是包含某时间元素。数据仓库的键码结构总是包含某时间元素。数据仓库的键码结构总是包含某时间元素。数据仓库的键码结构总是包含某时间元素。数据仓库数据仓库OLTPOLTP数据库数据库管理层使用管理层使用一线工人使用一线工人使用战略性价值战略性价值策略性价值策略性价值支持战略定向支持战略定向支持日常操作支持日常操作 用于联机分析用于联机分析用于事务处理用于事务处理面向主题面向主题面向应用程序面向应用程序存储历史数据存储历史数据仅存储当前数据仅存储当前数据不可预测查询模型不可预测查询模型可预测查询模型可预测查询模型数据仓库与数据仓库与OLTP数据库数据库数据集市数据集市n n数据集市(数据集市(数据集市(数据集市(datamartdatamart)是数据仓库的一个部门子集,是数据仓库的一个部门子集,是数据仓库的一个部门子集,是数据仓库的一个部门子集,它针对选定的主题,对于特定的用户是有用的。它针对选定的主题,对于特定的用户是有用的。它针对选定的主题,对于特定的用户是有用的。它针对选定的主题,对于特定的用户是有用的。n n数据集市分为独立的和依赖的两类。独立的数据集市分为独立的和依赖的两类。独立的数据集市分为独立的和依赖的两类。独立的数据集市分为独立的和依赖的两类。独立的 数据集市数据集市数据集市数据集市中,数据来自一个或多个操作的系统或外部信息提供者,中,数据来自一个或多个操作的系统或外部信息提供者,中,数据来自一个或多个操作的系统或外部信息提供者,中,数据来自一个或多个操作的系统或外部信息提供者,或者来自在一个特定的部门或地域局部产生的数据。数或者来自在一个特定的部门或地域局部产生的数据。数或者来自在一个特定的部门或地域局部产生的数据。数或者来自在一个特定的部门或地域局部产生的数据。数据集市中的数据直接来自企业数据仓库。据集市中的数据直接来自企业数据仓库。据集市中的数据直接来自企业数据仓库。据集市中的数据直接来自企业数据仓库。操作型数据存储操作型数据存储n n很多情况下,很多情况下,很多情况下,很多情况下,DB-DWDB-DW的两层体系结构并不能涵盖企业所的两层体系结构并不能涵盖企业所的两层体系结构并不能涵盖企业所的两层体系结构并不能涵盖企业所有的数据处理要求。有的数据处理要求。有的数据处理要求。有的数据处理要求。n n日常管理和控制决策的问题并不是联机事务处理,又算不日常管理和控制决策的问题并不是联机事务处理,又算不日常管理和控制决策的问题并不是联机事务处理,又算不日常管理和控制决策的问题并不是联机事务处理,又算不上高层决策分析,需要企业全局一致的、细节的、当前或上高层决策分析,需要企业全局一致的、细节的、当前或上高层决策分析,需要企业全局一致的、细节的、当前或上高层决策分析,需要企业全局一致的、细节的、当前或接近当前的数据,又需要面向主题、集成的数据环境。因接近当前的数据,又需要面向主题、集成的数据环境。因接近当前的数据,又需要面向主题、集成的数据环境。因接近当前的数据,又需要面向主题、集成的数据环境。因此需要此需要此需要此需要DB-DWDB-DW之间存在着一个中间层次,即之间存在着一个中间层次,即之间存在着一个中间层次,即之间存在着一个中间层次,即操作型数据操作型数据操作型数据操作型数据存储存储存储存储 ODSODS(Operational Data Store Operational Data Store )。)。)。)。操作型数据库、ODS和DW的比较比较项目比较项目操作数据存储操作数据存储数据仓库数据仓库数据内容数据内容当前和最近的值存档、归纳数据和经计算得出的数据数据组织数据组织根据主体域-数据集成面向主题数据性质数据性质动态(经常变化)静态(刷新时除外)数据结构和格式数据结构和格式复杂到简单简单:适于商业分析访问概率访问概率高到中中到低数据更新数据更新无更新访问和生成:没有直接地更新数据访问数据访问每个事务访问几条记录每个事务访问多条记录用途用途高度结构化、重复处理和事务处理和交互式分析处理对响应时间的要求对响应时间的要求低于1秒到23秒几秒到几分,有时几小时对性能的要求对性能的要求中到高中ODSODS和和DWDW的比较的比较 数据仓库的结构数据仓库的结构Structure ofData Warehouse数据仓库结构数据仓库结构数据仓库MRDBMDDB信息发布系统操作型数据和外界数据数据集市报表,查询,EIS工具OLAP工具数据挖掘工具管理平台元数据管 理 平台数据仓库数据仓库可视化用户接口可视化用户接口OLAP工具工具查询查询/报表工具报表工具数据挖掘工具数据挖掘工具前端开发工具前端开发工具集成器集成器集成器集成器转换器转换器转换器转换器源数据源数据源数据源数据元元数数据据及其管理工具及其管理工具 数据仓库体系结构数据仓库体系结构数据仓库组成数据仓库组成n数据源数据源n数据抽取(数据抽取(Extraction)、)、转换(转换(Transformation)、)、集成、装载集成、装载(Load)和刷新(和刷新(Refresh)工具:格式、净化和汇总工具:格式、净化和汇总n数据建模工具(数据建模工具(ModelingTools)n元数据仓储(元数据仓储(MetadataRepository)n数据仓库监控(数据仓库监控(Monitoring)和管理(和管理(Administration)工具:工具:维护数维护数据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。据仓库中的数据,备份、恢复数据以及管理数据的安全权限问题。n数据仓库及数据集市的目标数据库(数据仓库及数据集市的目标数据库(TargetDataBase)nOLAP服务器服务器n前端数据访问和分析工具前端数据访问和分析工具转换器转换器n转换器的功能:转换器的功能:n数据结构转换和数数据结构转换和数据类型转换据类型转换n非结构化数据的转非结构化数据的转换换创建数据准备区创建数据准备区N开始开始读源数据读源数据检查数据准备区检查数据准备区?执行执行DTS包包更改元数据(时间,数据状态)更改元数据(时间,数据状态)结束结束成功成功连接源数据库连接源数据库创建创建DTS包包Y数据准备区数据准备区n从源数据中提取数据,转换成数据仓库所要求的格式后从源数据中提取数据,转换成数据仓库所要求的格式后存储在数据仓库的一个称为数据准备区的缓冲区中。在存储在数据仓库的一个称为数据准备区的缓冲区中。在该区域中,可以暂时存储原始数据,然后由集成器对数该区域中,可以暂时存储原始数据,然后由集成器对数据进行清理、集成后再装载到数据仓库中。据进行清理、集成后再装载到数据仓库中。源数据数据准备区数据仓库集成器集成器n数据净化(有效值和范围检验)数据净化(有效值和范围检验)n维表与事实表的引用完整性检验:当维表和事实数据表之间的引用完维表与事实表的引用完整性检验:当维表和事实数据表之间的引用完整性破坏时,这类查询可能会导致检索数据不准确或不同查询之间数整性破坏时,这类查询可能会导致检索数据不准确或不同查询之间数据的不一致性错误。据的不一致性错误。n统一数据编码统一数据编码n日期格式转换日期格式转换n测量单位的转换测量单位的转换监控器捕捉数据变化的途径监控器捕捉数据变化的途径n时标方法:在记录中插入新的时标或加上更新时的时标,然后根据时标判时标方法:在记录中插入新的时标或加上更新时的时标,然后根据时标判断哪些数据是变化的,并把变化的数据追加到数据仓库中去。断哪些数据是变化的,并把变化的数据追加到数据仓库中去。nDELTA文件:该文件是由应用产生的,并记录了应用所改变的所有内容。文件:该文件是由应用产生的,并记录了应用所改变的所有内容。利用利用DELTA文件记录数据的变化,不需要扫描整个数据库,所以效率较高,文件记录数据的变化,不需要扫描整个数据库,所以效率较高,但生成的但生成的DELTA文件的应用并不普遍。文件的应用并不普遍。映象文件:在上次提取数据库数据到数据仓库之后及本次提取数据库数据映象文件:在上次提取数据库数据到数据仓库之后及本次提取数据库数据之前,对数据库分别作一次快照,然后通过比较两幅快照的不同来确定要之前,对数据库分别作一次快照,然后通过比较两幅快照的不同来确定要追加的数据。这种方法需要占用大量的系统资源,对系统的性能影响比较追加的数据。这种方法需要占用大量的系统资源,对系统的性能影响比较大。大。日志文件:由于日志文件是数据库的固有机制,所以它对系统性能的影响日志文件:由于日志文件是数据库的固有机制,所以它对系统性能的影响比较小,另外它还有比较小,另外它还有DELTA文件的优点,提取数据只局限于日志文件而不文件的优点,提取数据只局限于日志文件而不用扫描整个数据库。日志文件是最可行的一种方法。用扫描整个数据库。日志文件是最可行的一种方法。uu仓库数据库乎仓库数据库乎总是一个关系数总是一个关系数据库系统;据库系统;uuOLAPOLAP服务器服务器用于多维分析;用于多维分析;uu客户层,包括客户层,包括查询和报告工具、查询和报告工具、分析工具和分析工具和/ /或数或数据挖掘工具。据挖掘工具。三层结构的数据仓库三层结构的数据仓库(1 1)三层结构的数据仓库(三层结构的数据仓库(2 2)n客户端:客户端:n可视化的用户界面可视化的用户界面n客户端通信组件客户端通信组件n应用服务器端:应用服务器端:n服务器端通信组件服务器端通信组件n调度组件调度组件n安全组件安全组件n元数据管理器元数据管理器n转换器转换器n集成器集成器n数据库服务器端数据库服务器端n源数据源数据n元数据库元数据库n数据准备区数据准备区n数据仓库数据仓库数据仓库中的数据组织数据仓库中的数据组织高度综合级高度综合级轻度综合级轻度综合级当前综合级当前综合级早期细节级早期细节级多级数据多级数据从事务型处理环境中提取的源数据经过综合后,首先进入当从事务型处理环境中提取的源数据经过综合后,首先进入当前细节级,并根据需要进行进一步的综合进入轻度综合级或前细节级,并根据需要进行进一步的综合进入轻度综合级或高度综合级,老化的数据将进入早期细节级。高度综合级,老化的数据将进入早期细节级。粒度粒度n n粒度影响数据仓库中的数据量和查询的种类;粒度影响数据仓库中的数据量和查询的种类;n n聚合是构成维内不同层次的数据集,使用户能够在维度聚合是构成维内不同层次的数据集,使用户能够在维度内的不同层次上观察数据。内的不同层次上观察数据。元数据元数据n要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数要有效的管理数据仓库,必须设计一个描述能力强、内容完善的元数据。据。n元数据描述了数据仓库中源数据和目标数据本身的信息,定义了从源元数据描述了数据仓库中源数据和目标数据本身的信息,定义了从源数据到目标数据的转换过程。数据到目标数据的转换过程。元数据可用文件存在元数据库中。元数据可用文件存在元数据库中。元数据的种类元数据的种类n转换元数据:为了从事务处理型环境向数据仓库中转换而建立转换元数据:为了从事务处理型环境向数据仓库中转换而建立的元数据,它包含了所有源数据的信息、事务描述、数据结的元数据,它包含了所有源数据的信息、事务描述、数据结构的定义、提取数据和传送数据的算法、综合数据和净化数构的定义、提取数据和传送数据的算法、综合数据和净化数据的规则、数据访问和传送的记录等。据的规则、数据访问和传送的记录等。nDSS元数据:在数据仓库中用来与终端用户的多维商业模型元数据:在数据仓库中用来与终端用户的多维商业模型/前端工具之间建立映射,常用来开发更先进的决策支持工具。前端工具之间建立映射,常用来开发更先进的决策支持工具。元数据的内容元数据的内容n与数据库的数据字典中相似的内容与数据库的数据字典中相似的内容n数据仓库的主题描述数据仓库的主题描述n外部数据和非结构化数据的描述外部数据和非结构化数据的描述n记录系统定义记录系统定义n逻辑模型的定义逻辑模型的定义n数据进入数据仓库的转换规则数据进入数据仓库的转换规则n数据的提取历史数据的提取历史n粒度的定义粒度的定义n数据分割的定义数据分割的定义n广义索引广义索引n有关存储路径和结构的描述有关存储路径和结构的描述n关于源数据的元数据关于源数据的元数据n关于数据仓库映射的元数据关于数据仓库映射的元数据n关于系统安全的元数据。关于系统安全的元数据。n与设计时采用的具体技术以及具体应用环境有关的内容与设计时采用的具体技术以及具体应用环境有关的内容与传统数据库系统的数据字典与传统数据库系统的数据字典中相似的内容。中相似的内容。数据仓库的主题描述。数据仓库的主题描述。外部数据和非结构化数据的描外部数据和非结构化数据的描述。述。记录系统定义。记录系统定义。逻辑模型的定义。逻辑模型的定义。数据进入数据仓库的转换规则。数据进入数据仓库的转换规则。数据的提取历史。数据的提取历史。粒度的定义。粒度的定义。数据分割的定义。数据分割的定义。广义索引。广义索引。有关存储路径和结构的描述有关存储路径和结构的描述数据仓库的虚拟存储方式数据仓库的虚拟存储方式n数据仓库中的数据仍然存储在源数据库中,只是根据用户的多维分析需数据仓库中的数据仍然存储在源数据库中,只是根据用户的多维分析需求而形成多维视图,临时在源数据库中找出并提取所需要的数据,完成求而形成多维视图,临时在源数据库中找出并提取所需要的数据,完成多维分析。多维分析。n优点:比较简单、花费少、使用灵活优点:比较简单、花费少、使用灵活n缺点:要求源数据库的组织比较规范、数据完备并没有冗余,同时又比缺点:要求源数据库的组织比较规范、数据完备并没有冗余,同时又比较接近多维数据模型时,而一般数据库难以满足这些要求,在实际应用较接近多维数据模型时,而一般数据库难以满足这些要求,在实际应用中难以有效建立。中难以有效建立。数据仓库的数据组织形式(数据仓库的数据组织形式(1 1)n简单堆积文件简单堆积文件:每天从操作型数据库中提取加工后的数据逐日积累的存储起:每天从操作型数据库中提取加工后的数据逐日积累的存储起来。存储的数据细节化程度很高,可以应付多种细节查询,但分析时查询的来。存储的数据细节化程度很高,可以应付多种细节查询,但分析时查询的效率较低。效率较低。操作型数据每日事务处理每日综合2月1日2月2日2月3日。3月1日3月2日3月3日。1月1日1月2日1月3日。n轮转综合文件:轮转综合文件:数据存储单位被分为日、周、月、年等几个级别,逐级综合。数据存储单位被分为日、周、月、年等几个级别,逐级综合。每日事务处理每日综合操作型数据第1天第2天第3天第7天第1周第2周第3周第5周第1月第2月第3月第12月第1年第2年第3年第n年数据仓库的数据组织形式(数据仓库的数据组织形式(2 2)n简单直接文件简单直接文件:类似于简单堆积文件,但它是间隔一定时间的数据库快照,类似于简单堆积文件,但它是间隔一定时间的数据库快照,比如每隔一星期或一个月作一次。比如每隔一星期或一个月作一次。n连续文件:通过两个比较简单直接文件的不同而生成的。连续文件:通过两个比较简单直接文件的不同而生成的。1月份彩电销售海尔68长虹100东芝20熊猫102月份彩电销售海尔150长虹90东芝40熊猫30海尔1月份至今218长虹1月份至今190东芝1月份至今60熊猫1月份至今40数据仓库的数据组织形式(数据仓库的数据组织形式(3 3)数据仓库建模数据仓库建模Data Warehouse Modeling星型图模型星型图模型物物理理数数据据模模型型概念模型概念模型逻辑模型逻辑模型物理模型物理模型面向用户的需求面向用户的需求细细化化层层次次更详细的更详细的技术细节技术细节数据仓库的数据模型数据仓库的数据模型信息包图信息包图信息包图(概念模型)信息包图(概念模型)n信息包图:数据仓库的数据模型的最高层。由于大多数商务数据是多信息包图:数据仓库的数据模型的最高层。由于大多数商务数据是多维的,但传统的数据模型表示三维以上的数据有一定困难。这种模型维的,但传统的数据模型表示三维以上的数据有一定困难。这种模型集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视集中在用户对信息包的需要,信息包提供了分析人员思维模式的可视化表示。化表示。n工作:工作:n确定系统边界:决策类型、需要的信息、原始信息确定系统边界:决策类型、需要的信息、原始信息n确定主题域及其内容:主题域的公共键码、联系、属性组确定主题域及其内容:主题域的公共键码、联系、属性组n确定维度:如时间维、销售位置维、产品维、组别维等确定维度:如时间维、销售位置维、产品维、组别维等n确定类别:相应维的详细类别确定类别:相应维的详细类别n确定指标和事实:用于进行分析的数值化信息确定指标和事实:用于进行分析的数值化信息销售分析的信息包图销售分析的信息包图日期日期销售地点销售地点销售产品销售产品年龄组别年龄组别性别性别年(10)国家(15)产品类(6)年龄组(8)性别组(2)季度(40)区域(45)产品组(48)月(120)城市(280)产品(240)区(880)商店(2000)指标和事实指标和事实:预测销售量、实际销售量、预测偏差预测销售量、实际销售量、预测偏差信息包:信息包: 销售分析销售分析维度维度类类别别多维数据模型多维数据模型n数据仓库基于多维数据模型。数据仓库基于多维数据模型。n该模型将数据看作数据立方体该模型将数据看作数据立方体(datacube)形式,形式,允许以多维对数据建模和观察。它由维和事实允许以多维对数据建模和观察。它由维和事实定义。维是关于一个组织想要记录的透视或实定义。维是关于一个组织想要记录的透视或实体。每一个维都有一个进一步描述维的表相关体。每一个维都有一个进一步描述维的表相关联,即维表。联,即维表。以三维角度观察销售数据以三维角度观察销售数据数据立方体数据立方体以四维角度观察销售数据以四维角度观察销售数据4-D4-D立方立方体看成体看成 3-D 3-D 立立方体的方体的序列序列,依此类依此类推推数据模型数据模型(逻辑模型)(逻辑模型)n最流行的数据仓库数据模型就是多维数据模型,这种模最流行的数据仓库数据模型就是多维数据模型,这种模型可以以星型模式、雪花模式或事实星座模式存在。型可以以星型模式、雪花模式或事实星座模式存在。n数据仓库通常使用事实星座模式数据仓库通常使用事实星座模式,因为它能对多个相,因为它能对多个相关的主题建模。对于数据集市,流行星型或雪花模式,关的主题建模。对于数据集市,流行星型或雪花模式,因为它们都适合对单个主题建模。因为它们都适合对单个主题建模。n多维数据模型围绕中心主题组织。该主题用事实表表示。多维数据模型围绕中心主题组织。该主题用事实表表示。事实表:用来存储事实的度量值和各个维的码值,维表事实表:用来存储事实的度量值和各个维的码值,维表用来存放维的元数据(维的层次、成员类别等描述信息)用来存放维的元数据(维的层次、成员类别等描述信息)。Time_idSales TableDiscount%DollarsUnitsFact TableMarket_idProduct_idScenarioProduct_idProduct TableSizeBrandProduct_DescDimension TableTime_idYearQuarterPeriod_DescPeriod TableDimension TableScenario TableActualProfitScenarioDimension TableMarket_idMarket TableRegionDistrictMarket_DescDimension Table星型模型星型模型(StarSchema)Budget雪花模式雪花模式(snowflakeschema)n雪花模式是星型模式的变种,其中某些维表是规范化雪花模式是星型模式的变种,其中某些维表是规范化的的,因而把数据进一步分解到附加的表中。,因而把数据进一步分解到附加的表中。n雪花模式和星型模式的主要不同在于雪花模式的维表雪花模式和星型模式的主要不同在于雪花模式的维表可能是规范化形式,以便减少冗余。可能是规范化形式,以便减少冗余。n由于执行查询需要更多的连接操作,雪花模型可能降由于执行查询需要更多的连接操作,雪花模型可能降低浏览的性能。低浏览的性能。事实星座事实星座n复杂的应用可能需要多个事实表共享维表,这种模式可以复杂的应用可能需要多个事实表共享维表,这种模式可以看作星型模式集,因此称为星系模式看作星型模式集,因此称为星系模式(galaxyschema),或事实星座或事实星座(factconstellation)。数据挖掘查询语言数据挖掘查询语言n数据挖掘查询语言数据挖掘查询语言DMQL(data mining query language)是一种基于是一种基于SQL的数据挖掘查询语言的数据挖掘查询语言。DMQL包括定义包括定义数据仓库、数据集市、挖掘概念数据仓库、数据集市、挖掘概念/类描述、关联和分类的类描述、关联和分类的语言原语。语言原语。n数据仓库和数据集市可以使用两种原语定义:一种是立方数据仓库和数据集市可以使用两种原语定义:一种是立方体定义,一种是维定义体定义,一种是维定义。n立方体定义语句具有如下语法形式立方体定义语句具有如下语法形式:definecube:n维定义语句具有如下语法形式:维定义语句具有如下语法形式:definedimensionas()定义星型、雪花和事实星座模式定义星型、雪花和事实星座模式例例1 数据立方体 sales 的 time, item 和 location 维可以与数据立方体 shipping 共享在定义数据立方体 shipping 语句之下,用 “define dimension time as time in cube sales” 说明。例例2度量的计算度量的计算n数据立方体数据立方体度量度量(measure)是一个数值函数,该函数可以对数是一个数值函数,该函数可以对数据立方体的每一个点求值。据立方体的每一个点求值。n大部分度量可以根据其所用的聚集函数分成大部分度量可以根据其所用的聚集函数分成分布的和分布的和代数的代数的:n一个度量是分布的,如果它可以用分布聚集函数count(),sum(),min()和max()得到。n一个度量是代数的,如果它可以用代数聚集函数average()、min_N(),max_N()和standard_deviation()得到。在图中,sales 星型模式包含两个度量 dollars_sold 和 units_sold。例例3其中DMQL说明被翻译成如下SQL查询,这些查询产生所需要的 sales_star 数据立方体。聚集函数sum用于计算dollars_sold和units_sold。 概念分层概念分层n概念分层概念分层(concept hierarchy)定义一个映射序列,将低层概念定义一个映射序列,将低层概念映射到更一般的高层概念。如每映射到更一般的高层概念。如每个城市可以映射到它所属的省或个城市可以映射到它所属的省或州。这些省和州依次可以映射到州。这些省和州依次可以映射到它所属的国家。国家可以映射到它所属的国家。国家可以映射到它所属的大洲。它所属的大洲。n概念分层也可以通过将给定维或概念分层也可以通过将给定维或属性的值离散化或分组来定义,属性的值离散化或分组来定义,产生集合分组分层。产生集合分组分层。u在多维数据模型中,数据组织成多在多维数据模型中,数据组织成多维,每维包含由概念分层定义的多个维,每维包含由概念分层定义的多个抽象层。这种组织为用户从不同角度抽象层。这种组织为用户从不同角度观察数据提供了灵活性。观察数据提供了灵活性。物理数据模型物理数据模型n物理数据模型:星型模型等在数据仓库中的实现,如物理的存取物理数据模型:星型模型等在数据仓库中的实现,如物理的存取方式、数据存储结构等。方式、数据存储结构等。n在物理设计时,常常要按数据的重要程度、使用频率以及对响应在物理设计时,常常要按数据的重要程度、使用频率以及对响应时间的要求进行分类,并将不同类的数据分别存储在不同的存储时间的要求进行分类,并将不同类的数据分别存储在不同的存储设备中。重要程度高、经常存取并对响应时间高的数据就存放在设备中。重要程度高、经常存取并对响应时间高的数据就存放在高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低高速存储设备上,如硬盘;存取频率低或对存取响应时间要求低的数据则可以放在低速存储设备上。的数据则可以放在低速存储设备上。数据建模注意问题数据建模注意问题n必须回答紧迫的问题;必须回答紧迫的问题;n必须有正确的事实表;必须有正确的事实表;n将有正确的维表,描述必须按最终用户的业务术语表达;将有正确的维表,描述必须按最终用户的业务术语表达;n必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程;必须理解数据仓库所影响的公司过程或影响数据仓库的公司过程;n对于事实表,应该有正确的对于事实表,应该有正确的“粒度粒度”;n根据需要存储正确长度的公司历史数据;根据需要存储正确长度的公司历史数据;n以一种对于公司有意义的方式来集成所有必要的数据;以一种对于公司有意义的方式来集成所有必要的数据;n创建必要的聚合表;创建必要的聚合表;n创建必要的索引;创建必要的索引;n能够加载数据仓库数据库并使它以一种适宜的方式可用。能够加载数据仓库数据库并使它以一种适宜的方式可用。数据仓库开发过程数据仓库开发过程Building the Data Warehouse应用A应用B应用C收集应用需求分析应用需求构建数据库系统实施系统测试应用编程DBSDLC方法数据仓库建模数据获取与集成构建数据仓库理解需求系统测试DSS应用编程DWCLDS方法DB外部数据DB数据仓库的数据仓库的CLDS设计方法设计方法数据仓库的设计思想数据仓库的设计思想n为了提高系统的效率和性能,数据仓库的数据内容、结构、粒度、分为了提高系统的效率和性能,数据仓库的数据内容、结构、粒度、分割以及其他物理设计需要根据用户所返回的信息不断地调整和完善,割以及其他物理设计需要根据用户所返回的信息不断地调整和完善,而且数据仓库需要通过不断地理解用户的分析需求,向用户提供更准而且数据仓库需要通过不断地理解用户的分析需求,向用户提供更准确、更有用的决策信息,所以数据仓库对灵活性和扩展性有较高的要确、更有用的决策信息,所以数据仓库对灵活性和扩展性有较高的要求,它的建立是一个动态、循环和反馈的过程。求,它的建立是一个动态、循环和反馈的过程。n“让我看看能得到什么,然后我才能告诉你我需要什么。让我看看能得到什么,然后我才能告诉你我需要什么。”n数据驱动的数据驱动的原型法原型法数据仓库设计的技术要求数据仓库设计的技术要求n对大量数据的组织和管理。数据仓库中的数据是从数据库中提取得来的,不必关心对大量数据的组织和管理。数据仓库中的数据是从数据库中提取得来的,不必关心它的数据安全性和数据完整性,它要求进行大量数据的组织与管理。它的数据安全性和数据完整性,它要求进行大量数据的组织与管理。n支持高性能的复杂分析。复杂分析时通常涉及大量数据的聚集、综合等,在进行复支持高性能的复杂分析。复杂分析时通常涉及大量数据的聚集、综合等,在进行复杂查询时经常会使用多表的联接、累计、分类、排序等操作,这对数据仓库基于的杂查询时经常会使用多表的联接、累计、分类、排序等操作,这对数据仓库基于的数据库系统的性能特别是并行处理能力提出了挑战。数据库系统的性能特别是并行处理能力提出了挑战。n对提取出来的数据进行集成。数据仓库中的数据是从多个应用领域中提取出来的,对提取出来的数据进行集成。数据仓库中的数据是从多个应用领域中提取出来的,在不同的应用领域和不同的数据库系统中都有不同的结构和形式。如果直接对这些在不同的应用领域和不同的数据库系统中都有不同的结构和形式。如果直接对这些数据进行分析,会得到不同的结果,所以如何对数据进行集成也是构建数据仓库的数据进行分析,会得到不同的结果,所以如何对数据进行集成也是构建数据仓库的一个重要方面。一个重要方面。n对高层决策的最终用户提供工具。数据仓库只是一个数据存储的集合,如果没有各对高层决策的最终用户提供工具。数据仓库只是一个数据存储的集合,如果没有各种分析应用工具,一个庞大的数据仓库是毫无意义的。这些工具的设计对于开发一种分析应用工具,一个庞大的数据仓库是毫无意义的。这些工具的设计对于开发一个完整的数据仓库及其应用体系是致关重要的。个完整的数据仓库及其应用体系是致关重要的。数据仓库的设计步骤数据仓库的设计步骤n任务和环境的评估:任务和环境的评估:业务现状、业务现状、数据源所在系统和其中的数数据源所在系统和其中的数据的状况据的状况、可行性、障碍、可行性、障碍、评定系统成功与否的基本原则评定系统成功与否的基本原则,需要需要企业高层负责人参加企业高层负责人参加,组成项目组组成项目组、正规的文档记载正规的文档记载n需求的收集和分析需求的收集和分析n数据模型设计:高层设计、中层设计低层设计数据模型设计:高层设计、中层设计低层设计n定义记录系统定义记录系统n数据仓库生成数据仓库生成n数据仓库技术的培训数据仓库技术的培训高层设计(概念模型设计)高层设计(概念模型设计)n高层设计:主要考虑商业过程和商业需求的集成,将与目前商业过程有关高层设计:主要考虑商业过程和商业需求的集成,将与目前商业过程有关的信息和数据仓库试图实现的目标合并在一起,创建信息包图。的信息和数据仓库试图实现的目标合并在一起,创建信息包图。n创建信息包图的过程:分析用户需求,收集信息将信息打包的过程。创建信息包图的过程:分析用户需求,收集信息将信息打包的过程。n分析用户需求(确定系统边界):分析用户需求(确定系统边界):n确定用户要做的决策类型确定用户要做的决策类型n确定用户决策时需要的信息确定用户决策时需要的信息n确定原始信息确定原始信息n决定数据仓库所需要的信息的级别决定数据仓库所需要的信息的级别n定义关键性能指标(确定主要的主题域):定义关键性能指标(确定主要的主题域):n主题域的公共键码主题域的公共键码n主题域间的联系主题域间的联系n充分代表主题的属性充分代表主题的属性高层设计(概念模型设计)高层设计(概念模型设计)n定义维度:每一个维代表一个统一的访问数据仓库中信息定义维度:每一个维代表一个统一的访问数据仓库中信息的途径。这些维也定义了一个完整的主题分类,而且这些的途径。这些维也定义了一个完整的主题分类,而且这些分类将被用作支持主要指标的参考内容。在定义维度时,分类将被用作支持主要指标的参考内容。在定义维度时,一般只涉及信息的主要途径,不是企图涉及所有可能的路一般只涉及信息的主要途径,不是企图涉及所有可能的路径。径。n定义类别:类别提供了一个指定维的详细信息,它们是一定义类别:类别提供了一个指定维的详细信息,它们是一个集合层或一个维度体系。随着维度的定义,应该进一步个集合层或一个维度体系。随着维度的定义,应该进一步确定用户将怎样对详细信息进行检索,或者怎样聚集数据。确定用户将怎样对详细信息进行检索,或者怎样聚集数据。高层设计(概念模型设计)高层设计(概念模型设计)n创建信息包图创建信息包图n确定涉及的主题域,例如:时间、顾客、地位置和产品。确定涉及的主题域,例如:时间、顾客、地位置和产品。n设计可以跟踪的确定一个事件怎样被完成和运行的关键指标。设计可以跟踪的确定一个事件怎样被完成和运行的关键指标。n决定在给定的用户分析或查询中实际包含了多少数据。决定在给定的用户分析或查询中实际包含了多少数据。n确定用户如何按层次聚合数据和移动数据。确定用户如何按层次聚合数据和移动数据。n决定数据层次。决定数据层次。n估计数据仓库的大小。估计数据仓库的大小。n确定一个数据仓库里数据的更新频率。确定一个数据仓库里数据的更新频率。n定义如何访问数据。定义如何访问数据。n决定数据如何被传递给仓库的用户。决定数据如何被传递给仓库的用户。技术准备工作技术准备工作n技术评估技术评估n管理大数据量数据的能力;管理大数据量数据的能力;n进行灵活数据存取的能力;进行灵活数据存取的能力;n根据数据模型重组数据的能力;根据数据模型重组数据的能力;n透明的数据发送和接收能力;透明的数据发送和接收能力;n周期性成批装载数据的能力;周期性成批装载数据的能力;n可设定完成时间的作业管理能力。可设定完成时间的作业管理能力。n技术环境准备技术环境准备n预期在数据仓库上分析处理的数据量有多大预期在数据仓库上分析处理的数据量有多大?n如何减少或减轻竞争性存取程序的冲突如何减少或减轻竞争性存取程序的冲突?n数据仓库的数据量有多大数据仓库的数据量有多大?n进出数据仓库的数据通信量有多大进出数据仓库的数据通信量有多大?n确定软硬件的配备要求确定软硬件的配备要求n直接存取设备直接存取设备n网络网络n操作系统操作系统n数据仓库管理软件与查询、分析工具数据仓库管理软件与查询、分析工具中层设计(逻辑模型设计)中层设计(逻辑模型设计)n中层设计:中层设计:建立数据仓库的逻辑模型,对前期收集的信息的细化,将信息包对前期收集的信息的细化,将信息包图转换成星形模型。图转换成星形模型。n主要工作:主要工作:n定义指标实体。将信息包图中的内容放到星形图中,每个信息包图代表一个完整的定义指标实体。将信息包图中的内容放到星形图中,每个信息包图代表一个完整的星和信息包。维度实体在指标实体中表示。星和信息包。维度实体在指标实体中表示。n定义维度实体。信息包图中的每一个维度实体位于星形图的星角上,它以维度表的定义维度实体。信息包图中的每一个维度实体位于星形图的星角上,它以维度表的形式存在。随着维度实体在星形图上的定位,进一步定义它与指标实体间的关系。形式存在。随着维度实体在星形图上的定位,进一步定义它与指标实体间的关系。n定义详细类别实体。在一个简单的星形模型中,指标实体被用于访问的维度实体包定义详细类别实体。在一个简单的星形模型中,指标实体被用于访问的维度实体包围。但是在有的决策分析中仅仅知道指标值是不够的,需要定义详细类别实体,将围。但是在有的决策分析中仅仅知道指标值是不够的,需要定义详细类别实体,将星型模型转换为雪花图模型。星型模型转换为雪花图模型。n设计成果:设计成果:n适当的粒度划分适当的粒度划分n合理的数据分割策略合理的数据分割策略n适当的表划分适当的表划分n定义适当的数据源定义适当的数据源低层设计(物理数据模型设计)低层设计(物理数据模型设计)n低层设计阶段的任务:建立数据仓库的物理模型,确定数据仓库的存储结构、数低层设计阶段的任务:建立数据仓库的物理模型,确定数据仓库的存储结构、数据的存储位置和索引策略。据的存储位置和索引策略。n设计人员需要了解和考虑的问题:设计人员需要了解和考虑的问题:n所选用的数据库系统,特别是存储结构和存取方法;所选用的数据库系统,特别是存储结构和存取方法;n数据环境、数据的使用频率、使用方式以及响应时间;数据环境、数据的使用频率、使用方式以及响应时间;n存储设备的特性等。存储设备的特性等。n主要工作:主要工作:n确定数据的存储结构。不同的存储结构有不同的实现方式,应综合考虑存取时间、存确定数据的存储结构。不同的存储结构有不同的实现方式,应综合考虑存取时间、存取空间利用率和维护代价等因素,根据各种存储结构的优缺点和适用范围选择合适的取空间利用率和维护代价等因素,根据各种存储结构的优缺点和适用范围选择合适的存储结构。存储结构。n确定数据的存储位置。对数据按照其重要程度、使用频率和对响应时间的要求等进行确定数据的存储位置。对数据按照其重要程度、使用频率和对响应时间的要求等进行分类,并将不同类别的数据存储在不同的存储设备中。设置存储分配参数,对块的大分类,并将不同类别的数据存储在不同的存储设备中。设置存储分配参数,对块的大小、缓冲区的大小和个数等进行物理优化处理。小、缓冲区的大小和个数等进行物理优化处理。n确定索引策略。通过对数据存取路径的分析,为各个数据存储建立专用的索引,以获确定索引策略。通过对数据存取路径的分析,为各个数据存储建立专用的索引,以获得存取的高效率。得存取的高效率。数据仓库生成数据仓库生成n设计接口设计接口n从面向应用和操作的环境生成完整的数据从面向应用和操作的环境生成完整的数据n基于时间的数据转换基于时间的数据转换n数据的聚合数据的聚合n对记录系统进行扫描,以便追加数据对记录系统进行扫描,以便追加数据n数据装入数据装入n确定数据装入的顺序确定数据装入的顺序n过滤无效或错误数据过滤无效或错误数据n数据老化数据老化n数据粒度管理数据粒度管理n数据刷新数据刷新接口设计接口设计n数据仓库中的数据是从数据库系统中提取出来的,所以数据仓库中的数据是从数据库系统中提取出来的,所以在需要在数据库系统和数据仓库之间建立一个接口。建在需要在数据库系统和数据仓库之间建立一个接口。建立这种接口,并不是简单的编制一个提取程序。由于数立这种接口,并不是简单的编制一个提取程序。由于数据库中的数据与数据仓库中的数据有很大区别,所以在据库中的数据与数据仓库中的数据有很大区别,所以在设计接口时,除了提取外还要完成数据的净化、集成等。设计接口时,除了提取外还要完成数据的净化、集成等。接口应包括转换器、监控器和集成器等,以完成对数据接口应包括转换器、监控器和集成器等,以完成对数据的提取、净化和集成的提取、净化和集成。数据提取数据提取n数据的提取是数据仓库成功的关键。在提取过程中,为了支持实际数据的提取是数据仓库成功的关键。在提取过程中,为了支持实际应用中的趋势分析,它还必须对数据基于时间进行转换。在大多数应用中的趋势分析,它还必须对数据基于时间进行转换。在大多数情况下,把数据库系统中的数据变化提取出来是通过访问数据库日情况下,把数据库系统中的数据变化提取出来是通过访问数据库日志进行的。在数据提取时应考虑建立可靠的复制机制,使复制不受志进行的。在数据提取时应考虑建立可靠的复制机制,使复制不受诸如系统失败之类问题的影响,保证传送符合数据完整性规则的一诸如系统失败之类问题的影响,保证传送符合数据完整性规则的一致数据,并优化传送过程,减少在捕获或修改数据和传送复制结果致数据,并优化传送过程,减少在捕获或修改数据和传送复制结果之间的等待时间。复制机制包括数据发布器和数据阅读器。数据发之间的等待时间。复制机制包括数据发布器和数据阅读器。数据发布器是原始的或控制的源布器是原始的或控制的源,它控制了从企业内部来的数据的捕获和它控制了从企业内部来的数据的捕获和净化;数据阅读器是一种对数据访问的系统。净化;数据阅读器是一种对数据访问的系统。数据装入数据装入n数据装入:即运行数据仓库的接口程序,将数据装入数据数据装入:即运行数据仓库的接口程序,将数据装入数据仓库中。仓库中。n主要工作:主要工作:n按顺序装入数据。最初只装入一部分数据来生成第一个主题域,按顺序装入数据。最初只装入一部分数据来生成第一个主题域,这样能使设计人员轻易而迅速的对所做的工作进行调整,然后再这样能使设计人员轻易而迅速的对所做的工作进行调整,然后再依次装入全部数据。依次装入全部数据。n检查数据的有用性。数据仓库的设计过程是一个反馈、循环的过检查数据的有用性。数据仓库的设计过程是一个反馈、循环的过程,原先对决策分析起作用的数据随着时间的推移越来越陈旧无程,原先对决策分析起作用的数据随着时间的推移越来越陈旧无法再支持决策分析,通过与用户的交流,反复进行用户需求分析,法再支持决策分析,通过与用户的交流,反复进行用户需求分析,从而确定用户真正需要的数据,清除老化、无效和错误数据,不从而确定用户真正需要的数据,清除老化、无效和错误数据,不断的适应用户的需求。断的适应用户的需求。数据仓库的使用数据仓库的使用n构建数据仓库的最终目的是为了使用,如果数据仓库中存放了大量的构建数据仓库的最终目的是为了使用,如果数据仓库中存放了大量的数据而没有开发相应的应用程序就失去了其存在的价值。数据而没有开发相应的应用程序就失去了其存在的价值。n数据仓库的目的是用于决策分析而不是事务管理。决策分析应用可分数据仓库的目的是用于决策分析而不是事务管理。决策分析应用可分为两种类型:例行分析处理和启发式分析处理。例行分析处理是指一为两种类型:例行分析处理和启发式分析处理。例行分析处理是指一些要求比较明确、需要重复进行的分析处理,通常属于部门级的应用,些要求比较明确、需要重复进行的分析处理,通常属于部门级的应用,如部门的销售分析、财务分析、报表分析等;启发式分析是指随机性如部门的销售分析、财务分析、报表分析等;启发式分析是指随机性较大的、即时进行的分析处理,通常属于企业高层决策者级的应用,较大的、即时进行的分析处理,通常属于企业高层决策者级的应用,这种决策分析并没有固定的模式,决策者受到某种信息的启发而进行这种决策分析并没有固定的模式,决策者受到某种信息的启发而进行一些随机的决策分析。一些随机的决策分析。n对于例行分析处理,由于其分析模式固定,因此可以使用查询对于例行分析处理,由于其分析模式固定,因此可以使用查询/报表报表工具、固定模式的验证工具或工具、固定模式的验证工具或OLAP工具来实现。对于启发式分析处工具来实现。对于启发式分析处理则需要在验证工具、理则需要在验证工具、OLAP工具和数据挖掘工具中为用户提供一个工具和数据挖掘工具中为用户提供一个灵活的、功能强大的交互式界面,使决策者能够方便地利用这些工具灵活的、功能强大的交互式界面,使决策者能够方便地利用这些工具循环渐进地进行决策分析,最终获得分析结果。循环渐进地进行决策分析,最终获得分析结果。数据仓库的维护数据仓库的维护n系统维护:是在系统已经交付使用之后为了改正错误和为了满足新的需要系统维护:是在系统已经交付使用之后为了改正错误和为了满足新的需要而修改系统的过程。而修改系统的过程。n数据仓库中数据的日常管理工作:数据仓库中数据的日常管理工作:n清除过时的、不再使用的数据;清除过时的、不再使用的数据;n定期从源数据中提取数据,刷新数据仓库中的数据;定期从源数据中提取数据,刷新数据仓库中的数据;n管理元数据等。管理元数据等。n数据仓库系统的完善工作:数据仓库系统的完善工作:n改正性维护:在数据仓库设计与开发过程中,虽然已经进行了严格的测试,但对改正性维护:在数据仓库设计与开发过程中,虽然已经进行了严格的测试,但对于一个大型的系统可能还潜藏着一些。于一个大型的系统可能还潜藏着一些。n适应性维护:数据仓库的构建是基于当时的技术条件的,由于计算机科学技术发适应性维护:数据仓库的构建是基于当时的技术条件的,由于计算机科学技术发展十分迅速,每隔一定的周期硬件设备和系统软件都会发生重大的变革,适应性展十分迅速,每隔一定的周期硬件设备和系统软件都会发生重大的变革,适应性维护就是为了与变化了的环境相配合而进行的对系统进行修改的活动。维护就是为了与变化了的环境相配合而进行的对系统进行修改的活动。n完善性维护:因为数据仓库系统一般是采用快速原型法开发的,需要在系统的运完善性维护:因为数据仓库系统一般是采用快速原型法开发的,需要在系统的运行过程中不断地听取用户对已有功能的修改建议和增加新功能的需求,使系统日行过程中不断地听取用户对已有功能的修改建议和增加新功能的需求,使系统日趋完善。趋完善。n预防性维护:预防性维护则是指为了改进系统未来的性能和功能打下基础而进行预防性维护:预防性维护则是指为了改进系统未来的性能和功能打下基础而进行的修改工作。的修改工作。自顶向下的构造方法自顶向下的构造方法数据集市数据集市外部数据外部数据数据集市数据集市建造企业数据仓库建造企业数据仓库H建设中心数据模型H一次性的完成数据的重构工作H最小化数据冗余度和不一致性H存储详细的历史数据从企业数据仓库中建造数据集市从企业数据仓库中建造数据集市H得到大部分的集成数据H直接依赖于数据仓库的可用性操作数据操作数据问题投资效益的时间投资效益的时间?H建设中心数据模型的必要性和可能性?初始费用初始费用 ?企业数据仓库企业数据仓库自底向上的构造方法自底向上的构造方法数据集市数据集市建立部门数据集市建立部门数据集市H限制在一个主题区域H快速投资收益 H区域自治 设计的可伸缩性强H对相关部门的应用容易复制 H对每个数据集市需要数据重构H存在一定的冗余及不一直性逐步扩展到企业数据仓库逐步扩展到企业数据仓库 (EDW)H把建造EDW作为一个长期的目标存在的问题:数据集市的数据都是可用的吗数据集市的数据都是可用的吗?能生成数据模型吗能生成数据模型吗?如何解决不一致性如何解决不一致性?外部数据外部数据操作数据操作数据 (全局全局)&操作数据操作数据 (局部局部)操作数据操作数据 (局部局部)数据集市数据集市企业数据仓库企业数据仓库创建数据仓库应注意的几个问题创建数据仓库应注意的几个问题n需需求求第第一一。首首先先要要了了解解实实际际的的需需求求,数数据据仓仓库库技技术术的的主主要要目目的的是是帮帮助助决决策策者者进进行行决决策策,如如果果单单纯纯的的用用数数据据仓仓库库的的应应用用去去充充当当“制制作作灵活报表灵活报表”的工具,那就是大材小用了。的工具,那就是大材小用了。n数数据据是是基基础础。要要有有正正在在运运行行中中的的、处处于于不不断断更更新新的的操操作作型型数数据据源源,而而且且对对已已有有的的数数据据要要确确保保其其质质量量,数数据据是是否否正正确确,是是否否良良好好定定义义、集成且完整一致。集成且完整一致。n数数据据分分析析是是数数据据仓仓库库的的灵灵魂魂。数数据据仓仓库库建建立立的的主主要要目目的的就就是是进进行行有有效的分析预测,因此要选择有用的、高效的分析工具。效的分析预测,因此要选择有用的、高效的分析工具。影响数据仓库项目成功的因素影响数据仓库项目成功的因素n数据仓库创建前的影响因素数据仓库创建前的影响因素n管理层的信任管理层的信任n从管理项目开始:面向主题从管理项目开始:面向主题n交流实现目标交流实现目标n任命一个面向用户的项目经理任命一个面向用户的项目经理n数据仓库创建时的影响因素数据仓库创建时的影响因素n采用成熟的技术采用成熟的技术n注重查询而不是注重事务注重查询而不是注重事务n只加载所需数据只加载所需数据n定义合适的数据源:元数据映射定义合适的数据源:元数据映射n明确定义主题明确定义主题n数据仓库创建后的影响因素数据仓库创建后的影响因素n面向决策的使用者的信任面向决策的使用者的信任数据仓库项目所需的角色数据仓库项目所需的角色n管理角色管理角色n项目主管项目主管n项目经理项目经理n技术角色技术角色n数据提供专家数据提供专家n体系结构设计者体系结构设计者n数据库管理员数据库管理员n数据迁移专家数据迁移专家n数据转换专家数据转换专家n数据集市开发的领导人数据集市开发的领导人n质量保证质量保证/测试专家测试专家n维护角色维护角色n内行的用户内行的用户n培训教师培训教师n技术文档编写人员技术文档编写人员n工具专家工具专家n销售商联系人销售商联系人数据仓库典型应用数据仓库典型应用Use Of Data Warehouse数据仓库应用数据仓库应用参考资料参考资料nW.H.Inmon,BuildingtheDataWarehouse,王志海王志海等译,机械工业出版社,等译,机械工业出版社,2000.5nSanAnahoryandDennisMurray,DataWarehousingintheRealWorld(原版书,国内未发行,原版书,国内未发行,434页)页)nW.A.Giovinazzo,Object-OrientedDataWarehouseDesign,潇湘工作室译,人民邮电出版社,潇湘工作室译,人民邮电出版社,2000.12nLouAgosta,TheEssentialGuidetoDataWarehouse,潇湘工作室译,人民邮电出版社,潇湘工作室译,人民邮电出版社,2000.11nTomHammergren著,曹增强等译:著,曹增强等译:数据仓库技术数据仓库技术,中国水利水电出版社中国水利水电出版社nLouAgosta,数据仓库技术指南数据仓库技术指南,人民邮电出版社,人民邮电出版社Q/A?
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号