资源预览内容
第1页 / 共69页
第2页 / 共69页
第3页 / 共69页
第4页 / 共69页
第5页 / 共69页
亲,该文档总共69页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第二章第二章 数据仓库原理数据仓库原理0第二章第二章 数据仓库原理数据仓库原理n2.1数据仓库定义数据仓库定义n2.2数据仓库特征数据仓库特征n2.3数据库体系化环境数据库体系化环境n2.4数据仓构造模式数据仓构造模式n2.5数据仓库概念结构数据仓库概念结构n2.6数据仓库中的数据组织数据仓库中的数据组织n小节小节1n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分区分区n维度维度n元数据元数据n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织2n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分割分割n维度维度n元数据元数据n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织32.6数据仓库中的数据组织数据仓库中的数据组织n为了提高分析和决策的效率和有效性,分析型处理为了提高分析和决策的效率和有效性,分析型处理及其数据必须与事务型处理及其数据相别离,把分析及其数据必须与事务型处理及其数据相别离,把分析型处理所需要的数据从事务型处理环境中提取出来,型处理所需要的数据从事务型处理环境中提取出来,按照分析型处理的要求进行重新组织,建立单独的分按照分析型处理的要求进行重新组织,建立单独的分析处理环境。析处理环境。n数据仓库正是构建这种新的分析处理环境而出现的数据仓库正是构建这种新的分析处理环境而出现的一种数据存储和组织技术。一种数据存储和组织技术。42.6数据仓库中的数据组织数据仓库中的数据组织n数据仓库的数据组织结构不同于一般的数据库系统,数据仓库的数据组织结构不同于一般的数据库系统,需要将从原有的业务数据库中获得的根本数据和综合需要将从原有的业务数据库中获得的根本数据和综合数据分成一些不同的级别。数据分成一些不同的级别。n在数据仓库中,数据按照粒度从小到大可分为四个在数据仓库中,数据按照粒度从小到大可分为四个级别:早期细节级、当前细节级、轻度细节级和高度级别:早期细节级、当前细节级、轻度细节级和高度细节级。细节级。n从事务型处理环境中提取的源数据经过综合后,首从事务型处理环境中提取的源数据经过综合后,首先进入当前细节级,并根据需要进行进一步的综合进先进入当前细节级,并根据需要进行进一步的综合进入轻度综合级或高度入轻度综合级或高度5数据仓库的数据组织结构数据仓库的数据组织结构元元数数据据高度综合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级2.6数据仓库中的数据组织数据仓库中的数据组织6n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别n早期细节级早期细节级n一般而言,当前细节级的数据对于决策的支持程度随数据一般而言,当前细节级的数据对于决策的支持程度随数据发生时间的久远而降低。发生时间的久远而降低。n为了有效控制数据仓库中当前细节级数据的规模,保证系为了有效控制数据仓库中当前细节级数据的规模,保证系统的运行效率,在设计数据仓库时,通常应结合业务的特统的运行效率,在设计数据仓库时,通常应结合业务的特点和系统硬件的水平,设定一个合理的时间阀值,将老化点和系统硬件的水平,设定一个合理的时间阀值,将老化的数据转为早期细节级的数据,并以适宜的方式进行存储。的数据转为早期细节级的数据,并以适宜的方式进行存储。2.6数据仓库中的数据组织数据仓库中的数据组织7n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别n当前细节级当前细节级n来自数据源的数据,所反映的都是当前的业务情况,因来自数据源的数据,所反映的都是当前的业务情况,因此在导入数据仓库之后,首先做为当前细节级数据进行此在导入数据仓库之后,首先做为当前细节级数据进行存储。存储。n这些数据规模较大,实时性强,是数据仓库用户感兴趣这些数据规模较大,实时性强,是数据仓库用户感兴趣的局部。的局部。n当前细节级的数据一方面依据数据仓库的既定规那么,当前细节级的数据一方面依据数据仓库的既定规那么,经过处理,得到情况度综合级和高度综合级的数据,另经过处理,得到情况度综合级和高度综合级的数据,另一方面,随时间的推移,逐渐老化,成为历史细节级数一方面,随时间的推移,逐渐老化,成为历史细节级数据。据。2.6数据仓库中的数据组织数据仓库中的数据组织8n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别n轻度综合级轻度综合级n为了有效控制数据仓库进行决策支持时的系统开销,对为了有效控制数据仓库进行决策支持时的系统开销,对当前细节级的数据,通常以一定的时间段为单位进行综当前细节级的数据,通常以一定的时间段为单位进行综合。合。n这一设定的时间段参数又称为这一设定的时间段参数又称为“粒度。粒度。n以较小的粒度生成的综合数据,称为以较小的粒度生成的综合数据,称为“轻度综合级数据轻度综合级数据,其规模要远远小于当前细节级数据,因此,可以明,其规模要远远小于当前细节级数据,因此,可以明显提高决策运算的效率。显提高决策运算的效率。2.6数据仓库中的数据组织数据仓库中的数据组织9n数据仓库中的数据存在着不同的综合级别数据仓库中的数据存在着不同的综合级别n高度综合级高度综合级n以较长的时间段,即较大的粒度,对当前细节级的数据以较长的时间段,即较大的粒度,对当前细节级的数据进行综合而形成的结果,称为进行综合而形成的结果,称为“高度综合级数据。高度综合级数据。n高度综合级的数据内容十分精练,可以认为是一种高度综合级的数据内容十分精练,可以认为是一种“准准决策数据。决策数据。n这里,这里,“高度和高度和“轻度只是一种相对的概念没有绝轻度只是一种相对的概念没有绝对的界限。对的界限。2.6数据仓库中的数据组织数据仓库中的数据组织10 数据仓库的数据组织结构的一个例子数据仓库的数据组织结构的一个例子 高度综合级高度综合级轻度综合级轻度综合级当前细节级当前细节级早期细节级早期细节级1990-2004年年 每月销售表每月销售表1996-2004年年每周销售表每周销售表1996-2004年年销售情况表销售情况表1990-1995年年销售明细表销售明细表 数据仓库中的数据组织数据仓库中的数据组织2.6数据仓库中的数据组织数据仓库中的数据组织11n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分割分割n维度维度n元数据元数据n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织12n粒度粒度n对数据仓库中的数据综合程度上下的一个度量。对数据仓库中的数据综合程度上下的一个度量。n例如:一个简单的交易处于低粒度级,而每月所有交易例如:一个简单的交易处于低粒度级,而每月所有交易的汇总和处于一个高粒度级。的汇总和处于一个高粒度级。n粒度会深刻地影响存放在数据仓库中的数据量的大小以粒度会深刻地影响存放在数据仓库中的数据量的大小以及数据仓库所能够答复的查询类型。在数据仓库中的数及数据仓库所能够答复的查询类型。在数据仓库中的数据量大小与所能答复查询的细节级别之间要做出权衡。据量大小与所能答复查询的细节级别之间要做出权衡。2.6数据仓库中的数据组织数据仓库中的数据组织13n粒度粒度一个顾客一个月中每次通话的一个顾客一个月中每次通话的细节细节一个顾客一个月中通话的综合一个顾客一个月中通话的综合CassSquire上星期给他在波士顿的女友上星期给他在波士顿的女友打过打过没有?没有?能答复,尽管需要一定数量的能答复,尽管需要一定数量的检索检索根本不能答复,细节已经丧失根本不能答复,细节已经丧失“上个月,华盛顿人平均打出多少个上个月,华盛顿人平均打出多少个?由此可见,粒度级别对于能答复什么问题和问答问题所需资源多由此可见,粒度级别对于能答复什么问题和问答问题所需资源多由此可见,粒度级别对于能答复什么问题和问答问题所需资源多由此可见,粒度级别对于能答复什么问题和问答问题所需资源多少有深刻的影响。少有深刻的影响。少有深刻的影响。少有深刻的影响。2.6数据仓库中的数据组织数据仓库中的数据组织14n粒度粒度粒度的权衡是固有的,所以大多数企业的最正确解决方法是粒度的权衡是固有的,所以大多数企业的最正确解决方法是粒度的权衡是固有的,所以大多数企业的最正确解决方法是粒度的权衡是固有的,所以大多数企业的最正确解决方法是采用多重粒度的形式采用多重粒度的形式采用多重粒度的形式采用多重粒度的形式低粒度低粒度高粒度高粒度能答复任何问题能答复任何问题效率低效率低数据量大数据量大不能答复所有问题不能答复所有问题效率高效率高数据量小数据量小2.6数据仓库中的数据组织数据仓库中的数据组织15n粒度分为两种形式:粒度分为两种形式:n对数据仓库中的数据的综合程度上下的一个度量对数据仓库中的数据的综合程度上下的一个度量n粒度越小,细节程度越高,综合程度越低粒度越小,细节程度越高,综合程度越低n粒度大小影响数据仓库效率、能答复询问的种类粒度大小影响数据仓库效率、能答复询问的种类n“张三在某时某地是否给李四打过张三在某时某地是否给李四打过?n“张三去年共打了几次长途张三去年共打了几次长途n“某地区今年长途与普通某地区今年长途与普通费用之比费用之比n“今年长途普通今年长途普通费用增长率费用增长率n“预测未来长途普通预测未来长途普通费用变化趋势费用变化趋势n数据仓库是多粒度的,不同的粒度答复不同的查询数据仓库是多粒度的,不同的粒度答复不同的查询2.6数据仓库中的数据组织数据仓库中的数据组织16n粒度分为两种形式:粒度分为两种形式:n样本数据库样本数据库n在分析过程中,有许多探索的过程有时分析的目的并不在分析过程中,有许多探索的过程有时分析的目的并不要求精确的结果,只需要得到相对准确、能反映趋势的要求精确的结果,只需要得到相对准确、能反映趋势的数据,所以可以提取出样本数据库。数据,所以可以提取出样本数据库。n样本数据库的粒度:是根据采样率的上下来划分的,采样本数据库的粒度:是根据采样率的上下来划分的,采样粒度不同的样本数据库可以具有相同的综合级别,它样粒度不同的样本数据库可以具有相同的综合级别,它是按一定的采样率从细节数据库或轻度综合数据库中提是按一定的采样率从细节数据库或轻度综合数据库中提取的一个子集。取的一个子集。n样本数据库的抽取按照数据的重要程度不同进行,利样本数据库的抽取按照数据的重要程度不同进行,利用样本数据库采集重要数据进行分析既可提高分析效率,用样本数据库采集重要数据进行分析既可提高分析效率,又有助于抓住主要因素和主要矛盾。又有助于抓住主要因素和主要矛盾。2.6数据仓库中的数据组织数据仓库中的数据组织17样本数据库样本数据库用处:代替源数据进行模拟分析,适用于趋势分析和预测分析用处:代替源数据进行模拟分析,适用于趋势分析和预测分析抽样的方法:随机抽取,必要时可采用抽样的方法:随机抽取,必要时可采用“判断样本判断样本优点:优点:高效率,在启发式分析中,高效率,在启发式分析中,源数据量很大的情况下,抽样数据可以大大下降,源数据量很大的情况下,抽样数据可以大大下降,分析结果误差极小分析结果误差极小有助于抓住主要因素和主要矛盾有助于抓住主要因素和主要矛盾2.6数据仓库中的数据组织数据仓库中的数据组织18n数据仓库中的数据组织数据仓库中的数据组织n粒度粒度n分区分区n维度维度n数据仓库的数据组织形式数据仓库的数据组织形式n数据仓库的数据追加数据仓库的数据追加2.6数据仓库中的数据组织数据仓库中的数据组织19n分区分区n数据分区是指把数据分散到可独立处理的别离物理单元数据分区是指把数据分散到可独立处理的别离物理单元中去。数据分割后的数据单元称为分片。中去。数据分割后的数据单元称为分片。n在数据仓库中围绕分区的问题的焦点不是该不该分区而在数据仓库中围绕分区的问题的焦点不是该不该分区而是如何去分区的问题。因为运行维护人员和设计者在管是如何去分区的问题。因为运行维护人
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号