资源预览内容
第1页 / 共54页
第2页 / 共54页
第3页 / 共54页
第4页 / 共54页
第5页 / 共54页
第6页 / 共54页
第7页 / 共54页
第8页 / 共54页
第9页 / 共54页
第10页 / 共54页
亲,该文档总共54页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
第3章 数据仓库商业智能:方法与应用3.1 数据仓库相关概念3.2 数据仓库设计3.3 ETL的过程设计目 录O N T E N T SC数据仓库的定义及特点数据集市、元数据管理和数据质量管理数据仓库的体系结构逻辑模型设计概念模型设计物理模型设计数据抽取设计数据清洗设计数据加载设计3.1 数据仓库相关概念数据仓库的定义及特点数据集市、元数据管理和数据质量管理数据仓库的体系结构3.1.1 数据仓库的定义及特点两大类 数据处理系统即联机事务处理,它是针对具体业务在数据库联机的日常操作,通常对少数记录进行查询、修改,是数据库中最基础的操作。缺点:只是针对企业日常的事务进行处理,而并不具备对存储数据进行分析的功能,更无法向用户提供决策支持。因此,另一类数据处理系统分析型处理则针对操作型处理系统的短板应运而生。分析型a.操作型处理:应 运 而 生操作型3.1.1 数据仓库的定义及特点两大类 数据处理系统主要功能是综合某些主题的历史数据进行多维度、全面的分析,用以支持管理决策。优点:包含操作型处理的基础功能,并能够针对主题性的数据进行分析,通过将历史数据进行整合体现数据的完整性;同时在数据的抽取过程中能够保证数据的准确性,十分契合企业以及用户对数据分析的需要。操作型分析型b.分析型处理:应 运 而 生3.1.1 数据仓库的定义及特点操作型处理分析型处理性 能需对用户的查询、修改等指令进行及时反应,在企业日常事务较多时,需进行频繁的数据处理,并在短时间内展示处理结果,要求其系统性能较高。不涉及日常频繁的事务处理,因此在系统性能上并不需要即时反馈的高性能处理。集 成 性仅限于日常事务的数据操作,其数据源也只限于企业日常的数据,通常不需要跨部门、跨系统的数据集成。将各类数据进行整合以达到数据的全面分析,相应的数据抽取、清洗、加载过程技术保证了分析型处理系统具备较好的数据集成性,能够将长期的、不同的数据进行集成分析。数 据 冗 余需频繁响应用户的操作,所以在数据存储中数据保持着很高的实时性,即用户频繁的查询、修改使得数据更新频繁,因此要求数据符合关系型数据库范式要求,并且数据冗余要少。需将长期的历史数据进行存储以供查询、分析、决策,但历史数据几乎不会修改,因此可以具有一定的数据冗余以提高查询效率。3.1.1 数据仓库的定义及特点分析型系统操作型系统适合使用数据仓库技术来实现在从数据的集成到用户决策的制定过程中涉及的功能较多,因此数据综合性较高,传统的数据库技术并不完全满足这种技术要求。适合使用数据库技术来实现针对企业日常事务进行一些重复、频繁的操作,通常设计目标是大量的数据维护和较为简单的查询统计功能。数据库数据仓库作为数据库的一个分支,数据仓库在一定程度上相比于数据库针对数据信息的分析处理以及决策有更好的适用性,从数据库到数据仓库的细化,也是对数据获取并正确合理分析的必然要求。主要区别3.1.1 数据仓库的定义及特点定义数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,并应用于支持管理决策。本质特点作用通过对数据分析面向主题:指数据仓库内的信息是按主题进行组织的,而不是像业务支撑系统那样是按照业务功能进行组织的。“集成”:指数据仓库中的数据是来源于不同结构的数据源,从不同的数据源中进行数据的抽取,经过一系列加工后最终加载到数据仓库中。数据“历史”:指某个数据进入数据仓库以后,一般情况下将被长期存储,在较长的时间段内不进行改动数据的操作,即数据仓库内的信息并不仅仅反映企业当前的状态,而且记录了从过去某一时点到当前各个阶段的信息,能够随时反映历史数据信息。3.1.1 数据仓库的定义及特点效率高数据仓库对数据分析的粒度非常细化,因此对分析效率的要求也随之增加。由于企业的数据量往往是庞大的,用户希望得到及时的分析结果,如果数据仓库效率不达标,分析结果出现延迟,这对于企业来说影响是非常大的,所以数据仓库要求效率一定要足够高。数据准确可靠数据仓库在抽取数据时,由于数据源存在异构、数据正确性、完整性等问题,数据的准确与否会直接影响到决策的质量。因此,在进入数据仓库前需要经过一系列的数据加工,即数据抽取、清洗、载入。扩展性高数据仓库体系结构一般设计得较为复杂,这是因为企业数据的存储、获取以及分析是一个长期持续存在的需求,数据仓库应该保持相应的稳定运行以及在该时间段内能够实现功能拓展的目标,避免因重建数据仓库而带来的影响。数据仓库的特点010203数据集市数据质量管理元数据指数据源经过相应的处理后进入到数据仓库,按照特定的要求形成的具有主题性的数据集合。也叫做解释数据、数据字典,即是用来描述数据的数据。从数据的获取、存储、维护、应用等阶段对可能产生的数据质量问题进行识别、度量、监控以及预警等一系列管理措施,并通过改善和提高企业的管理水平使数据质量更加科学有效。3.1.2 数据集市、元数据管理和数据质量管理3.1.2 数据集市、元数据管理和数据质量管理特点数据集市规模小、主题性高、响应速度快,在数据质量、数据分析等内容中更具有专业性。作用能够存储用户需要的数据,并且能够针对用户的操作快速响应。可以解决由于不同的数据需要而访问数据仓库所造成的效率低、访问量大等问题。3.1.2 数据集市、元数据管理和数据质量管理种类元数据a. 技术元数据:存储数据仓库系统技术的数据。b. 业务元数据:对业务数据进行解释的数据。作用能展现数据仓库中数据之间内在信息和相互关系,并进行详细的解释说明,使用户能清楚的了解数据间的关系。可以避免在数据仓库构建初期由于过多的数据集市而带来的问题。3.1.2 数据集市、元数据管理和数据质量管理步骤数据质量管理数据分析、数据评估、数据清洗、数据监控以及错误预警等。评估的衡量维度通常数据质量评估和管理评估通过以下几个维度来衡量:完整性、规范性、一致性、准确性、唯一性、关联性。3.1.3 数据仓库的体系结构数据源作为数据仓库开展一系列数据处理活动的必要条件,数据源是整个数据仓库系统最基本、最重要的部分。对于数据分析、决策支持功能来说,数据源可以分为内部数据和外部信息。数据的存储与管理源数据进入到数据仓库后,按照面向主题的特性在数据仓库中进行多维存储,形成面向决策分析需求的数据立方体。数据管理则是指对数据安全、备份以及恢复的维护工作。联机分析处理服务器能够针对特定的主题对数据进行访问、处理以及多层次、多维度的分析,并将结果展现在应用前端。当前联机分析处理方式具体分为:关系型联机分析处理、多维联机分析处理以及混合型联机分析处理。前端工具前端工具主要是将分析结果展现给用户以及用户指令的输入,其中包括报表展示工具、用户查询工具以及分析工具等。体系结构12343.2 数据仓库设计概念模型设计逻辑模型设计物理模型设计3.2 数据仓库设计数据仓库设计数据装载接口设计数据仓库模型设计概念模型设计逻辑模型设计物理模型设计数据模型:即数据仓库结构中数据存储、组织方式,所以数据模型的设计是数据仓库设计中最为重要的部分。3.2.1 概念模型设计定义概念模型是用于为一定的目标设计系统、收集信息而服务的概念性工具。即在进行系统设计时,先将现实数据抽象为概念模型,再使用相关的计算机语言对其进行具体描述。设计过程 :(1)确定数据仓库模型(2)选择粒度(3)确定主题3.2.1 概念模型设计(1)数据仓库模型 数据分析系统不适合使用传统的实体-关系模型,而应该采用多维模型。星型模型和雪花模型是数据仓库常用的多维模型。星型模型雪花模型是一种使用关系数据库实现多维分析空间的模型,但星型模型是非正规的结构,多维数据集的每个维度都直接与事实表连接,不存在渐变维度,所以数据有一定的冗余。是星型模型的规范化,也是对星型模型的扩展。它将星型模型的维度进一步层次化,将已有的维度扩展为多层维度。一大优点在于能很好地支持对维度的处理。3.2.1 概念模型设计(2)选择粒度 数据仓库粒度的级别和数据细化程度成反比,例如,以“日”为粒度的数据细化程度比以“月”为粒度的数据高。 在粒度选择时应优先考虑为业务处理获取最具原子性的信息,紧密的联系企业业务实际和需求。以公交业务数据为例,不同的用户对数据有着不同的需求,而数据分析系统一共可以分为三类用户(结构如图3.1):基层业务员:负责根据需求编制日报表、月报表、年报表。分公司管理者:负责以日为单位查看运营报表,以月、年为单位查看分公司汇总报表。总公司管理者:负责以月、年为单位查看总公司、各分公司的汇总报表。3.2.1 概念模型设计 综合考虑,数据分析系统采用双重粒度存储数据,即以“日”为粒度的原子信息和以“月”为粒度的汇总信息。详细结构如图3.1所示:车辆日收入车辆日收入车辆日收入车辆日收入日汇总数据月汇总数据轻度级别中度级别图3.1 数据仓库粒度级别设计图3.2.1 概念模型设计(3)确定主题 主题是一个抽象的概念,是数据仓库设计概念模型的依据。具体来说,主题从业务角度出发,定义用户需要分析的方向,它和数据仓库的技术实现无关。同样以公交公司为例。在某公交公司存在6个运营级别,分别是公交公司分公司、车队、线路、车辆、司机以及乘务员。每个运营级别之间也存在一定的隶属关系,车队隶属于分公司、线路属于车队、车辆、司机以及乘务员属于线路。运营级别关系如图3.2。3.2.1 概念模型设计司机维度线路维度车队维度日期维度分公司维度车辆运营图3.2 车辆运营主题的逻辑结构图数据仓库确定6个主题,即:分公司运营主题、车队运营主题、线路运营主题、车辆运营主题、司机运营主题、乘务员运营主题。数据仓库以面向主题的方式组织数据,可以在较高层次上对分析数据进行一致性描述。同时,这样组织数据能够全面展示各个分析对象所涉及的企业各项数据间的关系。3.2.2 逻辑模型设计定义逻辑模型主要是在概念模型的基础上进行主题细化,定义实体间的关系和属性。数据仓库逻辑模型的基础是主题,应根据主题对业务的划分以及业务间的关联关系进行描述。设计过程 :(1)确定当前需要载入的主题(2)维度设计3.2.2 逻辑模型设计(1)确定当前需要载入的主题在概念模型阶段,以公交公司为例确定了6个主题。现在要详细的设计主题域所有的属性,特别是确定能代表主题的属性组。下表3.1展示分公司日运营主题、车辆日运营主题、司机日运营主题以及乘务员日运营主题(车队、线路运营主题和分公司基本一致)的详细描述。主主题名名公共公共码键属性属性组分公司运营主题分公司编号分公司固有信息:分公司名称、分公司编号等运营信息:实际运营圈次、营运车日等计划信息:计划线路数、计划普票收入等收银信息:收银收入、收银人次等油耗信息:标准能源应耗、标准能源实耗等安全信息:事故次数、事故收入等服务信息:服务检查数、整洁检查数等日期信息:年、月、日、节日等。表3.1 主题的详细描述3.2.2 逻辑模型设计主主题名名公共公共码键属性属性组车辆运营主题车辆编号车辆固有信息:车辆编号等运营信息:实际运营圈次、营运车日等计划信息:计划线路数、计划普票收入等收银信息:收银收入、收银人次等油耗信息:标准能源应耗、标准能源实耗等日期信息:年、月、日、节日、天气等。司机运营主题司机编号运营信息:实际运营圈次、总行驶时间等计划信息:计划行驶千米、计划运营圈次等收银信息:收银收入、收银人次等日期信息:年、月、日、节日、天气等。乘务员运营主题编号乘务员固有信息:乘务员姓名、乘务员编号等;运营信息:实际运营圈次、总行驶时间等;计划信息:计划行驶千米、计划运营圈次等;收银信息:收银收入、收银人次等日期信息:年、月、日、节日、天气等。接表3.1 主题的详细描述3.2.2 逻辑模型设计(2)维度设计 维度是用户观察、分析数据的角度,也是连接用户和数据仓库数据的接口。维度常常是一组指标,用户可以从不同的维度指标来进行数据的组织分析。为了避免维度孤岛的问题发生,在维度设计时应采用一致性维度的方法。一致性维度主要有两种存在方式:(1)一致性维度是同一的 一致的维度具有一致的关键字、一致的属性列名称、一致的属性定义以及一致的属性值,只要其中一项不同维度表就不一致。(2
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号