资源预览内容
第1页 / 共75页
第2页 / 共75页
第3页 / 共75页
第4页 / 共75页
第5页 / 共75页
第6页 / 共75页
第7页 / 共75页
第8页 / 共75页
第9页 / 共75页
第10页 / 共75页
亲,该文档总共75页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
数据仓库中的元数据元数据:关于数据的数据;描述数据结构、内容、码、索引等信息。元数据的重要性元数据的内容元数据的重要性管理人员做分析时,往往先从元数据入手。例如:从元数据中查广义索引,再进一步搜索支持数据转换:DB环境的数据DW环境的数据元数据描述“转换”;元数据本身具有良好的灵活性,适应变化。例如:不同时期,数据结构是变化的支持对数据仓库中数据的理解例如:结构、粒度层次、分片策略、索引等元数据的分类技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。 商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表;业务的关注点,比如销售量,客户购买情况维度建模方法维度建模维度建模的相关概念维度建模的基本步骤多维数据模型直观的表示现实中的复杂关系基本组成维度量(变量、指标)立方体Example:计算每一个商场,每一产品销售额产品、商场交叉表产品、商场交叉表联机分析(OLAP)维度模型多维数据模型的组成维(Dimension)维层次路径、维层次、维成员(维实例)、维层次属性事实(Fact)度量(Measure)数据立方体(Cube)维维:对数据进行分类的一种结构,以用于从特定的角度观察数据。(例如:时间、地区、产品)维的两个用途选择针对期望详细程度的层次的数据分组对细节数据综合(聚集)到相应的详细程度的数据层次维维的组织方式:维层次路径(HIERARCHY )维层次路径由代表不同详细程度的维层次(Level)组成。维的层次:特定角度的不同细节程度维层级层级是维度属性组内属性之间的两级或多级结构。高一级的属性(组)构成的维度完全包含低一级的一个或多个属性(组)构成的维度。CountryStateCountyCity事实(度量)度量(指标):数据的实际意义,一般是一个数值度量指标例如:销售量、销售额,而具体数据(如“10000”)是变量的一个值事实: 存储一个多维数据表达期望分析的主题(目的、感兴趣的事情、事件或者指标等)具有一定的粒度,粒度的大小与维层次相关一个事实中通常包含一个或者多个度量一个度量的两个组件数字型指标聚集函数立方体(CUBE)按照一定维层次结构和度量(事实)的逻辑上的组织其逻辑上相当于一个多维数组多维数组多维数组:一个多维数组表示为:(维1 ,维2 ,.,维n,变量)例如:(时间、地区、销售渠道、销售额)可扩展维数:如(时间、地区、销售渠道、商品类型、销售额)数据单元(Cell)数据单元(单元格):多维数组的取值可表示为: (维1维成员,维2维成员,.,维n维成员,变量的值)例如: (1997年1月,北京,批发,10000)多维分析多维多维的的切片(切片(sliceslice)从多维数组选定一个二维子集,切出一个“平面”多维多维的的切块(切块(dicedice)从多维数组选定一个三维子集,切出一个“立方体”切片切片和切块多维分析2002年2003年1季度2季度3季度4季度1季度2季度3季度4季度北京市123564566134562355上海市13410398871021399782天津市6773599673696294旋转 改变一个报告(或页面)显示的维方向旋转北京市上海市天津市2002年1季度123134672季度56103733季度4598594季度6687962003年1季度134102732季度56139693季度2397624季度558294钻取根据维层次,改变数据的粒度“上卷” (roll_up)是指沿某一个维的概念分层向上归约 ;“下钻” (drill_down)是上卷的逆向操作,它是沿某一个维的概念分层向下或引入新的维来实现;其它OLAP操作“钻过”(Drill Across)是指对多个事实表进行查询;“钻透”(Drill Through)是指对立方体操作时,利用数据库关系,钻透立方体的底层,进入后端的关系表。OLAP的其它操作还有统计表中最高值和最低值的项数,计算平均值、增长率、利润、投资回报率等统计计算。多维数据模型的实现Relational OLAP (ROLAP)(关系数据库)利用关系数据库来存储和管理基本数据和聚合数据,并利用一些中间件来支持缺失数据的处理,具有良好的可扩展性Multidimensional OLAP (MOLAP)利用多维数据库来存放和管理基本数据和聚合数据,其中需要对稀疏矩阵处理技术对预综合的数据进行快速索引Hybrid OLAP (HOLAP)利用关系数据库来存储和管理基本数据,利用多维数据库来存储和管理聚合数据。多维数据的组织存放(细节数据)关系数据库中的数据组织多维数据库中的数据组织MDB方法的优点(细节数据)清晰简明,占用存储少性能好,尤其像“冰箱销售总量是多少?”的查询RDB方法:找出有关“冰箱”的记录,再对销售MDB方法:找到有关“冰箱”的行,按行求和多维数据的组织存放(综合数据)RDB中数据组织MDB中数据组织MDB方法的优点(综合数据)多维概念表达清晰,占用存储少对数据进行综合的速度快(只需按行/列累加)在RDB中,“总和”作为某个域上的取值(属性值)与列定义语义不符用关系结构表示多维数据关系数据库使用广泛,相当成熟用二维表表达多维概念用两类表来表示多维结构: 事实表,维表事实(fact)表用来存储变量值和各维的码值维表用来存储维的描述信息(元数据),包括层次和类等维度模型一种非规范化的关系模型由一组属性构成的表所组成表与表之间的关系通过关键字和外键来定义以良好的可理解性和方便的产生报表来进行组织,很少考虑修改的性能通过MDX或相关的工具实现数据的查询和维护E-R模型和维度模型ER模型模型维模型维模型数据组织一张表代表一个实体数据组织以事实表为核心要求目标最少的数据冗余最大的可理解性优化策略面向Update操作进行优化面向检索进行优化面向系统面向事务处理的模型面向数据仓库的模型星形模型Product TableProduct_idProduct_disc,. Time TableDay_idMonth_idYear_id,.Sales Fact TableProduct_idStore_idItem_idDay_idSales_amountSales_units, .Item TableItem_idItem_desc,.Store TableStore_idDistrict_id,.Central fact tableDenormalizeddimensionsFact Table每一个事实表通常包含了处理所关心的一系列的度量值每一个事实表的行包括具有可加性的数值型的度量值与维表相连接的外键事实表(fact table)Year Product Type Sales Region Marketing Campaign Buyers Age Total Sales 2003Mythic WorldNortheastHistory Mag Spring Ad02556,3422003Mythic WorldNortheastHistory Mag Spring Ad2535104,5472003Mythic WorldNortheastHistory Mag Spring Ad3545234,3852003Mythic WorldNortheastHistory Mag Spring Ad4555534,5322003Mythic WorldNortheastHistory Mag Spring Ad5565829,2822003Mythic WorldNortheastHistory Mag Spring Ad65+284,540事实表讨论 假设,以上案例中marketingcampaign维有8个成员,year维度有6个成员,producttype维度有4个成员,salesregion维有4个成员, buyersage维有6个成员,事实表中的记录数可达到: 8 6 4 4 6 or 4608 rows in the SalesFact table. 度量组(measure group)事实表的特征非常大列数较少经常发生(数据追加)变化事实表的使用各类度量值的聚集计算Dimension Table每一张维表对应现实世界中的一个对象或者概念例如:客户、产品、日期、地区维表的特征包含了众多描述性的列通常情况下,跟事实表相比,行数相对较少内容相对固定维表的应用基于维属性的过滤(切片、切块等)基于维属性的个中聚集操作(上卷、下钻)报表中各类标签的主要来源事实表通过维表进行应用Snowflake Schema ModelTime TableWeek_idPeriod_idYear_idDept TableDept_idDept_descMgr_idMgr TableDept_idMgr_idMgr_nameProduct TableProduct_idProduct_descItem TableItem_idItem_descDept_idSales Fact TableItem_idStore_idProduct_idWeek_idSales_amountSales_unitsStore TableStore_idStore_descDistrict_idDistrict TableDistrict_idDistrict_desc慢变维(SCD)相对与事实表,维表的内容稳定新的事务或交易不断产生新产品的加入却相对较少新商场的开张更少有些维度内容尽管变化相当缓慢,但维度属性可能随着时间发生变化客户地址发生变化商场根据地域进行分组,或者由于企业重组,地域的划分也随之改变数据仓库的生成(Extract)数据的抽取(Transform)数据的转换(Clean)数据的清洗(Load)数据的装载数据抽取、转换和加载 (ETL)“Effective data extract, transform and load (ETL) processes represent the number one success factor for your data warehouse project and can absorb up to 70 percent of the time spent on a typical data warehousing project.” DM Review, March 2001SourceTargetStaging Area抽取、转换和加载(ETL)过程 抽取源数据转换/清除数据索引和相加加载数据到数据仓库检测修改更新数据Operational systemsETLData WarehouseProgramsToolsGatewaysETL: 任务、重要性和费用Operationalsystems相关性相关性实用性实用性可靠性可靠性准确性准确性操作性操作性Data WarehouseETL抽取抽取清洗清洗整合整合重构重构装载装载维持维持更新更新Warehousedatabase抽取数据 Source systemsData from various data sources in various formatsExtraction RoutinesDeveloped to select data fields from sourcesConsist of business rules, audit trails, error correction facilitiesData mappingTransformOperationaldatabasesData staging area检查源数据产生归档的内部的外部的抽取技术Programs: C, C+, COBOL, PL/SQL, JavaGateways: transparent database accessTools:In-house developed tools Vendors data extraction tools抽取方法Logical Extraction methods:Full ExtractionIncremental ExtractionPhysical Extraction methods:Online ExtractionOffline Extraction抽取工具转换Transformation eliminates anomalies from operational data:Cleans and standardizesPresents subject-oriented dataExtractWarehouseLoadOperationalsystemsData Staging AreaTransform:Clean upConsolidateRestructure转换技术Merging dataAdding a Date StampAdding Keys to Data转换工具Third-party tools(第三方工具)SQL*Loader(结构化查询语句)In-house developed programs(高级语言自己写程序)加载数据到数据仓库Loading moves the data into the warehouseLoading can be time-consuming:Consider the load windowSchedule and automate the loading Initial load moves large volumes of dataSubsequent refresh moves smaller volumes of dataOperationaldatabasesWarehousedatabaseStaging areaExtractTransformTransport,Load加载技术Tools(工具)Customized copy programsFTPManual数据仓库的使用和维护DSS应用开发的步骤数据仓库的使用及维护理解需求、完善系统增加主题(如:在商场DW中增加“顾客”主题)调整粒度层次增加属性(如对“商品”主题增加“商品档次”属性)DW维护数据装入(刷新当前详细数据,将过时数据转化为历史数据)清除不再使用的数据追加数据(确定刷新频率)管理元数据Inmon提出的设计步骤Data Marts数据仓库(事实和汇总)数据的一个子集。 BI环境中的大部分分析活动均在数据集市中进行。每个数据集市中的数据通常是为特定的功能(或部门)所定制,不必对其他的使用有效。Data Warehouses Versus Data MartsPropertyData WarehouseData MartScopeEnterpriseDepartmentSubjectsMultipleSingle-subject, LOBData SourceManyFewImplementation timeMonths to yearsMonthsDependent Data MartOperationalSystemsExternal DataOperations DataLegacy DataData WarehouseData MartsFlat FilesMarketingSalesFinanceMarketingSalesFinanceHRExternal DataIndependent Data MartSales orMarketingFlat FilesOperationalSystemsExternal DataOperations DataLegacy DataExternal Data案例分析案例背景经过三年快速的增长,MAXMIN公司的业务增长了300%,基于原有信息系统的报表系统只能提供细节型的信息,并且难以提供多种视角的灵活分析方式。同时,在同产品领域的竞争非常激烈,公司为了应对竞争需要进行有效的决策,而现有现有系统架构下难以满足。基于以上两点,公司决定开发一种真正的商务智能系统。当前系统业务需求基于每天、每台机器、每种产品、每一批次的合格品数量基于每天、每台机器、每种产品、每一批次的次品数量基于每天、每台机器、每种产品、每一批次的注塑和固化时间基于每天、每台机器、每种产品、每一批次的处理和喷绘时间产品能够按照产品子类别、产品类别进行上卷和下钻机器能够按照机器类别和材料(粘土、白蜡和铝)进行上卷和下钻机器能够按照生产工厂和国家进行上卷和下钻日期能够按照月份、季度和年份进行上卷和下钻现有数据(生产自动化系统日志)产品原材料批次编号机器编号号操作员编号生产起始日期和时间(每批次开始)生产结束日期和时间(每批次结束)不合格标志度量值Measure OLTP Fields Number of Accepted ProductsReject FlagNumber of Rejected ProductsReject FlagElapsed Minutes for Molding and HardeningNOT AVAILABLEElapsed Minutes for Painting and CuringNOT AVAILABLEMeasure OLTP Fields Data Type Formula Number of Accepted ProductsReject FlagIntCount when reject flag is falseNumber of Rejected ProductsReject FlagIntCount when reject flag is trueElapsed Minutes for ManufacturingStart of manufacture date and time, End of manufacture date and timeDecimal(6.2)DATEDIFF( mi. Start of manufacture date and time. End of manufacture date and time)维度数据Dimension OLTP Fields ProductProductProduct SubtypeNOT AVAILABLEProduct TypeNOT AVAILABLEBatchBatchMachineMachineMachine TypeNOT AVAILABLEMaterialNOT AVAILABLEPlantNOT AVAILABLECountryNOT AVAILABLEDayStart of Manufacture Date and TimeMonthStart of Manufacture Date and TimeQuarterStart of Manufacture Date and TimeYearStart of Manufacture Date and TimePaint TypeNOT AVAILABLEDimension OLTP Fields Data Type Parent Dimension ProductProductIntProduct SubtypeProduct SubtypeAccounting System.ProductSubtypeIntProduct TypeProduct TypeAccounting System.ProductTypeIntNoneBatchBatchIntNoneMachineMachineIntMachine Type, PlantMachine TypeAccounting System.MachineTypeVarchar(30)MaterialMaterialAccounting System.MaterialVarchar(30)NonePlantAccounting System.PlantIntCountryCountryAccounting System.CountryChar(3)NoneDayStart of Manufacture Date and TimeIntMonthMonthStart of Manufacture Date and TimeIntQuarterQuarterStart of Manufacture Date and TimeIntYearYearStart of Manufacture Date and TimeIntNone物理表创建外键创建数据仓库产品维度(产品表、子类别表和类别表)地理维度(工厂表和国家表)材料维度(材料表和机器类别表)机器维度(机器表)批次维度(批次表)事实表
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号