资源预览内容
第1页 / 共4页
第2页 / 共4页
第3页 / 共4页
第4页 / 共4页
亲,该文档总共4页全部预览完了,如果喜欢就下载吧!
资源描述
1. 生命周期a) 业务需求定义i. 收集需求ii. 分析业务iii. 数据仓库建立总线矩阵iv. 项目规划b) 维度建模、i. 建模过程1. 标识需要建模的业务过程2. 声明粒度3. 标识和选择维度4. 标识和选择事实ii. 维度表1. 代理键a) 日期维度可以使用20140101 这样的智能键,智能键可以用来分区2. 渐变维度a) SCD1 直接更新b) SCD2 标记维度的时间作用域,插入新数据,增加新行c) SCD3 不同的列 记录不同时间域的值,增加新列d) 将经常变化属性集合为小维度表3. 退化维度a) 没有对应维度表的非事实属性:类似于订单 ID4. 支架维度/引用维度a) 比较类似于雪花模型,例如顾客的生日属性可以链接到日期维度表。 日期维度表就是顾客维度的支架维度5. 多值维度a) 使用桥接表实现b) 事实与维度的多值关系i. 例如订单的为多商户分成,可以通过一个商户分组链接表实现, 订单事实中记录商户分组的ID,分组链接表中分行记录不同商 户的账号 ID 及其分成c) 维度与维度的多值关系i. 例如用户帐户维度与消费自然人客户维度有多对多关系。因此在 帐户维度表与自然人维度表中加入一个“帐户与客户关系”桥接 表。记录d) 可变层次展示i. 例如职员与职员间隶属关系:可以使用桥接表记录每个职员与其 所有下属之间的隶属距离和其下属的直接上司,就可以层次化的 表示出职员之间关系6. 角色扮演维a) 例如下单日期维度和退款日期维度都是通过视图链接到日期维度表, 这两个维度都是角色扮演维。7. 杂项维度a) 慎用杂项维度b) 将小维度合并组成杂项维度。iii. 事实表1. 事务型事实2. 周期快照事实3. 累计快照事实4. 没有事实的事实a) 例如用户登录行为事实,其只有维度没有度量,那么添加一个值永远 为 1 的 login_cnt 字段为度量,方便 sum5. 面向状态的事实表a) 例如帐户余额其实对应了一个具体的自然人,在自然人的地理位置变 化后,该自然人维度会有SCD 2的转换,可能代理键从1 帐户余 额需要做一个SCD 2的转换,将自然人维度引用该为2其实是为了查 询任意时间点,某个地理位置的帐户余额总和c)物理设计和ETL开发i. 源数据探查1. 出具数据剖析表来记录字段的类型,数据分布等ii. 子系统1. 提取a) 数据剖析:KETTLE有插件datacleaner实现i. NULL 值判断ii. 字符串匹配iii. 数值分布报表iv. 正则表达式匹配等b) 更改数据捕获系统: KETTLEc) 提取系统:KETTLE的INPUT节点的功能2. 清理和一致化: KETTLE 已经实现a) 数据清洗i. 转换数据类型ii. 重命令列等b) 数据检验i.Kettle提供了流读取功能来验证数据是否错误1. 取值范围是否合规2. 关系完整性是否存在3. 是否符合状态机规则(例如没有支付日期时就不应该有支付 状态)4. 一般依赖约束:例如派生列和其父列是否满足约束c) 错误事件模式: KETTLE 的错误流节点i. 过程错误:trans step等出错ii. 数据校验错误iii. 过滤器错误iv. 一般步骤错误v. ETL工具箱中描述的错误事件数据分析表能够起作用d) 审核维度汇编器: KETTLE 通过统计节点实现i.审计事实细节:数据从哪里来,什么时候加载,在那个服务器上加载ii. 数据质量指标:读取了多少记录,过滤了多少记录iii. ETL 工具箱中提供了审计维度的模型e) 重复数据删除:KETTLE的删除节点f) 一致化系统: KETTLE 的 LookUp 映射节点实现3. 装载和发布a) 渐变维度处理b) 代理键生成c) 层次结构管理d) 事实表的管理e) 都可由KETTLE现有节点或者组合不同节点实现4. 管理a) 任务调度系统: KETTLE 有简单实现b) 备份系统:没有c) 版本控制系统:没有d) 排序系统: KETTLE 有e) 谱系和依赖关系分析: KETTLE 可以通过插件实现。f) 监控系统: KETTLE 有简单的免费功能版监控d) 主数据管理i. 模型资源管理1. 类似于UML的模型管理2. 增加了各实体及属性的版本控制3. 实现a) 实体表:用来保存各个实体b) 属性表:用来保存各实体的属性及其各版本对应信息,更改时间等c) 关系表:用来保存各实体间关系4. 用于解决类似于表扩散的问题e) 元数据管理i. 过程元数据1. ETL系统的开始、结束时间,CPU使用率,内存使用,处理数据行数等统 计数据2. 筛选和审计结果3. 数据库或者表使用信息4. 报表查看次数、系统调用次数等ii. 技术源数据1. 源数据系统描述:例如连接方式,账号、密码等2. ETL 调度依赖关系等3. 数据库中元素描述:例如mysql中的元数据4. OLAP 聚集的定义5. 报表的定义iii. 业务元数据1. 数据筛选说明2. 数据字典3. ETL MAPPING4. 业务规则描述:例如SCD类型、空值处理策略等iv. 扩展1.影响分析、血缘分析等其实是根据业务元数据中的ETL MAPPING,将各属 性及其派生属性生成类似于Storm中的业务树类似的有向无环图,从而查 询出其血缘及影响。f) 数据质量i. 属性取值范围约束ii. 关系完整性iii. 状态依赖规则(是否满足状态机模型约束,比如订单支付中状态只能对应支付 表中正在处理状态)iv. 一般性依赖状态:例如派生列依赖于其他列取值v. 数据质量保证的想法1. 通过数据剖析来控制源头数据2. 通过数据检验和错误处理保证处理过程的正确3. 通过审计维度保证处理结果的正确g) 调度系统i.调度跟踪ii.资源分配
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号