资源预览内容
第1页 / 共82页
第2页 / 共82页
第3页 / 共82页
第4页 / 共82页
第5页 / 共82页
第6页 / 共82页
第7页 / 共82页
第8页 / 共82页
第9页 / 共82页
第10页 / 共82页
亲,该文档总共82页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
金融集团大数据分析平台总体架构 议程 大数据分析平台综述 1 大数据分析平台总体架构 2 大数据分析平台演进路线 3 大数据分析平台一期实施重点 4 附录 数据质量管理平台 5 大数据分析平台建设目标 外部非结构化数据 统一制定目标和分析模型 自定义报表工具行 列的简单定义方式 多种格式报表 集团决策层 集团职能管控层 各级业务操作层 关注集团主要经营指标 业务人员使用BI应用实现业务协作和创新 BI分析工具 供应链金融系统 POP系统 其他业务系统 云数据推送平台已实现了主要零售及金融业务系统数据清洗 整合 为未来金融集团数据平台提供了丰富的数据源 通过数据平台和BI应用建设 金融集团将搭建统一的大数据共享和分析平台 对各类业务进行前瞻性预测及分析 为集团各层次用户提供统一的决策分析支持 提升数据共享与流转能力 采购管理系统 查看职能部门的业务经营情况 大数据分析平台建设预期收益 2 加强业务协作 实现分散在供应链金融 人人贷 保理等各个业务系统中的数据在数据平台中的集中和整合 建立单一的产品 客户等数据的企业级视图 有效促进业务的集成和协作 并为企业级分析 交叉销售提供基础 3 促进业务创新 金融集团业务人员可以基于明细 可信的数据 进行多维分析和数据挖掘 为金融业务创新 客户服务创新 产品创新等 创造了有利条件 4 提升建设效率 通过数据平台对数据进行集中 为管理分析 挖掘预测类等系统提供一致的数据基础 改变现有系统数据来源多 数据处理复杂的现状 实现应用系统建设模式的转变 提升相关IT系统的建设和运行效率 5 改善数据质量 从中长期看 数据仓库对金融集团分散在各个业务系统中的数据整合 清洗 有助于企业整体数据质量的改善 提高的数据的实用性 通过数据平台实现数据集中 确保金融集团各级部门均可在保证数据隐私和安全的前提下使用数据 充分发挥数据作为企业重要资产的业务价值 1 实现数据共享 议程 大数据分析平台综述 1 大数据分析平台总体架构 2 大数据分析平台演进路线 3 大数据分析平台一期实施重点 4 附录 数据质量管理平台 5 大数据分析平台总体架构 历史数据查询 数据交换平台 应用集市数据区 商城零售 供应链金融 人人贷系统 基金系统 系统 企业内外部半结构化 非结构化数据 大数据交换组件 数据库数据交换组件 数据区数据交换组件 大数据区 沙盘演练数据区 实时数据区 客户主题 协议主题 产品主题 业务沙盘演练 数据增值产品 零售数据 供应链数据 增值产品数据区 主题数据区 用户访问层 客户汇总 账户汇总 机构汇总 社交媒体 移动互联 用户评价 访问日志 处理后大数据 待处理大数据 流程调度 监控告警 数据标准 数据质量 元数据 数据安全 流程调度平台 数据管控平台 流程调度层 实时数据查询 客户管理 财务管理 外部用户 贴源数据区 内部管理分析 内部用户 历史归档数据区 IT人员 风险管理 大数据分析平台总体架构 数据产生层 内部业务系统产生的结构化数据商城日常零售业务处理过程中产生的结构化数据 存储在关系型数据库中 如 供应商信息 采购信息 商品信息 销售流水 金融集团日常业务处理过程中产生的结构化数据 存储在关系型数据库中 如 客户信息 账户信息 金融产品信息 交易流水 企业内部非结构化数据日常业务处理过程中产生的非结构化数据 存储形式多样 主要包括用户访问日志 用户投诉 用户点评 企业外部数据企业外部数据以非结构化为主 主要包括国家政策法规 论坛等互联网信息 地理位置等移动信息 微博等社交媒体信息 源数据内容 在本次项目实施中将采用以增量为主 全量为辅结合的方式获取源数据商城和金融集团业务系统的数据增量数据识别 获取由云数据推送平台负责 云数据推送平台采用分析 对比源系统日志方式实现对于无法通过上述方式获取增量的源系统数据 则采用某一个时间范围内的全部数据作为增量初始数据加载均采用全量模式 源数据增量 大数据分析平台总体架构 数据交换层 数据交换层设计目标 传输组件是根据数据源存储的不同分类而设计的 本质是通过分析数据存储结构和数据存储库的特点来针对性的设计工具 以追求卓越的性能 数据区数据交换组件 数据库数据交换组件 大数据交换组件 金融集团系统 数据服务层 外部大数据 商城系统 Hadoop元数据 云数据推送平台 数据平台导入临时区 数据平台导出临时区 NAS存储 ETL程序区 大数据分析平台总体架构 数据交换层NAS存储 Hadoop集群元数据区 数据平台ETL数据处理程序区 数据平台临时数据区 存储数据平台各个Hadoop集群的元数据信息 如 HDFS文件系统元数据 集团数据交换平台每日获取运输局推送平台提供的业务系统变化数据 暂存在NAS临时数据区金融数据平台加工计算结果返回给业务系统 暂存在NAS临时数据区 数据平台ETL加工处理程序 数据压缩 数据加载 各数据数据处理等 统一存储在NAS集群指定目录 各接口服务器通过文件系统Link建立映射 大数据分析平台总体架构 数据交换层大数据交换组件 企业内部非结构化 半结构化数据 如 音频 视频 邮件 Office文档 抵押品扫描件等企业外部非结构化 半结构化数据 如 微博 贴吧 论坛 用户点击流 用户移动位置等 批量采集 大数据源以SFTP协议批量传输数据文件在线访问 开发Java或C应用 调用大据源API 或以网络平台爬虫方式抓取源系统非结构化 半结构化数据 组件以实时和批量两种模式实现下列功能 数据采集数据传输到数据交换平台 接口服务器 NAS指定目录存储数据到数据平台大数据区指定HDFS目录 定时抽取用户访问日志 加载到数据平台大数据区HDFS指定目录 MR程序加工处理开发网络爬虫程序 扫描用户微博 抓取用户微博内容 社交圈信息 存入大数据区 大数据分析平台总体架构 数据交换层数据库数据交换组件 企业内部业务系统产生的结构化数据 包括两大来源 商城零售业务数据 数据存储在Oracle SQLServer MySQL和MongoDB四类数据库金融集团互联网金融业务数据 数据存储在MySQL数据库 Perl程序数据采集 调用Perl文件模块相关函数 轮询指定目录 获取数据文件数据核查 Perl执行文件级数据质量检查数据加载 调用HiveLoad数据命令 加载到数据平台临时数据区的HiveTable 组件以实时和批量模式实现下列功能 数据采集 轮询NAS集群指定目录 获取数据文件 LZO压缩 数据核查 对数据文件进行质量校验数据加载 加载数据到临时数据区 云数据推送平台连接供应链金融系统数据库 分析供应链金融MySQL数据库日志 识别增量数据 存储到金融平台NAS存储的指定目录 金融平台加载数据文件到数据平台临时区Hive表 大数据分析平台总体架构 数据交换层数据区数据交换组件 数据平台计算层各数据区贴源数据区主题数据区集市数据区沙盘数据区大数据区归档数据区 Sqoop实现集市数据区与数据平台其他Hadoop数据区的数据交换Hadoop命令 Hive外部表 MR程序实现数据平台Hadoop数据区间的数据交换 组件以批量方式实现下列数据交换功能 贴源数据区和主题数据区到集市数据区大数据区到主题数据区和集市数据区主题数据区 贴源数据区 集市数据区到沙盘数据区各个数据区数据归档 数据集市的数据按照据生命周期规划 统一将过期数据归档到历史数据归档区 大数据分析平台总体架构 流程调度层批量处理流程 批量数据处理由流程调度层部署的自定义开发WorkFlow组件调度运行整个流程主要完成如下工作 获取业务系统结构化数据 存入临时数据区获取企业内外部非结构化数据 并进行结构化处理 存入主题或集市数据区按照贴源数据模型整合数据 标准化 数据更新 追加 按照主题数据模型整合数据并生成汇总数据加工计算后 结果交付到数据集市 支持分析类应用 大数据分析平台总体架构 流程调度层实时数据处理流程 实时数据处理强调的是实时或准实时获取并处理数据 通常采取消息队列等技术构建 数据流 整个处理流程由流程调度层部署的自定义开发WorkFlow组件调度运行整个流程主要完成如下工作 通过数据库数据交换组件获取增量数据 加载到实时数据区通过大数据交换组件获取非结构化数据 并利用Storm处理数据 加载到实时数据区针对实时数据区数据执行标准化处理和贴源整合 大数据分析平台总体架构 流程调度层归档数据处理流程 数据归档的对象包括业务系统数据文件 贴源数据区数据 主题数据区数据 大数据区数据和集市数据区数据数据按照生命周期规划存储到归档区Hadoop集群 归档后原数据区删除此数据整个处理流程由流程调度层部署的自定义开发WorkFlow组件调度运行整个流程主要完成如下工作 数据文件通过HDFS命令行copyfromlocal进行归档贴源 主题和大数据区通过HDFS命令行distcp或自定义开发的MR程序执行归档集市数据区通过Sqoop或数据库提供的Hadoop集成技术 如 外部表 执行归档 大数据分析平台总体架构 数据存储层 业务系统前日增量数据缓存数据 支持后续ELT数据处理 数据内容主要用途 数据模型保留周期 用户访问模式 工作负载 平台要求 贴源数据模型保存最近7天数据 贴源数据区和主题数据区批量作业访问无最终用户访问 I O敏感 连续小批量的数据抽取和加载少量量数据使用Hive的Load命令 大量数据使用MR程序 与主题区 贴源区 集市区构成一个Hadoop集群 Hive 无单点故障 7 24小时 非工作日有限停机 主题数据区 集市数据区和沙盘演练数据区批量作业访问无最终用户访问 I O敏感 日终批量ETL以ELT形式通过HiveSQL执行 与主题区 贴源区 集市区构成一个Hadoop集群 Hive 无单点故障 7 24小时 非工作日有限停机 贴源数据模型不保存历史 业务系统前日快照数据和一段时间的流水数据数据标准化 为后续主题模型 集市和沙盘演练提供数据 临时数据区 贴源数据区 大数据分析平台总体架构 数据存储层 续 企业内外部非结构化 半结构化数据采集并存储数据 进行结构化处理 最终得到结构化数据 数据内容主要用途 数据模型保留周期 用户访问模式 工作负载 平台要求 数据按照HDFS文件存储建议保留1年 集市区 沙盘区 增值产品区 主题区 归档区批量作业访问少量高级业务人员进行大数据分析 MapReduce分布式计算 半 非结构化数据的结构化处理 包括文本检索 语义分词 图像识别 音频识别等 与主题区 贴源区构成一个Hadoop集群 HDFS 无单点故障 7 24小时 非工作日有限停机 集市区 沙盘区 增值产品区 主题区 高时效区批量作业访问业务人员执行历史数据查询 MapReduce分布式计算 HDFS命令实现Hadoop集群内归档 Sqoop实现数据库归档 通过Hive提供历史查询 独立的Hadoop集群 HDFS Hive 无单点故障 7 24小时 非工作日有限停机 数据按照HDFS文件存储数据文件按照数据区划分目录 建议保留7年 其他各数据区历史数据按数据生命周期规划归档平台过期数据 支撑历史数据查询 大数据区 历史归档数据区 大数据分析平台总体架构 数据存储层 续 业务系统历史明细数据打破业务条线整合数据 数据内容主要用途 数据模型保留周期 用户访问模式 工作负载 可用性要求 第三范式模型保留长期历史 需要根据主题细化 主题区 集市区 沙盘区 增值产品区 归档区批量作业访问少量高级业务人员进行灵活查询 挖掘预测 I O敏感 日终批量ETL 合并 拉链 关联 汇总等等 以ELT形式通过HiveSQL执行 复杂处理使用MR定制UDF 与大数据区 贴源区构成一个Hadoop集群 Hive 无单点故障 7 24小时 非工作日有限停机 集市区 沙盘区 增值产品区 归档区批量作业访问少量高级业务人员进行灵活查询 挖掘预测 I O敏感 日终批量ETL 连接 聚合 汇总等等 以ELT形式通过HiveSQL执行 复杂处理使用MR定制UDF 与大数据区 贴源区构成一个Hadoop集群 H
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号