资源预览内容
第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
亲,该文档总共8页全部预览完了,如果喜欢就下载吧!
资源描述
集团大数据平台整体方案业务需求分析1.1 总体需求大数据平台应支持集团总部、省和地市三级使用方式。使用单位还包括下属单位和控股公司等。大数据平台要求使用 Hadoop 系统应实现主流数据仓库的功能, 同时支持与现有系统 Oracle 数据库及 Teradata 数据仓库的无缝连接。大数据平台需支持多应用管理,即支持对应用的服务级别管理( SLA )。能够实现应用的访问资源控制,支持资源隔离。同时支持多租户功能,例如多租户管理、租户的操作员管理、租户的分等分级分组管理、租户的度量管理、租户的角色管理、租户应用授权、租户数据隔离、租户的资源隔离等功能。大数据平台应具有统一运维监控方面,可以图形化的实现安全管理、用户管理、监控运维、服务调度、应用部署、资源管理、作业编排、服务接口等。大数据平台应同时支持作业调度管理,即实现统一的作业调度与编排管理功能,支持使用工作流的可视化的方式对工作任务进行统一编排和调度。同时支持作业的资源管理、流程管理、任务管理、数据管理、应用管理、租户管理、多ETL 调度任务的部署和并行处理等功能。集团大数据平台的建设内容包含:量收数据迁移六大重点应用量收接口迁移(对外接口)营销数据(ACRM交互)量收业务分析(逻辑)迁移主数据交互(ERP MDM)四大核心功能综分平台融合UI多终端应用计算JDBC、 ODBC逻辑平台R、 SQL Parser总部、省、地三级Map Reduce 、 Spark基础TDH Hadoop平台架构Str/UnStrTOS (SLA ) CloudSOA外围数据量收(存量)业务系统图 3-1 大数据平台建设内容重点建设内容包括:1) 基础平台建设2) 量收迁移3) 六大重点应用4) 与 CRM 、综分、 MDM 等系统的融合5) 基于大数据平台的数据应用。1.2 数据管理集团大数据平台的数据管理, 包含数据采集、 数据交换、数据存储与管理 (包含结构化数据管理、 半 / 非结构化数据管理、数据存储等) 、数据清洗加工、数据计算和查询等方面的内容。1.2.1 数据采集大数据平台需要采集各类内外部数据,形式多样,需支持不同频度、不同形态的数据采集。采集方式包含网上数据填报、流方式、批量导入方式、外部数据文件导入、异构数据库导入、 主动数据抽取、 增量追加方式、 网上爬虫方式等,数据形态包括结构化数据、半结构化数据、非结构化数据。1.2.2 数据交换与大数据平台对接的系统很多,这些系统数据库结构各异。因此,数据交换方面,需要考虑各类数据格式、各类传输频次的数据导入导出。数据源包括各业务系统数据接入、互联网数据采集、合作伙伴系统数据接入、外部临时数据导入支持等。数据格式主要包含文本文件, XML 等多种方式,传输频次包含非实时、准实时、实时形式。同时支持数据源管理功能,实现大数据平台内各存储区之间的数据交换功能,提供可自定义的对外数据服务接口能力,同时支持数据接口热扩展能力。1.2.3 数据存储与管理结构化数据管理包括对结构化数据的采集管理、数据加工管理、数据存储管理、对外接口、实时监控、安全管理、数据重构等功能。半 / 非结构化数据管理包括半 / 非结构化数据的采集管理、数据内容搜索、数据生命周期管理、数据加工管理、数据存储管理、对外接口、混合查询、实时监控、自然语言查询、智能化知识检索功能。数据存储管理功能包括数据分区划分方式、适用场景、对应计算处理框架、硬件配置推荐等。同时需要支持多存储层级,实现数据的多温度管理,能够将数据存储在不同读写速度的不同介质上。支持对数据生命周期进行管理。支持多种索引模式,具有索引分析与选择功能和工具。支持多数据副本管理功能,能够进行数据平衡、索引平衡的检测。支持自动平衡功能和数据自动重分布功能,提供数据平衡和索引平衡的工具。支持在线变动节点管理功能,支持在线增加、删除节点时,数据和索引的倾斜探测和自动平衡功能,多数据类型管理、多文件格式管理、数据自定义标签管理、数据块读写锁处理、数据文件元数据备份和恢复,支持数据压缩、表压缩功能,节省数据空间。IO1.2.4 数据加工清洗支持数据从来源端经过抽取、转换、加载至目标端的过程。支持多数据源,包括Teradata 、 Vertica 、DB2 、Oracle 、Sybase 、文本、 Excel 、 Hadoop 等数据源。实现传统数据库、数据仓库与 Hadoop 以及 Hadoop 集群之间的数据抽取、转换、加载等功能。支持数据加工功能, 提供数据加工规则管理, 支持不同形态数据加工管理;支持数据清洗功能, 包括数据清洗环节管理、 数据清洗规则管理、数据清洗监控、数据清洗预览、应用主数据进行清洗管理等功能。1.2.5 数据查询计算支持对多计算框架管理,计算框架包括批处理计算框架、内存计算框架、流计算框架等。支持并行计算及并发处理功能,支持多服务器、多CPU 、多进程并行及并发处理数据的机制。支持 PL/SQL 存储过程、 分布式事务及ACID 属性及自定义函数功能。能够实现OLAP 查询功能,需要内置OLAP 函数,支持超大数据立方,支持雪花、星型等复杂模型。支持CUBE ,支持国际SQL92 、 SQL2003标准,能够实现数据字典、动态 SQL 执行、视图、子查询、 JOIN 查询功能。支持全文检索。支持中文字符集, 实现中文分词功能,支持结构化数据和半/ 非结构化数据联合查询, 支持预定义维度数据查询,支持简单查询、组合查询、模糊查询等。1.3 数据管控数据管控主要是对主数据、元数据、数据标准和数据质量的管控。集团大数据平台的数据管控组件对集团集团现有的产品能够完善集成,使集团元数据能够整体管理。图 3-2 大数据平台数据管控1.4 数据分析与挖掘本方案对 R 语言提供支持。 支持 ANSI SQL 、Python 、R、 Java 、C/C+ 等语言的使用。应提供图形化界面操作支持,操作界面要求简体中文。支持对 TB 以上级别的数据进行分析挖掘的功能,应对分析挖掘中的中间数据和结果数据的灵活存储提供支持,应对多数据来源输入输出提供支持。支持处理过程的数据预览功能。支持数据分析挖掘算法管理, 每个算法能够灵活选择数据源。支持对分析挖掘的脚本和模型的共享, 可实现用户分析挖掘脚本和模型的发布与管理。支持数据的探索和发现, 实现通过作图、 制表、方程拟合、计算特征量等手段探索数据结构和规律。对统计分析方法、数据挖掘、模型预测提供支持, 并实现其分布式并行计算。对常用场景实现提供支持。 场景包括客户画像、 产品推荐、自然语言处理、语义分析、舆情分析、文本挖掘、客户行为预测等。对分析挖掘的脚本和模型的快速应用、服务提供支持, 能够快速生成分析报告和图表、发布实时/ 非实时的分析应用、使用 Web 方式访问分析应用成果。实现对分析指标管理、 分析过程的管理以及对挖掘模型固化的支持。1.5 数据展现支持多数据来源输入输出;支持表格、图形、地图等可视化元素展示,对电子地图、GPS 定位的应用、服务提供支持。支持数据互动、过滤、钻取、刷取、关联、变换等功能。支持多维度多种类的自定义。支持数据脱敏的展示。支持多种展示端的展示,包括PC 端、移动端、大屏等。其中移动端应基于集团移动应用平台架构建设。1.6 量收系统功能迁移量收系统主要功能有基本业务分析、渠道分析、产品分析、大客户分析、欠费分析、流量流向分析、进销存分析、预警稽核、系统优化功能等,需要对原量收系统全部功能进行迁移。
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号