存储能力详细方案-－金锄头文库

1.1.1.1.1.1 Hadoop存储能力详细方案Hadoop采用HDFS作为其底层文件存储方式。HDFS是分布式文件系统，适合于存储大数据文件，通过将大数据文件切分成多个小数据文件，并且分散存放在多台DataNode服务器，同时提供数据冗余机制保证数据安全。本次Hadoop存储节点为：300台DataNode服务节点。存储数据安全及分配机制：采用3备份机制保证数据安全，同时为系统保留 10%的临时数据交换空间，当数据量超过集群总容量的90%时，建议增加节点。存储总容量：300台数据节点，每个节点36T的磁盘容量，除去10%的临时数据交换空间，同时HDFS中一份数据存放着3份备份；最终存储容量公式如下可用存储容量=节点数*单节点磁盘容量* (1-临时数据交换空间比例)！ HDFS文件备份数量；艮P：可用存储容量=300X36X(1-10%)：3=3240T；目录规划：针对不同的数据用途和支撑方式进行存储容量划分，存放在 HDFS中的数据分为接口层，处理层，共享层。接口层主要为原始数据，处理层为存放在HDFS中数据经Hive映射之后数据，共享层为经数据深度沉淀之后存放在HBase中。接口层：总容量*50%处理层：总容量*30%共享层：总容量*20%1.1.1.1.1.2 Storm存储能力详细方案Storm流数据处理采用linux文件系统作为其存储，数据盘采用raid5保证数据安全。存储总容量为：30台服务器，每台36T，采用Raid5磁盘阵列之后，数据容量为原来的75%，并建议预留10%的空间；最终可用存储计算公式如下：可用存储容量=节点数*单节点磁盘容量*Raid5后的磁盘容量比例* (1-临时数据交换空间比例)；即：可用存储容量=30X 36 X 75% X( 1-10%) =729T；1.1.1.1.1.3 Redis存储能力详细方案Redis包含平台Redis内存数据库和前置Redis内存数据库，平台Redis内存数据库集群用于存放Storm处理后数据，对外提供低延迟数据服务；前置Redis 内存数据库存放应用级数据对外提供服务。平台Redis内存数据库集群：集群通过一台路由服务器根据一套算法将表的Key值打算后分散存放到7 个Redis Master服务器中，同时每一个Master节点对应一个Slave节点保证数据安全，通过路由服务器实现高可用。存储容量为：14台数据服务器，7个Master节点，对应7个Slave节点，每一节点内存为512G，为保证KV查询的高效性，建议预留30%的空间；最终可用存储计算公式如下：可用存储容量=节点数：热备*单节点内存容量*(1-预留空间比例)；即：可用存储容量=142X512X( 1-30%) =2508.8G；前置Redis内存数据库：前置Redis内存数据库中，数据表分别分别存放在不同的节点，同时内存中数据定期备份到本地和远程磁盘，通过该方式在保证了数据安全的同时针对多租户的场景实现了资源隔离。存储容量为：前置数据服务器，每一节点内存为512G，为保证KV查询的高效性，建议预留30%的空间，最终可用存储计算公式如下：可用存储容量=节点数：热备*单节点内存容量* (1-预留空间比例)；即：可用存储容量=4X512X(1-30%) =1433.6；1.1.1.1.1.4 Mysql存储能力详细方案Mysql关系型数据库存储放深度汇总模型数据，支撑能力封装组件，为上层应用提供数据服务器；其中支撑业务数据节点数为8台，管控数据节点数为2 台。业务数据MySql数据库：Mysql服务器的数据存储将采用Raid5磁盘阵列划分，以满足数据安全及高可用性。服务器存储容量：8台MySql服务器，每台24T，采用Raid5磁盘阵列，存储量变为原来的75%；最终可用存储计算公式如下:可用存储容量=节点数*单节点存储容量*Raid5后的磁盘容量比例；即：可用存储容量=8 X 24 X 75% 单位/T管控数据MySql数据库：Mysql服务器的数据存储将采用Raid5磁盘阵列划分，以满足数据安全及高可用性。服务器存储容量：2台MySql服务器，每台24T，采用Raid5磁盘阵列，存储量变为原来的75%；最终可用存储计算公式如下：可用存储容量=节点数*单节点存储容量*Raid5后的磁盘容量比例；即：可用存储容量=2X 24 X 75% 单位/T大数据处理实现WebService/FTP/RPC/Http(s)MapReduceStormHDFSKafka大数据的处理是使用Hadoop2.x体系进行处理。将ETL清洗后数据放入HDFS中进行存储，依靠HDFS的数据底层存储上部署MapReduce引擎，MapReduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性；Hive是建立在Hadoop上的数据仓库基础构架。Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供简单的sql查询功能，可以将sql语句转换为MapReduce任务进行运行，十分适合数据仓库的统计分析。Pig是一个高级过程语言，适合于使用Hadoop和MapReduce平台来查询大型半结构化数据集。通过允许对分布式数据集进行类似SQL的查询，简化Hadoop 的使用HBase是一个分布式的、面向列的开源数据库，是一个适合于非结构化数据存储的列存数据库。数据服务(DataService)大数据能力产品及应用平台既要保证内部数据产品的安全性，还要满足外部平台的灵活使用，为了实现以上目标，在平台架构中引入统一的数据服务，实现对服务能力的统一管理和支撑，提供数据服务的封装能力，形成统一、标准化的跨平台、跨应用的数据服务接口，可对内(外)部平台提供数据服务。通过服务封装实现平台服务能力的开放，形成如下的服务支撑能力：口统一外部服务开发标准和程序调用能力平台通过对自身数据进行程序化封装，实现并对外提供标准化的SDK开发软件包，供外部平台和其他应用开发人员进行调用与接入。优点：此类方式具备灵活、简便，并且易于管理，数据安全可靠的优点缺点：此类服务需要开发实现，过程较复杂适用于：RTB中DSP数据响应、精准移动营销等业务口开放特定应用的数据查询访问能力平台通过开放一定的数据访问权限和接口，提供给某些合作伙伴的特定应用进行有限的一定范围内的数据访问与查询接口。优点：实现方便，快速支撑缺点：数据安全级别不高适用于：数据咨询报告等产品业务口开放应用级的程序封装接入能力平台通过对于平台数据进行某些主题级的组织和加工后，形成统一的应用支撑界面，按照模块功能授权模式为合作伙伴和外部客户提供平台的数据产品和服务价值。优点：服务系统化，用户感知度高，数据价值显现化缺点：实现难度较大，流程复杂适用于：选址分析、可视化应用等对外产品业务对外提供挖掘需求的统一响应与接入服务能力平台提供基于基础设施和数据平台的统一能力封装，为合作伙伴和外部客户的数据挖掘请求提供平台级支持和功能级响应。优点：实现资源运营服务化，对外服务深入支撑缺点：实现难度高，需求及响应模式复杂，平台风险级别较高适用于：平台资源能力的封装产品提供直接的数据文件导出服务模式能力平台针对某些对外业务服务的特定需求，提供将平台分析结果数据进行直接文件导出，直接提供给合作伙伴或外部客户，便于其自行封装与使用。优点：实现简单，方案不便于管理缺点：管理不便，规范程度差，数据安全级别低适用于：二次放号等数据产品业务模式部署前置节点对外提供数据查询服务能力平台需满足特定区域的高速数据查询要求，所以需在查询发起地部署查询前置节点，查询前置节点实现的功能包括：定期推送标签数据给数据服务、记录服务使用清单，并推送回总部平台、RTB查询请求及返回。优点：数据响应效率高，服务方式灵活缺点：部署实现难度大，系统投入较大适用于：RTB等互联网数据产品业务模式分布式 ETL(DistributedETL)能力平台所需的的基础数据来源于集团大数据汇聚平台、外部互联网以及未来第三方合作伙伴，一是数据量巨大，二是数据类型复杂多样。能力平台首先要解决的是大量结构化和非结构化数据的快速抽取、转换、加载工作。为了实现上述目标，引入分布式ETL，实现计算分布式及抽取、加载分布式，可以快速清洗来源于多个系统的同构、异构多种数据，数据的导入、转换、加载完全可视化，实现快速开发部署能力，有效降低操作门槛，提升工作效率。分布式ETL对于能力平台的构建提供了如下的能力支撑：口支撑能力平台的分布式运行和多类计算任务的统一管控分布式ETL对平台所构建的分布式环境是必不可缺的支撑基础，对于各个集群上的分布式处理任务提供统一的管理，并对计算运行过程进行实时监控和异常预警，实现平台计算任务的统一工作台管理支撑。口提供底层数据处理技术的统一封装与能力支撑分布式ETL提供了一套可视化的通用的数据处理组件，通过流程化的运算逻辑定义、封装和调度管理，为开发实现提供了一套高效易用的数据处理支撑框架，降低了技术人员对于底层技术的掌握门槛，便于支撑面向业务应用的快速服务与响应。数据容量估算本期工程各类数据规模如下表所示，总计原始用户数据容量约为6588TB。数据分类数据类型数据内容要求数据容量（单周期原始数据量，TB）数据容量（15年底系统保存数据需求，TB）备注当前15年底接口/整合层模型应用层小计网络数据移动DPI、移动AAA数据内容详见中国电信移动分组域数据信息采集设备技术要求（发布版本）294614264141840移动DPI清单率设为50%设备配置推算Hadoop分布式集群建议采用本地存储方式（数据存储在各PC服务器本地磁盘上），对照可参考案例，对于常规数据分析，Hadoop平台数据处理平台节点需求数主要由数据处理量需要的存储节点数量，同时考虑计算节点能力需求。详细计算过程如下表所示:存储有府力测算系统数据容量6558TB压缩比0.5备份数3空间冗余1.20所需存储容量=系统数据容量*压缩比*备份数*空间冗余11858.42TB存储彳声点需求单节点挂载存储量36TB所需存储节点数二所需存储容量/单节点挂载存储量330台计算有修力测算日增量（G）149923.84日数据*1024忙时集中系数0.10忙时数据量（GB/时）14992.38每秒数据量（GB/秒）4.16峰值数据量计算节点需求每台服务器每秒入库（Mb）20.002C6核配置所需计算节点数=每秒数据量/每台服务器每秒入库214台