大数据处理与分析-－金锄头文库

大数据处理与分析相关平台简介大数据及其主要特征2规模（Volume）、种类（Variety）、速度（Velocity）2001年，道格.莱尼（Doug Laney）VolumeVolumeVarietyVolume模态多样模态多样VelocityVolume速度极快速度极快体量巨大体量巨大文本文本视频视频图片图片音频音频到到20202020年，数据总量达年，数据总量达40ZB40ZB，人均人均5.2TB5.2TB分享的内容条目超过分享的内容条目超过2525亿个亿个/天天，增加数据超过，增加数据超过500TB/500TB/天天硬件、技术、数据不断进化3传统的数据处理ExternalDataSourcesExtractTransformLoadData WarehouseIntegrated storageData processingUsersSQLSQL数据分析的需求也逐渐提高从海量数据中快速获取有价值信息从海量数据中快速获取有价值信息低延迟、高性能、分布式、可扩展、容错。5RTAPOLAPOLTP需求变化6Real-TimeNon-InteractiveBatchBatchInteractiveOnline systemsReal time AnalyticsComplex event processingData preparationIncremental batch processingDashboardsOperational batch Operational batch processingprocessingEnterprise reportsEnterprise reportsData miningData miningParameterized ReportsDrilldownVisualizationExploration0-5s0-5s5s-1m5s-1m1m-1h1m-1h1h+1h+场景不同-工具不同-视角不同Hortonworks将应用需求进行了如下划分：实时应用场景(05s)：Storm、S4、Cloudera Impala，Apache Drill等；交互式场景（5s1m）：最好支持SQL，：Cloudera Impala、Apache Drill、Shark等；非交互式场景（1m1h）：MapReduce、Hive、Pig、Stinger等；批处理场景（1h+）运行时间较长，处理数据量较大，对容错性和扩展性要求较高MapReduce、Hive、Pig、Stinger等。7大数据分析与处理架构一个案例8Ingest Landing and Analytics Sandbox ZoneIndexes,facetsHive/HBaseCol StoresDocumentsIn Variety of FormatsAnalyticsMapReduceRepository,WorkbenchIngestion and Real-time Analytic ZoneDataSinksFilter,TransformIngestCorrelate,ClassifyExtract,AnnotateWarehousing ZoneEnterprise WarehouseData MartsQuery EnginesCubesDescriptive,PredictiveModelsModelsWidgetsDiscovery,VisualizerSearchAnalytics and Reporting ZoneMetadata and Governance Zone8Connectors大数据处理与分析技术数据采集数据处理数据存储统计分析数据挖掘模型预测数据可视化元数据管理9数据处理的几种模式转换 TransformerConvert payload or modify headers过滤 FilterDiscard messages based on boolean evaluation路由 RouterDetermine next channel based on content分割 SplitterGenerate multiple messages from one聚集 AggregatorAssemble a single message from multiple10几种平台介绍MPPHadoopstormspark11开源的大数据处理平台SQL on HadoopHortonworks:Tez、StingerCloudera:ImpalaFacebook：Hive，PrestoGoogle发布了Dremel和PowerDrillEMC推出Pivotal+HAWQ开源数据仓库brighthouse基于MySQL的数据仓库存储引擎12开源的大数据处理平台NO-MapReduce系统微软的DAG任务计算模型Dryad Google的图批量同步处理系统Pregel和增量式计算框架PercolatorYahoo!的数据流计算系统S4、NYU的共享内存处理系统 PiccoloBerkeley的交互式实时处理系统Spark等等。NEW SQL 系统VoltDBmySQL集群13Hadoop的版本1415Intel Hadoop*16Hadoop1.017Hadoop eco-systemExternalDataSourcesHDFS storage layerProcessing Framework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHive Metastore(HCatalog)OozieClouderaNavigatorMore varied data sources with many more access/retention requirementsUsersHadoop eco-systemExternalDataSourcesHDFS storage layerProcessing Framework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHive Metastore(HCatalog)OozieClouderaNavigatorData accessed through multiple entry pointsUsersHadoop eco-systemExternalDataSourcesHDFS storage layerProcessing Framework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHive Metastore(HCatalog)OozieClouderaNavigatorUsersLots of new consumers of the dataHadoop eco-systemExternalDataSourcesHDFS storage layerProcessing Framework(Map-Reduce)HBaseSqoop+FlumePigHiveQLMahoutHive Metastore(HCatalog)OozieClouderaNavigatorUsersOne access control mechanism:filesHadoop 1.0HDFS存储模型22Hadoop 1.0计算模型MapReduce23节点功能与角色24集群部署示意25YARN 和Hadoop 2.026comprises the latest release across Hadoop and the key related projects into a single integrated and tested platformCore servicesData servicesOperational services27Hadoop 2.0Hadoop 2.0YARN的基本思想是将JobTracker的两个主要功能资源管理和作业调度/监控分离主要方法是创建一个全局的ResourceManager（RM）和若干个针对应用程序的ApplicationMaster（AM）28对比：Hadoop 1.0JobTracker 和 TaskTracker29对比：Hadoop 2.030运行在YARN上的计算框架YARN=Yet Another Resource Neogitator.31内存计算Spark and Shark32High-Speed In-Memory Analyticsover Hadoop and Hive DataUC BERKELEY33MapReduce数据共享于HDFSiter.1iter.2.InputHDFSreadHDFSwriteHDFSreadHDFSwriteInputquery 1query 2query 3result 1result 2result 3.HDFSreadSlow due to replication,serialization,and disk IO34iter.1iter.2.InputSpark数据共享于内存DistributedmemoryInputquery 1query 2query 3.one-timeprocessing10-100 faster than network and diskSpark之RDD弹性分布式数据集36伯克利架构37分布式实时计算系统Storm流数据处理Storm可以用来处理源源不断流进来的消息，处理之后将结果写入到某个存储中去。S4(Simple Scalable Streaming System)是一个分布式流处理引擎，开发者可以在这个引擎基础上开发面向无界的，不间断的流数据处理应用。分布式rpc由于storm的处理组件是分布式的，而且处理延迟极低，所以可以作为一个通用的分布式rpc框架来使用。搜索引擎本身也是一个分布式rpc系统。38STORM 角色Nimbus：负责资源分配和任务调度。Supervisor：负责接受nimbus分配的任务，启动和停止属于自己管理的worker进程。Worker：运行具体处理组件逻辑的进程。Task：worker中每一个spout/bolt的线程称为一个task.39基本逻辑概念Spout：在一个topology中产生源数据流的组件。Spout是一个主动的角色，其接口中有个nextTuple()函数，storm框架会不停地调用此函数，用户只要在其中生成源数据即可。Bolt：在一个topology中接受数据然后执行处理的组件。Bolt可以执行过滤、函数操作、合并、写数据库等任何操作。Bolt是一个被动的角色，Tuple：一次消息传递的基本单元。Stream：源源不断传递的tuple就组成了stream。Topology：storm中运行的一个实时应用程序，因为各个组件间的消息流动形成逻辑上的一个拓扑结构。40大数据处理平台MPP41 应用程序通过应用程序通过Master主主机访问数据机访问数据在存储节点和在存储节点和Master主机之间主机之间交换数据交换数据每一个存储节每一个存储节点都是独立点都是独立的的PgSQL数数据库据库（无共享）（无共享）Query PlanMPP=Massive Parallel Processing 海量并行处理结构海量并行处理结构数据分发42Share-Nothing的完全并行架构43共享磁盘例如：Oracle RACDBSAN/共享磁盘DBDBDB网络SAN/FC完全共享例如：SMP服务器DB磁盘完全不共享例如：GreenplumDBDBDBDB网络磁盘磁盘磁盘磁盘Master注：所有的共享资源都用蓝灰色表示基于外部表的高速数据加载l利用并行数据流引擎，Greenplum可以直接用SQL操作外部表l数据加载完全并行，加载速度可达4.5TB/小时4