资源预览内容
第1页 / 共63页
第2页 / 共63页
第3页 / 共63页
第4页 / 共63页
第5页 / 共63页
第6页 / 共63页
第7页 / 共63页
第8页 / 共63页
第9页 / 共63页
第10页 / 共63页
亲,该文档总共63页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
1目录目录1.1.大数据大数据 2.Hadoop2.Hadoop3.HDFS3.HDFS4.MapReduce4.MapReduce5.Hive5.Hive6 6.Hbase.Hbase7 7.Spark.Spark8 8.RDD.RDD9 9.Spark SQL.Spark SQL10.Python10.Python大数据开发大数据开发2BIG DATAWEBPBPB千千T TCRMTBTB千千G GGBGB千兆千兆ERPEBEB千千P P不断增加的数据种类与复杂度不断增加的数据种类与复杂度用户生成内容用户生成内容移动网络移动网络短信、彩信短信、彩信舆情分析舆情分析外部统计外部统计高清视频高清视频语音转换语音转换产品、服务产品、服务loglog社交网络社交网络业务数据流业务数据流用户点击流用户点击流网络网络loglog营销历史营销历史A/B A/B 测试测试动态定价动态定价联署网络联署网络搜索营销搜索营销行为目标行为目标动态过滤动态过滤付款信息付款信息客户名单客户名单客户接触客户接触购买明细购买明细购买记录购买记录营销信息营销信息客户细分客户细分移动互联网云计算物联网社交网络数据的低成本获取与分布式存储(Hadoop)基于位置的服务内容分析万兆交换流计算信息技术的飞速发展催生了大数据信息技术的飞速发展催生了大数据大数据产生背景3数据膨胀相应的处理技术44V4V: VolumeVolume,VarietyVariety,ValueValue,VelocityVelocity数据体量巨大: 从TB级别,跃升到PB级别数据类型繁多: 网络日志、视频、图片、地理位置信息。价值密度低:海量数据中高价值信息的比例。处理速度快:秒级响应。Veracity(准确性):处理的结果要保证一定的准确性。大数据的特点5面临核心问题:数据的存储和分析磁盘存储和磁盘读取的比较:数据堆成山发现知识难:如今信息世界,数据大爆炸面向应用,各自为阵,烟囱林立缺乏为决策提供知识的一个完整服务体系资源的分类:计算能力,存储能力,网络速度6云技术为大数据处理提供了技术基础n云技术发展给了人们廉价获取海量计算和存储能力以前一个大型机,或者一个数据处理中心的事情,目前可以用一个云计算(Hadoop)集群来完成大量CPU、内存、磁盘、网络1T数据,100台机器,每台存储1%,同时读取,只需要几分钟7大数据分析带来变化n数据大小 由GB 到PBn数据更新 由频繁读写到一次写入多次读取n数据结构 静态模式到动态模式n计算方法 应用为主转变为分析为主8大数据分析的五个方面nAnalytic Analytic VisualizationsVisualizations(可视化分析)不管是对数据分析专家还是普通用户,数据可视化是数据分析工具最基本的要求。可视化可以直观的展示数据,让数据自己说话,让观众听到结果。nData Data Mining AlgorithmsMining Algorithms(数据挖掘算法)可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大数据的量,也要处理大数据的速度。9大数据分析的五个方面nPredictive Predictive Analytic CapabilitiesAnalytic Capabilities(预测性分析能力)数据挖掘可以让分析员更好的理解数据,而预测性分析可以让分析员根据可视化分析和数据挖掘的结果,做出一些预测性的判断。nSemantic EnginesSemantic Engines(语义引擎)非结构化数据的多样性,需要一系列的工具去解析,提取,分析数据。语义引擎需要被设计成能够从“文档”中智能提取信息nData Data Quality and Master Data ManagementQuality and Master Data Management(数据质量和数据管理)数据质量和数据管理是一些管理方面的最佳实践。通过标准化的流程和工具对数据进行处理可以保证一个预先定义好的高质量的分析结果。10 大数据目前主流技术主要有Hadoop、Spark、Storm三类,以及在此之下配套发展的HDFS、Map Reduce、Hbase、Hive、Yarn等一系列开源软件。其中Hadoop发展最早,商业化也最成熟,目前最新版本为3.0。Spark目前最新版本为2.0, Spark这两年发展迅速,是大数据最火的技术。目前大数据主流技术11Kafka分布式消息系统Flume日志数据Sqoop关系型数据HDFSHadoop 分布式文件系统HBaseNoSQL数据库MapReduce批处理Spark内存处理Streaming实时处理Pig脚本语言HiveSQLGraphX图计算Spark SQLTableauQlikviewBusiness ObjectsCognosR/SPSSMLLib机器学习Tez批处理数据存储数据采集数据处理数据分析数据展示数据管控YARN通用资源管理框架ZooKeeper分布式应用程序协调服务Ambari集群管控Oozie工作流引擎服务批处理实时处理Splunk机器数据大数据常用技术架构12大数据常用技术架构1314大数据与传统数据仓库结合15大数据案例16大数据案例17大大数据案例数据案例18大数据案例19001张三15男性学生002李四32女性教师003王二麻44男性工程师001张三15+1男性学生002李四32+1女性教师003王二麻44+1男性工程师Local file读取处理分析002李四33女性教师存储Local file1假如没有数据库HDFS(file)读取MapReduce/SparkNoSQL/HDFS结果存储展示分析SQL20目录目录1.1.大数据大数据 2.Hadoop2.Hadoop3.HDFS3.HDFS4.MapReduce4.MapReduce5.Hive5.Hive6 6.Hbase.Hbase7 7.Spark.Spark8 8.RDD.RDD9 9.Spark SQL.Spark SQL10.Python10.Python大数据开发大数据开发21Google的三大技术核心nGFSGFS分布式文件系统nMapReduceMapReduce数据处理机制nBigTableBigTable表结构22GFSnGFSClientGFSClient(客户端):应用程序的访问接口nMasterMaster(主服务器):管理节点,在逻辑上只有一个,保存系统的元数据,负责整个文件系统的管理。nChunk Chunk ServerServer(数据块服务器):负责具体的存储工作。数据以文件的形式存储在Chunk Server上。23Bigtable 一个存储Web网页的例子的表的片断。行名是一个反向URL。contents列族存放的是网页的内容,anchor列族存放引用该网页的锚链接文本。CNN的主页被Sports Illustrater和MY-look的主页引用,因此该行包含了名为“anchor:”和 “anchhor:my.look.ca”的列。每个锚链接只有一个版本(alex注:注意时间戳标识了列的版本,t9和t8分别标识了两个锚链接的版本);而contents列则有三个版本,分别由时间戳t3,t5,和t6标识。24Bigtable 25MapReduce26Hadoop是Google开源的实现Doug Cutting(道卡廷)等在Nutch技术基础上n受到Google相关论文的启发nYahoo !支持, 由Apache主导的开源系统nHadoop得到大量厂商的支持n目前有众多的产品序列Hadoop与GoogleHadoop这个单词是,是他儿子的一个毛绒玩具小象的名字27Hadoop核心技术nHDFS分布式的文件管理系统nMapReduce基于键值对Key/Value Pair分布式并行计算模型nHbase 数据结构化管理组件,采用基于列族的稀疏大表管理机制 28Hadoop组成29Hadoop版本HadoopHadoop有两个分支,分别来源于0.20.x 0.20.x 和0.23.x0.23.x。n0.20.x是比较稳定的版本,由其发展出Hadoop1.0 ,主要是修正了bug,改进了性能和兼容性。0.20.X和1.0是目前教学中最主流的版本,但存在单点故障的隐患。n0.23.x中新特性更多,但相对不稳定。由其分支发展出Hadoop2.0。该版本在4000 个节点的集群上进行测试,主要工作是处理无共享存储下的HDFS HA ,还包括YARN (下一代MapReduce)Resource Manager 以及调度方面的改进。 30HDFS特点n一个名字节点和多个数据节点n数据复制(冗余机制)n故障检测n安全性31HDFS的NameNode和DataNodenHDFS cluster 有两类节点,以master/worker模式工作: 一个Namenode(master)和一批Datanode(workers). nNamenode管理文件系统的namespace. 它以两个文件的形式,永久保存在本地文件上: namespace image和edit log. Namenode同时记录着每个文件中各块,所在的Datanode的信息nDatanodes是文件系统的工作节点,存储和检索数据块blocks, Datanodes定期向Namenode发送它们所存储的块的列表.32数据复制冗余机制nHDFS为了做到可靠,创建了多份数据块(block,64M大小)的复制(replicas)n并将它们放置在服务器群的计算节点中(Data nodes)nMapReduce就可以在它们所在的节点上处理这些数据了。33机架感知策略34故障检测n名字节点NameNode: 日志文件,镜像文件n数据节点DataNode 心跳包(检测是否宕机) 块报告(安全模式下检测) 数据完整性检测(校验,比较) 35安全性n一般来讲,Hadoop本身不负责管理用户的安全认证机制n依赖Kerberos, 一个成熟的开源网络审计协议来进行认证36RDBMS vs MapReducenMapReduce适合于 以批处理方式处理需要分析整个数据集的问题, 尤其是adhoc 分析. MapReduce适合于一次写入,多次读出的应用.nRDBMS 适合于 多次读写、点查询,索引后可以提供低延迟的数据检索和快速的数量数据更新. RDBMS 适合于持续更新的数据集RDBMSRDBMSMapReduceMapReduce数据大小GBPB访问交互和批处理批处理更新多次读写一次写入多次读取结构静态模式动态模式完整性高低横向扩展非线性线性37Hadoop中的MapReducen并行计算架构和模型依托于HDFS由JobClient端发起,Jobtracker协调,众多Tasktracker参与和一系列的task并行执行若干Map,reduce,以及combine操作和函数 38分布式并行计算n两类节点控制job执行过程一个jobtracker和一堆tasktrackers. nJobtracker通过调度tasktrackers上执行的任务,来协调所有运行在系统上的作业jobs. jobtracker此时记录每项作业任务task的整体进度情况. nTasktrackers在运行任务的同时,将进度报告发给jobtracker, 如果一个task 失败,jobtracker将在另外一个tasktracker节点上重新调度该任务.39Hadoop1.0的MapReduce 架构40V1版的瓶颈问题nJobTracker 是 Map-reduce 的集中处理点,存在单点故障。nJobTracker 完成了太多的任务,造成了过多的资源消耗,当 map-reduce job 非常多的时候,会造成很大的内存开销,只能支持 4000 节点主机的上限。n在 TaskTracker
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号