基于Hadoop大数据分析应用场景与实战_光环大数据培训-

光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn基于基于 HadoopHadoop 大数据分析应用场景与实战大数据分析应用场景与实战_ _光环大数据培训光环大数据培训为了满足日益增长的业务变化，京东的京麦团队在京东大数据平台的基础上，采用了 hadoop 等热门的开源大数据计算引擎，打造了一款为京东运营和产品提供决策性的数据类产品-北斗平台。一、一、HadoopHadoop 的应用业务分析的应用业务分析大数据是不能用传统的计算技术处理的大型数据集的集合。它不是一个单一的技术或工具，而是涉及的业务和技术的许多领域。目前主流的三大分布式计算系统分别为:Hadoop、Spark 和 Strom：Hadoop 当前大数据管理标准之一，运用在当前很多商业应用系统。可以轻松地集成结构化、半结构化甚至非结构化数据集。Spark 采用了内存计算。从多迭代批处理出发，允许将数据载入内存作反复查询，此外还融合数据仓库，流处理和图形计算等多种计算范式。Spark 构建在 HDFS 上，能与 Hadoop 很好的结合。它的 RDD 是一个很大的特点。Storm 用于处理高速、大型数据流的分布式实时计算系统。为 Hadoop 添加了可靠的实时数据处理功能Hadoop 是使用 Java 编写，允许分布在集群，使用简单的编程模型的计算机大型数据集处理的 Apache 的开源框架。 Hadoop 框架应用工程提供跨计算机集群的分布式存储和计算的环境。 Hadoop 是专为从单一服务器到上千台机器扩展，每个机器都可以提供本地计算和存储。Hadoop 适用于海量数据、离线数据和负责数据，应用场景如下：场景 1：数据分析，如京东海量日志分析，京东商品推荐，京东用户行为分析场景 2：离线计算，(异构计算+分布式计算)天文计算场景 3：海量数据存储，如京东的存储集群基于京麦业务三个实用场景京麦用户分析光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn京麦流量分析京麦订单分析都属于离线数据，决定采用 Hadoop 作为京麦数据类产品的数据计算引擎，后续会根据业务的发展，会增加 Storm 等流式计算的计算引擎，下图是京麦的北斗系统架构图：(图一)京东北斗系统二、浅谈二、浅谈 HadoopHadoop 的基本原理的基本原理Hadoop 分布式处理框架核心设计HDFS ：(Hadoop Distributed File System)分布式文件系统MapReduce：是一种计算模型及软件架构2.1 HDFSHDFS(Hadoop File System)，是 Hadoop 的分布式文件存储系统。将大文件分解为多个 Block，每个 Block 保存多个副本。提供容错机制，副本丢失或者宕机时自动恢复。默认每个 Block 保存 3 个副本，64M 为 1 个 Block。将 Block 按照 key-value 映射到内存当中。2.2 MapReduceMapReduce 是一个编程模型，封装了并行计算、容错、数据分布、负载均衡等细节问题。MapReduce 实现最开始是映射 map，将操作映射到集合中的每个文档，然后按照产生的键进行分组，并将产生的键值组成列表放到对应的键中。化简(reduce)则是把列表中的值化简成一个单值，这个值被返回，然后再次进行键分组，直到每个键的列表只有一个值为止。这样做的好处是可以在任务被分解后，可以通过大量机器进行并行计算，减少整个操作的时间。但如果你要我再通俗点介绍，那么，说白了，Mapreduce 的原理就是一个分治算法。算法：MapReduce 计划分三个阶段执行，即映射阶段，shuffle 阶段，并减少阶段。映射阶段：映射或映射器的工作是处理输入数据。一般输入数据是在文件或目录的形式，并且被存储在 Hadoop 的文件系统(HDFS)。输入文件被传递到由线映射器功能线路。映射器处理该数据，并创建数据的若干小块。光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn减少阶段：这个阶段是：Shuffle 阶段和 Reduce 阶段的组合。减速器的工作是处理该来自映射器中的数据。处理之后，它产生一组新的输出，这将被存储在 HDFS。2.3 HIVEhive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 sql 查询功能，可以将 sql 语句转换为 MapReduce 任务进行运行，这套 SQL 简称 HQL。使不熟悉 mapreduce 的用户很方便的利用 SQL 语言查询，汇总，分析数据。而 mapreduce 开发人员可以把己写的 mapper 和 reducer 作为插件来支持 Hive 做更复杂的数据分析。由上图可知，hadoop 和 mapreduce 是 hive 架构的根基。Hive 架构包括如下组件：CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore 和 Driver(Complier、Optimizer 和 Executor)。三、三、HadoopHadoop 走过来的那些坑走过来的那些坑进行 HIVE 操作的时候，HQL 写的不当，容易造成数据倾斜，大致分为这么几类：空值数据倾斜、不同数据类型关联产生数据倾斜和 Join 的数据偏斜。只有理解了 Hadoop 的原理，熟练使用 HQL，就会避免数据倾斜，提高查询效率。为什么大家选择为什么大家选择光环大数据光环大数据！大数据培训、人工智能培训、Python 培训、大数据培训机构、大数据培训班、数据分析培训、大数据可视化培训，就选光环大数据！光环大数据，聘请专业的大数据领域知名讲师，确保教学的整体质量与教学水准。讲师团及时掌握时代潮流技术，将前沿技能融入教学中，确保学生所学知识顺应时代所需。通过深入浅出、通俗易懂的教学方式，指导学生更快的掌握技能知识，成就上万个高薪就业学子。【报名方式、详情咨询报名方式、详情咨询】光环大数据光环大数据-大数据培训知名品牌大数据培训知名品牌http:/hadoop.aura.cn 光环大数据光环大数据 http:/hadoop.aura.cn光环大数据官方网站报名：光环大数据官方网站报名：http:/hadoop.aura.cn/http:/hadoop.aura.cn/手机报名链接：手机报名链接：http:/http:/ hadoop.aura.cnhadoop.aura.cn /mobile/mobile/