资源预览内容
第1页 / 共8页
第2页 / 共8页
第3页 / 共8页
第4页 / 共8页
第5页 / 共8页
第6页 / 共8页
第7页 / 共8页
第8页 / 共8页
亲,该文档总共8页全部预览完了,如果喜欢就下载吧!
资源描述
大数据分析 课程标准一、课程定位现在企业为了提升客人使用体验,提高业务效率,在大数据蓬勃发展的阶段里,需要对现有业务系统进行转型升级;作为大数据核心部分,大数据研发工程师应用成为有大量数据的企业必备人才,在数据处理,数据分析方面,大数据研发是不可或缺的技能。 随着大数据应用的大量普及,开源框架,比如hadoop,spark等,也得到长足发展。本课程除了着力于统数据的收集和搭建,使得作为大数据的研发/分析带来基础设施,让学员掌握,同时,对大数据的离线/实时处理和部分数据分析进行深度理解和把握。通过本课程,掌握大数据平台并且对大数据分析的基本技能和方法,为将来在企业分析大数据做决策打下基础。二、课程性质与作用课程性质 大数据分析课程。课程作用 大数据分析是数据清洗过后使得数据产生价值的过程。在企业丰富应用场景中,通过标准的大数据分析方法不能胜任的情况下,就需要通过先验知识来验证大数据并找出规律来达到业务目标。在实际工作中,掌握大数据研分析需要展示的数理统计分析的知识,敏锐的数据观察力,和部分软件开发的知识,也需要比较扎实的计算机基础。本课程大纲是完整的课程,实际培训课程中,会根据学员实际情况进行分组。通过本课程的学习。三、课程目标课程教学以灵活运用分析方法为目标,以实际项目为中心,以合理知识结构分解为手段,结合实际的应用场景,对大数据进行文本,图标等大数据进行分析和学习,主要以实际操作让学员对相关知识点掌握,达到理论与实际结合,教学与企业融合的内容。学员学成后,能够利用清洗后的数据,根据提供的先验知识,可以做出模型并能够预测业务数据。课程内容始终围绕全面提升学生的理论和操作的熟练程度、规范化程度以及职业素质三个方面展开。(一)知识目标1. 理解大数据概念及应用场景,先导课程Linux的操作2. 掌握开发语言R 或python3. 掌握大数据HDFS、HBase、Hadoop集群搭建及数据批处理。4. 离线工具ETL和hive的安装及应用。5. 数据可视化的应用 6. 真实(二)能力目标1.全局的眼光理解大数据,理解大数据的应用,并有总体的概念。2.理解企业中实际生产环境的大数据搭建,收集,分析,应用的过程。3.具备在实际应用场景中,能对数据处理流程,数据挖掘进行个性化处理。四、课程设计主要指课程设计的总体思路:课程设计围绕大数据分析的基础和方法,考虑到实际企业生产环境中的应用场景,课程中采用实际案例, 从案例分析、启动、实施、验证各环节剖析讲解,与真实环境同步。课程案例选取: 以搭建支持10GB的数据为目标,在目标3机器上部署大数据仓库,并能实际运行。模拟手机1GB的数据,能够通过Hive进行查询,为将来数据清洗和数据分析提供基础。五、课程内容与要求知识块知识点课程目标课时案例先导知识Linux系统Linux 基础先导课程,以掌握Linux基本操作未基础,加上对Linux操作系统的进程管理的知识,为后续的部署打下基础。主要能够熟练编辑和配置Linux下的系统文件并能够查找文件和文字Linux-常用命令介绍Linux-shell的特殊符号以及VI编译工具Linux-高级指令(系统管理、查询、作业控制、进程管理和Linux三剑客)Linux-环境变量、初始化文件和定时服务Linux-shell脚本及编程Linux-备份工具Linux-安全性Linux-网络互联Linux-软件的安装和日志大数据基础大数据概论大数据背景能够高度概括大数据系统的前世今生,实际了解企业里面使用的大数据的场景大数据基本概念大数据案例大数据技术HDFS分布式文件系统HDFS简介掌握DFS架构,配置及日常管理HDFS基本架构使用场景核心设计体系架构命令行使用JAVA接口运行机制IO操作Hodoop集群安装部署Linux环境准备理解Hadoop生态,能够安装并验证Hadoop集群。并实际操作在现有生态增加组件的安装及调整方式按照JDK按照并配置Hadoop启动并验证Hadoop集群MapReduce计算框架编程模型WordCount高级编程编程案例应用编程开发MP工作机制和YARNYARN平台简介YARN结构YARN资源调度作业调度数据库知识Hbase分布式数据库简介理解和掌握HBase的原理及操作,并能对HBase做日常管理安装部署和Hadoop的关系核心功能模块基本概念Hbase Shell命令行工具JAVA客户端操作MAPreduce批量操作HBASE块数据导入HBASE核心概念高级特性安装部署工作原理客户端使用离线计算工作引擎azkaban使用能够实际部署并做配置安装部署ETL工具sqoop应用理解ETL的实质,并了解ETL在大数据清洗中的作用安装部署数据仓库查询HIVE基本概念掌握Hive的安装部署及其他的安装部署数据定义数据查询内置函数和UDF自定义函数和UDAF UDTF实时计算storm实时流计算框架简介能够实际部署并做配置架构按照部署核心概念和数据流模型编程实例Spark Streaming简介能够实际部署并做配置架构按照部署核心概念和数据流模型编程实例R语言(二选一)R简介R是开源软件,多操作系统,众多程序包,应用于各行各业。 函数与对象编写脚本R绘图编写函数数据保存Python语言(二选一)1.环境搭建及Python基础1.环境搭建2.Python基本数据结构3.Python基本语法2.python基础工具库1. NumPy基础:数组和矢量计算2. 高级数据结构和操作工具:Pandas3. 数据加载、存储与文件格式4. 数据规则化5. 绘图与可视化mllib开发和Graphx简介MLlib的架构MLLib中的算法算法应用案例Graphx简介与核心功能数据分析数据分析与挖掘1.数据聚合与分组运算2.利用statsmodels进行统计分析3.利用statsmodels进行回归分析4.时间序列分析5.常见算法介绍6.数据挖掘项目实操案例分析营销数据案例分析ARPU分析互联网数据案例分析漏斗分析机器学习机器学习基础1.感知机2.决策树、随机森林3.支持向量机(SVM)4.正则化方法5.主成分分析(PCA)机器学习高级1. 特征工程2. 参数调优3. 集成学习4. 文本挖掘机器学习案例讲解数据可视化1.web数据可视化概述2.爬虫与数据处理3.图表可视化4.webGIS数据可视化5.图可视化webGIS数据可视化图可视化数据风控1.风控架构2.反欺诈3.信用评估4.贷后管理五、考核标准本课程属于实践性、应用性比较强的课程,所以要加强过程性检查,每个学员可以在搭建好的大数据环境下,进行数据流程更改及数据挖掘的个性化调整。考核课程中提供100G的大系统数据,然后倒入到环境,然后进行查询和分析。在已确定的场地上,采用多种手段查明场地工程地质条件;采用综合评价方法,对场地和地基稳定性做出结论;对不良地质作用和特殊性岩土的防治、地基基础形式、埋深、地基处理等方案的选型提出建议;提供设计、施工所需的岩土工程资料和参数。 7 / 8
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号