大数据hadoop平台下数据存储的研究与实现邵婉莹汪陈伍通信工程-

西西安安邮邮电电大大学学毕毕业业设设计（论计（论文）文）题目：大数据 Hadoop 平台下数据存储的研究与实现学院：通信与信息工程学院专业：通信工程班级：通工 1108 班学生姓名：邵婉莹导师姓名：汪陈伍职称：高工起止时间： 2015 年 3 月 2 日至 2015 年 6 月 19 日毕业设计（论文）诚信声明书毕业设计（论文）诚信声明书本人声明：本人所提交的毕业论文大数据 Hadoop 平台下数据存储的研究与实现是本人在指导教师指导下独立研究、写作的成果，论文中所引用他人的文献、数据、图件、资料均已明确标注；对本文的研究做出重要贡献的个人和集体，均已在文中以明确方式注明并表示感谢。本人完全意识到本声明的法律后果由本人承担。论文作者：（签字）时间：2015 年 6 月 5 日指导教师已阅：（签字）时间：2015 年 6 月 5 日西安邮电大学毕业设计(论文)开题报告通信与信息工程学院通信工程专业 11 级 08 班课题名称：大数据 Hadoop 平台下数据存储的研究与实现学生姓名：邵婉莹学号：03111318 指导教师：汪陈伍报告日期： 2015 年 3 月 26 日西安邮电大学本科毕业设计（论文）开题报告学号 03111318 姓名邵婉莹导师汪陈伍题目大数据 Hadoop 平台下数据存储的研究与实现选题目的（为什么选该课题）这是一个信息爆炸的时代，互联网上的信息正在以几何级数的速度增长着。在这个大背景下，消耗 CPU 最多的计算逐渐从“提升软件本身性能”方面转移到了信息处理方面，从而各大厂商不得不面临着极大地挑战他们需要从 TB 乃至 PB 级的数据中挖掘出有用的信息，并对这些海量数据进行快捷、高效的处理。而数据存储是数据管理工作的基石，所以如何进行大数据的有效存储成为一个重要的研究课题，为此选择了这个课题，以便更多地了解大数据和云计算方面的知识并且锻炼对 linux 系统的操作能力和搭建工作环境的能力，更为了以后工作和发展方向做下基础。前期基础（已学课程、掌握的工具，资料积累、软硬件条件等） 1、在校期间学习过计算机网络和数据库等相关学科，为做本题打下基础，具备了一定的计算机网络和数据库等的基础知识； 2、通过网络和相关书籍查阅资料，了解了云计算和大数据的相关概念； 3、已经安装了 linux 操作系统，对处理大数据的 Hadoop 也进行了进一步的了解； 4、对于大数据的分布式存储的工作原理进行了初步的了解和掌握。要解决的问题（做什么） 1、了解云计算和大数据的相关知识，理解大数据存储方面的原理； 2、安装 linux 系统，能在 linux 上进行熟练的操作； 3、在 linux 上安装 Hadoop，进行 Hadoop 分布式平台的搭建，掌握 HDFS 分布式存储的工作原理并对其提出改进，对一组样本数据进行存储； 4、了解分布式编程模型 MapReduce 的原理并能进行简单的使用； 5、撰写毕业论文，能熟练掌握 Hadoop 下大数据存储的相关知识并进行答辩等环节。工作思路和方案（怎么做） 1、通过查阅大量资料理解并熟悉云计算和大数据的相关知识，尤其是大数据存储的分布式原理和使用； 2、在 Windows 系统上利用 VMware 安装虚拟机，装载 linux 系统，配置好 vmtools 等所需的常用软件及其设置，进一步熟悉 linux 操作环境； 3、在 Windows 和 linux 之间的共享文件夹中下载 linux 版本的 Java 和 Hadoop 的安装包，在 linux 中安装、调配运行环境等至可以正常使用； 4、根据资料学习和了解相关概念和使用方法并进行 Hadoop 分布式平台的搭建，包括运行环境和开发环境的搭建直到能熟练使用； 5、在搭建环境的过程中体会和掌握 HDFS 分布式存储的工作原理，并分析其优缺点，查阅资料，提出一些改进的方案或想法； 6、理解开源的非关系型分布式数据库 HBase 的工作原理和使用方法； 7、下载或者编辑一组样本数据，以样本数据为例，在 hadoop 平台下进行大数据的存储实例； 8、解决完存储问题后，对大数据分析方面的分布式编程模型 MapReduce 的原理、使用方法和使用环境做一了解。 9.通过对毕业设计中所涉及的知识的学习与理解，针对设计中遇见的问题及时与老师进行讨论，找到解决问题的方法，从而撰写毕业论文，最后结合所掌握的知识不断完善论文。指导教师意见签字： 2015 年 3 月 30 日西西安安邮邮电电大大学学毕毕业业设设计计 ( (论论文文) )成成绩绩评评定定表表学生姓名邵婉莹性别女学号 03111318 专业班级通信工程通工 1108 课题名称大数据 Hadoop 平台下数据存储的研究与实现指导教师意见评分（百分制）：指导教师( (签字) )：年月日评阅教师意见评分（百分制）：评阅教师(签字)：年月日验收小组意见评分（百分制）：验收教师(组长)(签字)：年月日答辩小组意见评分（百分制）：答辩小组组长(签字)：年月日评分比例指导教师评分 20() 评阅教师评分 30() 验收小组评分 30() 答辩小组评分 20() 学生总评成绩百分制成绩等级制成绩答辩委员会意见毕业论文(设计)最终成绩(等级)：学院答辩委员会主任( (签字) )：年月日目录目录目录目录 .I 摘要摘要 .I ABSTRACTII 引言引言.1 1 绪论绪论.2 1.1 大数据简介2 1.2 HADOOP简介.3 1.2.1 Hadoop 的优点3 1.2.2 Hadoop 的架构4 1.2.3 Hadoop 的组成5 2 虚拟机下虚拟机下 CENTOS7.0 的装载和配置的装载和配置7 3 HADOOP 平台的搭建和基本配置平台的搭建和基本配置 11 3.1 安装 JDK11 3.2 SSH 免密码登陆12 3.2 安装配置 HADOOP.13 4 HADOOP 平台下数据存储的分析和研究平台下数据存储的分析和研究 16 4.1 用命令进行文件存储和读取16 4.1.1 创建目录.16 4.1.2 显示目录以及网页图形化界面.16 4.1.3 本地文件存入目录以及网页图形化界面.17 4.1.4 显示 HDFS 下文件内容以及网页图形化界面.18 4.1.5 显示 HDFS 下文件大小.19 4.1.6 显示 HDFS 下文件的信息.19 4.1.7 在 HDFS 下复制文件.19 4.1.8 保存至本地文件.20 4.1.9 从本地移动文件.20 4.2 用 API 进行文件存储和读取 .21 5 HDFS 中的大量小文件存储问题中的大量小文件存储问题 .22 5.1 小文件存储问题简介22 5.2 小文件存储问题的解决方法22 5.2.1 Archive 工具22 5.2.2 CombineFileInputFormat 类23 5.2.3 SequenceFile 格式23 5.2.4 其他方法.23 结论结论.24 致谢致谢.25 参考文献参考文献.26 摘要摘要伴随着各种电子产品和网络的蓬勃发展，互联网上的数据正在以爆炸般的模式增长着，信息量逐渐从最小的字节增长成为 TB 乃至 PB 级的海量数据。越来越多的信息量成为了一个难题，对于摒弃它们还是从中获取价值的这个选择题也逐渐有了显而易见的答案。但是面对如此严峻的形势，我们该如何从大量的数据中获取有价值的信息，并且对这些数据进行高效、精准的处理呢。就在此时，人们将目光移向了 Hadoop，一个开源的能够对大量数据进行分布式处理的文件系统和并行计算编程模型。本文将要介绍 Hadoop 的伪分布式集群具体的搭建过程和以 HDFS 为代表的分布式文件存储系统的数据存储平台的设计与实现。并且对于 HDFS 本身仍面临的一些问题进行性能优化和解决。首先 Hadoop 适宜在 Linux 系统上进行，所以先介绍 centos 系统的安装和配置过程；然后在 centos 系统下进行 Hadoop 伪分布式集群的搭建和基本配置；之后进行一系列的文件、数据的存储和读取应用；最后对于 HDFS 目前仍具有的一些问题进行分析和假定并对其进行性能优化。关键字：海量数据； Hadoop; Access; centos; HDFS ABSTRACT Along with the vigorous development of vrious electronic products and network, the data on the Internet is growing in an explosive mode, information gradually from the smallest byte growth become terabytes and petabytes of huge amounts of data. More and more information has become a difficult problem, the choice problem to eliminate them or obtain the value of them also gradually had obvious answer. But faced with such serious situation, how shoule we get valuable information from a large amount of data, and how to process them efficiently and precisely. Just then, people all look at Hadoop , an open sourse and can be distributed processing of large amounts of data file system and parallel computing programming model. This article will introduce the Hadoops pseudo distributed cluster specific building process and represented by HDFS data storage platform of distributed file storage system design and implementation. And for the HDFS itself still faces some problem problems, performance optimization and to solve. Hadoop is appropriate on Linux system first, so first introduce centos system installation and configuration process; Then under the centos sys