资源预览内容
第1页 / 共14页
第2页 / 共14页
第3页 / 共14页
第4页 / 共14页
第5页 / 共14页
第6页 / 共14页
第7页 / 共14页
第8页 / 共14页
第9页 / 共14页
第10页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述
. . . . .一、安装spark依赖的内容1.JDK spark是由Scala语言编写的,但是运行的环境是jvm,所以需要安装JDK 编译过程:Python、java、Scala编写的代码 - scala编译器编译解释,生成class文件 - 由jvm负责执行class文件(与java代码执行一致)2.scala 由于spark是由Scala语言编写的,所以依赖Scala环境,且由Scala编写的执行代码也需要环境进行编译3.配置SSH免密码登录 集群节点无密码访问,与安装Hadoop时一致4.安装Hadoop hdfs是作为spark的持久层,所以需要安装Hadoop,同时如果需要配置spark on yarn,则Hadoop需要安装yarn版本的5.安装spark 安装spark,执行spark代码二、JDK安装1.下载地址 用户可以在官网下载相应版本的JDK,本例使用JDK1.6,下载地址为:http:/www.oracle.com/technetwork/java/javase/archive-139210.html development kit的bin包2.下载后,在相应的目录下执行bin文件(假设JDK目录是jdkpath) ./jdk-6u45-linux-i586.bin3.配置环境变量,修改/etc/profile文件增加以下内容 export JAVA_HOME= $jdkpath export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/jre/lib/dt.jar:$JAVA_HOME/jre/lib/tools.jar4.生效profile(或者重启机器) source /etc/profile5.终端输入 java -version 输出类似如下说明安装成功 三、安装Scala1.下载地址 官网下载地址:http:/www.scala-lang.org/download/all.html 本例使用的是Scala 2.9.32.在安装目录下解压(假设Scala目录是scalapath) tar -zxvfscala-2.9.3.tgz3.配置环境变量,修改/etc/profile文件增加以下内容 export SCALA_HOME= $scalapath export PATH=$SCALA_HOME/bin:$PATH4.生效profile(或者重启机器) source /etc/profile四、配置SSH免密码登陆首先,需要配置各个机器间的相互访问:1、配置ssh的自动登陆(在master机上):$ssh-keygen-tdsa-P”-f/.ssh/id_dsa完成后会在/.ssh/(用户目录下)生成两个文件:id_dsa和id_dsa.pub。再把id_dsa.pub追加到授权key里面(当前并没有authorized_keys文件):$cat/.ssh/id_dsa.pub/.ssh/authorized_keys完成后可以实现无密码登录本机:$sshlocalhost2、把master上的id_dsa.pub文件追加到slaves机器的authorized_keys内(以slaves1节点为例):#拷贝master的id_dsa.pub文件(在master号机器上执行)$scpid_dsa.pubredmap192.168.1.2:/home/redmap/注:(只需在主节点上运行ssh-kegen程序。其他节点的目录结构创建后,将刚才在主节点创建的keys通过scp拷贝到从节点的同样的目录上。)我们在实际执行中是手动把id_dsa.pub拷贝到其他slaves的节点中,而不是用scp命令。最好是直接手动拷贝过去,这样文件的权限是一致的。登录192.168.1.2,进入用户目录下执行:$catid_dsa.pub.ssh/authorized_keys之后可以在master上不输入密码直接SSH访问slaves1五、安装Hadoop2.x1.下载Hadoop 下载地址http:/apache.fayea.com/hadoop/common/ 本文使用hadoop-2.5.2.tar2.解压压缩包到指定目录 tar -zxvf hadoop-2.5.2.tar -C /usr/local (目录自定义) 如果需要修改拥有者 chown -R hduser:hadoophadoop-2.5.23.配置环境变量 编辑profile文件 vi /etc/profile 在profile文件增加以下内容 pythonview plaincopy1. exportHADOOP_HOME=/home/root/hadoop-2.5.2(安装路径)2. exportPATH=$PATH:$HADOOP_HOME/bin3. 4. exportPATH=$PATH:$HADOOP_HOME/sbin5. 6. exportHADOOP_MAPRED_HOME=$HADOOP_HOME7. 8. exportHADOOP_COMMON_HOME=$HADOOP_HOME9. 10. exportHADOOP_HDFS_HOME=$HADOOP_HOME11. 12. exportHADOOP_YARN_HOME=$HADOOP_HOME4.编辑配置文件 (1)进入Hadoop安装路径下的/etc/hadoop目录 (2)配置Hadoop-env.sh文件 增加 export JAVA_HOME=.(java JDK安装路径) (3)修改hadoop安装目录下/etc/hadoop目录中的core-site.xmlhtmlview plaincopy1. 2. 3. io.native.lib.available4. true5. 6. 7. fs.default.name8. hdfs:/host:9000/本机的Ip地址或者域名,端口自己设置9. Thenameofthedefaultfilesystem.Eithertheliteralstringlocalorahost:portforNDFS.10. true11. 12. 13. hadoop.tmp.dir14. file:/home/tmp15. 16. (4)在etc/hadoop目录中编辑hdfs-site.xmlhtmlview plaincopy1. 2. 3. dfs.namenode.name.dir4. file:/usr/hadoop23/dfs/name/本机保存name数据的目录,自定义5. DetermineswhereonthelocalfilesystemtheDFSnamenodeshouldstorethenametable.Ifthisisacomma-delimitedlistofdirectories,thennametableisreplicatedinallofthedirectories,forredundancy.6. true7. 8. 9. dfs.datanode.data.dir10. file:/us/hadoop23/dfs/data/本机保存data数据的目录,自定义11. DetermineswhereonthelocalfilesystemanDFSdatanodeshouldstoreitsblocks.Ifthisisacomma-delimitedlistofdirectories,thendatawillbestoredinallnameddirectories,typicallyondifferentdevices.Directoriesthatdonotexistareignored.12. 13. true14. 15. 16. dfs.replication17. 118. 19. 20. dfs.permission21. false22. 23. 24. dfs.webhdfs.enabled25. true26. 27. 路径file:/usr/hadoop23/dfs/name与file:/usr/hadoop23/dfs/data是计算机中的一些文件夹,用于存放数据和编辑文件的路径必须用一个详细的URI描述。(5)在etc/hadoop目录中编辑mapred-site.x
收藏 下载该资源
网站客服QQ:2055934822
金锄头文库版权所有
经营许可证:蜀ICP备13022795号 | 川公网安备 51140202000112号