spark安装部署-－金锄头文库

. . . . .一、安装spark依赖的内容1.JDK spark是由Scala语言编写的，但是运行的环境是jvm，所以需要安装JDK 编译过程：Python、java、Scala编写的代码 - scala编译器编译解释，生成class文件 - 由jvm负责执行class文件（与java代码执行一致）2.scala 由于spark是由Scala语言编写的，所以依赖Scala环境，且由Scala编写的执行代码也需要环境进行编译3.配置SSH免密码登录集群节点无密码访问，与安装Hadoop时一致4.安装Hadoop hdfs是作为spark的持久层，所以需要安装Hadoop，同时如果需要配置spark on yarn，则Hadoop需要安装yarn版本的5.安装spark 安装spark，执行spark代码二、JDK安装1.下载地址用户可以在官网下载相应版本的JDK，本例使用JDK1.6,下载地址为：http:/www.oracle.com/technetwork/java/javase/archive-139210.html development kit的bin包2.下载后，在相应的目录下执行bin文件(假设JDK目录是jdkpath) ./jdk-6u45-linux-i586.bin3.配置环境变量，修改/etc/profile文件增加以下内容 export JAVA_HOME= $jdkpath export PATH=$JAVA_HOME/bin:$PATH export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/jre/lib/dt.jar:$JAVA_HOME/jre/lib/tools.jar4.生效profile(或者重启机器) source /etc/profile5.终端输入 java -version 输出类似如下说明安装成功三、安装Scala1.下载地址官网下载地址：http:/www.scala-lang.org/download/all.html 本例使用的是Scala 2.9.32.在安装目录下解压（假设Scala目录是scalapath） tar -zxvfscala-2.9.3.tgz3.配置环境变量，修改/etc/profile文件增加以下内容 export SCALA_HOME= $scalapath export PATH=$SCALA_HOME/bin:$PATH4.生效profile(或者重启机器) source /etc/profile四、配置SSH免密码登陆首先，需要配置各个机器间的相互访问：1、配置ssh的自动登陆(在master机上)：$ssh-keygen-tdsa-P”-f/.ssh/id_dsa完成后会在/.ssh/(用户目录下)生成两个文件：id_dsa和id_dsa.pub。再把id_dsa.pub追加到授权key里面(当前并没有authorized_keys文件)：$cat/.ssh/id_dsa.pub/.ssh/authorized_keys完成后可以实现无密码登录本机：$sshlocalhost2、把master上的id_dsa.pub文件追加到slaves机器的authorized_keys内(以slaves1节点为例)：#拷贝master的id_dsa.pub文件(在master号机器上执行)$scpid_dsa.pubredmap192.168.1.2:/home/redmap/注：(只需在主节点上运行ssh-kegen程序。其他节点的目录结构创建后，将刚才在主节点创建的keys通过scp拷贝到从节点的同样的目录上。)我们在实际执行中是手动把id_dsa.pub拷贝到其他slaves的节点中，而不是用scp命令。最好是直接手动拷贝过去，这样文件的权限是一致的。登录192.168.1.2，进入用户目录下执行：$catid_dsa.pub.ssh/authorized_keys之后可以在master上不输入密码直接SSH访问slaves1五、安装Hadoop2.x1.下载Hadoop 下载地址http:/apache.fayea.com/hadoop/common/ 本文使用hadoop-2.5.2.tar2.解压压缩包到指定目录 tar -zxvf hadoop-2.5.2.tar -C /usr/local (目录自定义) 如果需要修改拥有者 chown -R hduser:hadoophadoop-2.5.23.配置环境变量编辑profile文件 vi /etc/profile 在profile文件增加以下内容 pythonview plaincopy1. exportHADOOP_HOME=/home/root/hadoop-2.5.2（安装路径）2. exportPATH=$PATH:$HADOOP_HOME/bin3. 4. exportPATH=$PATH:$HADOOP_HOME/sbin5. 6. exportHADOOP_MAPRED_HOME=$HADOOP_HOME7. 8. exportHADOOP_COMMON_HOME=$HADOOP_HOME9. 10. exportHADOOP_HDFS_HOME=$HADOOP_HOME11. 12. exportHADOOP_YARN_HOME=$HADOOP_HOME4.编辑配置文件 (1)进入Hadoop安装路径下的/etc/hadoop目录 (2)配置Hadoop-env.sh文件增加 export JAVA_HOME=.（java JDK安装路径） (3)修改hadoop安装目录下/etc/hadoop目录中的core-site.xmlhtmlview plaincopy1. 2. 3. io.native.lib.available4. true5. 6. 7. fs.default.name8. hdfs:/host:9000/本机的Ip地址或者域名，端口自己设置9. Thenameofthedefaultfilesystem.Eithertheliteralstringlocalorahost:portforNDFS.10. true11. 12. 13. hadoop.tmp.dir14. file:/home/tmp15. 16. (4)在etc/hadoop目录中编辑hdfs-site.xmlhtmlview plaincopy1. 2. 3. dfs.namenode.name.dir4. file:/usr/hadoop23/dfs/name/本机保存name数据的目录，自定义5. DetermineswhereonthelocalfilesystemtheDFSnamenodeshouldstorethenametable.Ifthisisacomma-delimitedlistofdirectories,thennametableisreplicatedinallofthedirectories,forredundancy.6. true7. 8. 9. dfs.datanode.data.dir10. file:/us/hadoop23/dfs/data/本机保存data数据的目录，自定义11. DetermineswhereonthelocalfilesystemanDFSdatanodeshouldstoreitsblocks.Ifthisisacomma-delimitedlistofdirectories,thendatawillbestoredinallnameddirectories,typicallyondifferentdevices.Directoriesthatdonotexistareignored.12. 13. true14. 15. 16. dfs.replication17. 118. 19. 20. dfs.permission21. false22. 23. 24. dfs.webhdfs.enabled25. true26. 27. 路径file:/usr/hadoop23/dfs/name与file:/usr/hadoop23/dfs/data是计算机中的一些文件夹，用于存放数据和编辑文件的路径必须用一个详细的URI描述。(5)在etc/hadoop目录中编辑mapred-site.x