【时间】2014年11月18日

【平台】Centos 6.5

【工具】scp

【软件】jdk-7u67-linux-x64.rpm

    spark-worker-1.1.0+cdh5.2.0+56-1.cdh5.2.0.p0.35.el6.noarch.rpm
    spark-core-1.1.0+cdh5.2.0+56-1.cdh5.2.0.p0.35.el6.noarch.rpm
    spark-history-server-1.1.0+cdh5.2.0+56-1.cdh5.2.0.p0.35.el6.noarch.rpm
    spark-master-1.1.0+cdh5.2.0+56-1.cdh5.2.0.p0.35.el6.noarch.rpm
    spark-python-1.1.0+cdh5.2.0+56-1.cdh5.2.0.p0.35.el6.noarch.rpm

【步骤】

    1. 准备条件

      (1)集群规划

主机类型 IP地址 域名
master 192.168.50.10 master.hadoop.com
worker 192.168.50.11 slave1.hadoop.com
worker 192.168.50.12 slave2.hadoop.com
worker 192.168.50.13 slave3.hadoop.com

   

     (2)以root身份登录操作系统

      (3)在集群中的每台主机上执行如下命令,设置主机名。

          hostname *.hadoop.com

          编辑文件/etc/sysconfig/network如下

          HOSTNAME=*.hadoop.com

      (4)修改文件/etc/hosts如下

         192.168.86.10 master.hadoop.com
         192.168.86.11 slave1.hadoop.com
         192.168.86.12 slave2.hadoop.com
         192.168.86.13 slave3.hadoop.com

         执行如下命令,将hosts文件复制到集群中每台主机上

          .*:/etc/hosts

      (5)安装jdk

         rpm -ivh jdk-7u67-linux-x64.rpm

         创建文件

          echo -e "JAVA_HOME=/usr/java/default\nexport PATH=\$JAVA_HOME/bin:\$PATH" > /etc/profile.d/java-env.sh

          . /etc/profile.d/java-env.sh

       (6)安装hadoop-client

         yum install hadoop-client

      (7)关闭iptables

         service iptables stop

         chkconfig iptables off

      (8)关闭selinux。修改文件/etc/selinux/config,然后重启操作系统

         SELINUX=disabled

    2. 安装

          yum install spark-core spark-master spark-worker spark-history-server spark-python

    3. 配置。将以下文件修改完毕后,用scp命令复制到集群中的所有主机上

      (1)修改文件/etc/spark/conf/spark-env.sh

          export STANDALONE_SPARK_MASTER_HOST= master.hadoop.com

      (2)修改文件/etc/spark/conf/spark-defaults.conf

          spark.master                     spark://master.hadoop.com:7077

            spark.eventLog.enabled           true

          spark.eventLog.dir               hdfs://master.hadoop.com:8020/user/spark/eventlog

          spark.yarn.historyServer.address http://master.hadoop.com:18081

          spark.executor.memory            2g

          spark.logConf                    true

      (3)修改文件/etc/default/spark  必须设置此环境变量,否则,history server的WebUI上无法显示任务信息

         export SPARK_HISTORY_SERVER_LOG_DIR=hdfs://master.hadoop.com:8020/user/spark/eventlog 用于history server读取任务日志

      (4)复制配置文件到集群所有主机

          scp /etc/spark/conf/*  192.168.50.10:/etc/spark/conf/*

      (5)在HDFS上执行如下操作

          sudo -u hdfs hadoop fs -mkdir /user/spark

          sudo -u hdfs hadoop fs -mkdir /user/spark/applicationHistory

          sudo -u hdfs hadoop fs -chown -R spark:spark /user/spark

           /user/spark/applicationHistory

     4. 优化。向HDFS上传spark-assembly.jar文件,从而提高集群加载该依赖文件的速度;上传spark-examples.jar文件是为了提高cluster模式下加载应用程序的速度

      (1)在集群中的每台主机上修改文件 /etc/spark/conf/spark-defaults.conf

         spark.yarn.jar hdfs://master.hadoop.com:8020/user/spark/share/lib/spark-assembly.jar

      (2)执行如下命令

         sudo -u hdfs hadoop fs -mkdir -p /user/spark/share/lib

         -cdh5.2.0-hadoop2.5.0-cdh5.2.0.jar /user/spark/share/lib/spark-assembly.jar

         -cdh5.2.0-hadoop2.5.0-cdh5.2.0.jar /user/spark/share/lib/spark-examples.jar

         sudo -u hdfs hadoop fs -chown -R root:spark /user/spark/share/lib

    5. 启动spark

      (1)在集群中选择一台主机作为master,并执行如下命令

          service spark-master start

          service spark-history-server start

         注意:history server服务可以单独部署在一台主机上

      (2)在集群中的其他所有主机上执行如下命令

          service spark-worker start

     6. 测试。向Spark提交程序,有三种工具可用:spark-shell、pyspark、spark-submit

      (1)执行如下命令,进入交互式模式,运行scala代码测试

          spark-shell --driver-library-path /usr/lib/hadoop/lib/native/ --driver-class-path /usr/lib/hadoop/lib/

          输入以下代码

          val file = sc.textFile("hdfs://master.hadoop.com:8020/tmp/input.txt")

          val counts = )).reduceByKey(_ + _)

          counts.saveAsTextFile("hdfs://master.hadoop.com:8020/tmp/output")

          运行完毕,执行exit或者ctrl-d退出

      (2)执行如下命令,进入交互式模式,运行python代码测试

          pyspark --driver-library-path /usr/lib/hadoop/lib/native/ --driver-class-path /usr/lib/hadoop/lib/

          运行完毕,执行exit()、quit()或者ctrl-d退出

      (3)执行如下命令,使用非交互式模式执行测试代码

         1)local[N]执行模式: 使用N个worker线程在本地运行Spark应用程序(其中N代表线程数,默认为1。请根据你本地主机的CPU核数而定)

spark-submit --class org.apache.spark.examples.SparkPi --deploy-mode client  --master local[N] --driver-library-path /usr/lib/hadoop/lib/native/  \

          --driver-class-path /usr/lib/hadoop/lib/ /usr/lib/spark/examples/lib/spark-examples-1.1.0-cdh5.2.0-hadoop2.5.0-cdh5.2.0.jar 10

         2)local[*]执行模式: 使用你本地主机上所有剩余的worker线程在本地运行Spark应用程序

spark-submit --class org.apache.spark.examples.SparkPi --deploy-mode client  --master local[*] --driver-library-path /usr/lib/hadoop/lib/native/  \

          --driver-class-path /usr/lib/hadoop/lib/ /usr/lib/spark/examples/lib/spark-examples-1.1.0-cdh5.2.0-hadoop2.5.0-cdh5.2.0.jar 10

         3)standalone client执行模式:  连接到Spark Standalone集群,driver在client运行,而executor在cluster中运行。

spark-submit --class org.apache.spark.examples.SparkPi --deploy-mode client  --master spark://master.hadoop.com:7077 --driver-library-path /usr/lib/hadoop/lib/native/  \

          --driver-class-path /usr/lib/hadoop/lib/ /usr/lib/spark/examples/lib/spark-examples-1.1.0-cdh5.2.0-hadoop2.5.0-cdh5.2.0.jar 10

         4)standalone cluster执行模式:  连接到Spark Standalone集群,driver和executor都在cluster中运行。

spark-submit --class org.apache.spark.examples.SparkPi --deploy-mode cluster --master spark://master.hadoop.com:7077 --driver-library-path /usr/lib/hadoop/lib/native/  \

          --driver-class-path /usr/lib/hadoop/lib/ hdfs://master.hadoop.com:8020/user/spark/share/lib/spark-examples.jar 10

         5)yarn-client执行模式:  连接到YARN集群,driver在client运行,而executor在cluster中运行。(需要安装部署YARN集群)

spark-submit --class org.apache.spark.examples.SparkPi --deploy-mode client  --master yarn --driver-library-path /usr/lib/hadoop/lib/native/  \

          --driver-class-path /usr/lib/hadoop/lib/ /usr/lib/spark/examples/lib/spark-examples-1.1.0-cdh5.2.0-hadoop2.5.0-cdh5.2.0.jar 10

         6)yarn-cluster执行模式:  连接到YARN集群,driver和executor都在cluster中运行。(需要安装部署YARN集群)

spark-submit --class org.apache.spark.examples.SparkPi --deploy-mode cluster --master yarn --driver-library-path /usr/lib/hadoop/lib/native/  \

          --driver-class-path /usr/lib/hadoop/lib/ hdfs://master.hadoop.com:8020/user/spark/share/lib/spark-examples.jar 10

          注意:命令参数请依据需要而定;以上spark-submit的六种模式中,*.jar文件可以换成*.py以执行python代码;更多参数可以参考命令“spark-submit --help”
    7. 停止spark

        service spark-master stop

        service spark-worker stop

        service spark-history-server stop

    8. 查看spark集群状态

      (1)Standalone模式,登录http://192.168.50.10:18080  

          

      (2)Standalone模式,登录http://192.168.50.10:18081

          

      (3)YARN模式,登录http://192.168.50.10:8088

          

【参考】

    1)http://www.cloudera.com/content/cloudera/en/documentation/core/latest/topics/cdh_ig_spark_installation.html

    2)http://blog.csdn.net/book_mmicky/article/details/25714287

【扩展】

    1)JavaChen's Blog  Spark安装和使用   http://blog.javachen.com/2014/07/01/spark-install-and-usage/

    2) China_OS's Blog Hadoop CDH5 学习 http://my.oschina.net/guol/blog?catalog=483307

    3)Spark on Yarn遇到的几个问题            http://www.cnblogs.com/Scott007/p/3889959.html

    4)How to Run Spark App on CDH5     http://muse.logdown.com/posts/2014/08/26/how-to-run-spark-app-on-cdh5

    5)Cloudera Spark on GitHub              https://github.com/cloudera/spark

    6)deploy Spark Server and compute Pi from your Web Browser          http://gethue.com/get-started-with-spark-deploy-spark-server-and-compute-pi-from-your-web-browser/

【Spark学习】Spark 1.1.0 with CDH5.2 安装部署的更多相关文章

  1. Linux平台Oracle 12.1.0.2 单实例安装部署

    主题:Linux平台Oracle 12.1.0.2 单实例安装部署 环境:RHEL 6.5 + Oracle 12.1.0.2 需求:安装部署OEM 13.2需要Oracle 12.1.0.2版本作为 ...

  2. spark学习7(spark2.0集群搭建)

    第一步:安装spark 将官网下载好的spark-2.0.0-bin-hadoop2.6.tgz上传到/usr/spark目录下.这里需注意的是spark和hadoop有对应版本关系 [root@sp ...

  3. redis4.0.1集群安装部署

    安装环境 序号 项目 值 1 OS版本 Red Hat Enterprise Linux Server release 7.1 (Maipo) 2 内核版本 3.10.0-229.el7.x86_64 ...

  4. 0、ubuntu16.04安装部署kvm

    ubuntu16.04安装部署kvm1.查看CPU是否支持KVM egrep "(svm|vmx)" /proc/cpuinfo 2.安装相关kvm包 sudo apt-get i ...

  5. 【转载】Spark学习——spark中的几个概念的理解及参数配置

    首先是一张Spark的部署图: 节点类型有: 1. master 节点: 常驻master进程,负责管理全部worker节点.2. worker 节点: 常驻worker进程,负责管理executor ...

  6. spark学习6(Centos下Scala2.11.4安装)

    Centos下Scala安装 上传Scala到/usr/scala目录下 [root@spark1 scala]# chmod u+x scala-2.11.4.tgz #修改权限 [root@spa ...

  7. 【Hadoop学习】CDH5.2安装部署

    [时间]2014年11月19日 [平台]Centos 6.5 [工具]scp [软件]jdk-7u67-linux-x64.rpm CDH5.2.0-hadoop2.5.0 [步骤] 1. 准备条件 ...

  8. centos7 ambari2.6.1.5+hdp2.6.4.0 大数据集群安装部署

    前言 本文是讲如何在centos7(64位) 安装ambari+hdp,如果在装有原生hadoop等集群的机器上安装,需要先将集群服务停掉,然后将不需要的环境变量注释掉即可,如果不注释掉,后面虽然可以 ...

  9. Redis学习笔记(2)——Redis的下载安装部署

    一.下载Redis Redis的官网下载页上有各种各样的版本,如图 但是官网下载的Redis项目不正式支持Windows.如果需要再windows系统上部署,要去GitHub上下载.我下载的是Redi ...

随机推荐

  1. C++函数中那些不可以被声明为虚函数的函数

    转自C++函数中那些不可以被声明为虚函数的函数 常见的不不能声明为虚函数的有:普通函数(非成员函数):静态成员函数:内联成员函数:构造函数:友元函数. 1.为什么C++不支持普通函数为虚函数? 普通函 ...

  2. snoopy(强大的PHP采集类) 详细介绍

    Snoopy是一个php类,用来模拟浏览器的功能,可以获取网页内容,发送表单,可以用来开发一些采集程序和小偷程序,本文章详细介绍snoopy的使用教程. Snoopy的一些特点: 抓取网页的内容 fe ...

  3. ***php 数组添加关联元素的方法小结(关联数组添加元素)

    我们这里介绍的是在数组中再增加关联数组了,这个就合成了多维数组,下面我来给大家举几个实例,希望对各位同学会有所帮助哈. 在"php 数组添加元素方法总结这篇文章中介绍了如何给数组添加元素,那 ...

  4. Map.entrySet() 简介

    转载:http://blog.csdn.net/mageshuai/article/details/3523116 今天看Think in java 的GUI这一章的时候,里面的TextArea这个例 ...

  5. 李洪强iOS开发之代理

    如果A想让控制器B为他做事情 用代理的话 首先: 在A的.h文件中:  其次A的.m中 在控制器的.m文件中: 还是在控制器B的.m文件中 在A初始化的那一刻设置控制器B为A的代理 在B的.m中实现代 ...

  6. 如何快速查看linux的发行版信息

    思路一: 在CentOS中想查看发行版信息,输入了lsb_release -a 命令却报错了,通过输入以下命令进行安装 yum install redhat-lsb -y 然后继续查看发行版信息 [r ...

  7. Android安全问题 钓鱼程序

    导读:文本介绍一种钓鱼应用,讲述如何骗取用户的用户名和密码,无须root 这个话题是继续android安全问题(二) 程序锁延伸的 之前我已经展示了如何制作程序锁.当打开指定应用的时候,弹出一个密码页 ...

  8. 如何引用传递String Boolean 等,并改变他们的值

    如何引用传递String Boolean 等,并改变他们的值 采用list, 在存入位置改变list的值 如 list.add(true); list.remove(0); list.add(fals ...

  9. 制作计算器的代码(C#)

    using System; using System.Collections.Generic; using System.ComponentModel; using System.Data; usin ...

  10. openSession()和getCureentSession()的区别

    openSession():永远是打开一个新的session getCureentSession():如果当前环境有session,则取得原来已经存在的session,如果没有,则创建一个新的sess ...