spark的standlone模式安装

安装一个standlone模式的spark集群,这里是最基本的安装,并测试一下如何进行任务提交。

require:提前安装好jdk 1.7.0_80 ;scala 2.11.8

可以参考官网的说明:http://spark.apache.org/docs/latest/spark-standalone.html

1. 到spark的官网下载spark的安装包

http://spark.apache.org/downloads.html

spark-2.0.2-bin-hadoop2.7.tgz.tar

2. 解压缩

cd /home/hadoop/soft

tar -zxvf spark-2.0.2-bin-hadoop2.7.tgz.tar

ln -s /home/hadoop/soft/spark-2.0.2-bin-hadoop2.7 /usr/local/spark

3.配置环境变量

su - hadoop

vi ~/.bashrc

  1. export SPARK_HOME="/usr/local/spark"
  2. export PATH="$SPARK_HOME/bin:$SPARK_HOME/sbin:$PATH"

source ~/.bashrc

which spark-shell

4.修改spark的配置

进入spark配置目录进行配置:

  1. cd /usr/local/spark/conf
  2. cp log4j.properties.template log4j.properties ##修改 log4j.rootCategory=WARN, console
  3. cp spark-env.sh.template spark-env.sh

vi spark-env.sh ##设置spark的环境变量,进入spark-env.sh文件添加:

  1. export SPARK_HOME=/usr/local/spark
  2. export SCALA_HOME=/usr/local/scala

至此,Spark就已经安装好了

5. 运行spark:

Spark-Shell命令可以进入spark,可以使用Ctrl D组合键退出Shell:

Spark-Shell

  1. hadoop@ubuntuServer01:~$ spark-shell
  2. Setting default log level to "WARN".
  3. To adjust logging level use sc.setLogLevel(newLevel).
  4. 16/12/08 16:44:41 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
  5. 16/12/08 16:44:44 WARN SparkContext: Use an existing SparkContext, some configuration may not take effect.
  6. Spark context Web UI available at http://192.168.17.50:4040
  7. Spark context available as 'sc' (master = local[*], app id = local-1481186684381).
  8. Spark session available as 'spark'.
  9. Welcome to
  10. ____ __
  11. / __/__ ___ _____/ /__
  12. _\ \/ _ \/ _ `/ __/ '_/
  13. /___/ .__/\_,_/_/ /_/\_\ version 2.0.2
  14. /_/
  15. Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_80)
  16. Type in expressions to have them evaluated.
  17. Type :help for more information.
  18. scala>

启动spark服务:

start-master.sh ##

  1. hadoop@ubuntuServer01:~$ start-master.sh
  2. starting org.apache.spark.deploy.master.Master, logging to /usr/local/spark/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-ubuntuServer01.out
  3. hadoop@ubuntuServer01:~$ jps
  4. 2630 Master
  5. 2683 Jps

这里我们启动了主结点,jps多了一个Master的spark进程。

如果主节点启动成功,master默认可以通过web访问:http://ubuntuServer01:8080,查看sparkMaster的UI。

图中所述的spark://ubuntuServer01:7077 就是从结点启动的参数。

spark的master节点HA可以通过zookeeper和Local File System两种方法实现,具体可以参考官方的文档 http://spark.apache.org/docs/latest/spark-standalone.html#high-availability。

启动spark的slave从节点

start-slave.sh spark://ubuntuServer01:7077

  1. hadoop@ubuntuServer01:~$ start-slave.sh spark://ubuntuServer01:7077
  2. starting org.apache.spark.deploy.worker.Worker, logging to /usr/local/spark/logs/spark-hadoop-org.apache.spark.deploy.worker.Worker-1-ubuntuServer01.out
  3. hadoop@ubuntuServer01:~$ jps
  4. 2716 Worker
  5. 2765 Jps
  6. 2630 Master
  7. hadoop@ubuntuServer01:~$

运行jps命令,发现多了一个spark的worker进程。UI页面上的workers列表中也多了一条记录。

6. 运行一个Application在spark集群上。

运行一个交互式的spark shell在spark集群中:通过如下命令行:

spark-shell --master spark://ubuntuServer01:7077

  1. hadoop@ubuntuServer01:~$ spark-shell --master spark://ubuntuServer01:7077
  2. Setting default log level to "WARN".
  3. To adjust logging level use sc.setLogLevel(newLevel).
  4. 16/12/08 17:51:01 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
  5. 16/12/08 17:51:05 WARN SparkContext: Use an existing SparkContext, some configuration may not take effect.
  6. Spark context Web UI available at http://192.168.17.50:4040
  7. Spark context available as 'sc' (master = spark://ubuntuServer01:7077, app id = app-20161208175104-0000).
  8. Spark session available as 'spark'.
  9. Welcome to
  10. ____ __
  11. / __/__ ___ _____/ /__
  12. _\ \/ _ \/ _ `/ __/ '_/
  13. /___/ .__/\_,_/_/ /_/\_\ version 2.0.2
  14. /_/
  15. Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_80)
  16. Type in expressions to have them evaluated.
  17. Type :help for more information.
  18. scala>

从运行日志中可以看到job的UI(Spark web UI)页面地址:http://192.168.17.50:4040

和application id "app-20161208175104-0000",任务运行结束后,Spark web UI页面也会随之关闭。

使用spark-submit脚本执行一个spark任务:

  1. spark-submit \
  2. --class org.apache.spark.examples.SparkPi \
  3. --master spark://ubuntuServer01:7077 \
  4. --executor-memory 1G \
  5. --total-executor-cores 1 \
  6. $SPARK_HOME/examples/jars/spark-examples_2.11-2.0.2.jar \
  7. 10

使用spark-submit 提交 application可以参考spark的官方文档。

http://spark.apache.org/docs/latest/submitting-applications.html

spark的standlone模式安装和application 提交的更多相关文章

  1. 【Spark】Spark的Standalone模式安装部署

    Spark执行模式 Spark 有非常多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则执行在集群中,眼下能非常好的执行在 Yarn和 Mesos 中.当然 Spark 还有自带的 St ...

  2. spark运行模式之二:Spark的Standalone模式安装部署

    Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...

  3. spark运行模式之一:Spark的local模式安装部署

    Spark运行模式 Spark 有很多种模式,最简单就是单机本地模式,还有单机伪分布式模式,复杂的则运行在集群中,目前能很好的运行在 Yarn和 Mesos 中,当然 Spark 还有自带的 Stan ...

  4. spark跑YARN模式或Client模式提交任务不成功(application state: ACCEPTED)

    不多说,直接上干货! 问题详情 电脑8G,目前搭建3节点的spark集群,采用YARN模式. master分配2G,slave1分配1G,slave2分配1G.(在安装虚拟机时) export SPA ...

  5. spark跑YARN模式或Client模式提交任务不成功(application state: ACCEPTED)(转)

    不多说,直接上干货! 问题详情 电脑8G,目前搭建3节点的spark集群,采用YARN模式. master分配2G,slave1分配1G,slave2分配1G.(在安装虚拟机时) export SPA ...

  6. Spark on YARN模式的安装(spark-1.6.1-bin-hadoop2.6.tgz + hadoop-2.6.0.tar.gz)(master、slave1和slave2)(博主推荐)

    说白了 Spark on YARN模式的安装,它是非常的简单,只需要下载编译好Spark安装包,在一台带有Hadoop YARN客户端的的机器上运行即可.  Spark on YARN简介与运行wor ...

  7. Spark的StandAlone模式原理和安装、Spark-on-YARN的理解

    Spark是一个内存迭代式运算框架,通过RDD来描述数据从哪里来,数据用那个算子计算,计算完的数据保存到哪里,RDD之间的依赖关系.他只是一个运算框架,和storm一样只做运算,不做存储. Spark ...

  8. Spark集群模式&Spark程序提交

    Spark集群模式&Spark程序提交 1. 集群管理器 Spark当前支持三种集群管理方式 Standalone-Spark自带的一种集群管理方式,易于构建集群. Apache Mesos- ...

  9. 【Spark篇】---Spark中yarn模式两种提交任务方式

    一.前述 Spark可以和Yarn整合,将Application提交到Yarn上运行,和StandAlone提交模式一样,Yarn也有两种提交任务的方式. 二.具体      1.yarn-clien ...

随机推荐

  1. Ubuntu16.04配置phpmyadmin

    原文 如何安装phpmyadmin-Mysql 数据库管理 使用界面管理器:系统->系统管理->新立得软件包管理器->搜索 phpmyadmin->右键标记安装.或直接使用一条 ...

  2. 搭建Python+Django开发环境

    第一步:安装python. 常见的windows系统,直接python网站下载 最新的版本python3.5. python安装好之后,配置好环境变量.使得python和 pip命令能够正常使用. 第 ...

  3. mongodb学习(一)

    操作系统环境:ubuntu. 安装mongodb:apt-get install mongodb 安装后运行:mongod提示:[initandlisten] exception in initAnd ...

  4. kali driftnet

    语法 : driftnet   [options]   [filter code] 主要参数: -b               捕获到新的图片时发出嘟嘟声 -i  interface     选择监 ...

  5. Excel 同时打开2个或多个独立窗口

    首先win7版本点击[开始]菜单,在输入框里面输入"regedit.exe"打开注册表     然后定位找到该路径HKEY_CLASSES_ROOT \ Excel.Sheet.1 ...

  6. poj 2393 Yogurt factory

    http://poj.org/problem?id=2393 Yogurt factory Time Limit: 1000MS   Memory Limit: 65536K Total Submis ...

  7. DEV全选多选小技巧

    var v1 = bindingSourceBase.DataSource as DataTable; foreach (DataRowView v in v1.DefaultView) { v[&q ...

  8. js字符串和正则表达式中的match、replace、exec等函数详解

    正则并不是经常使用,而正则和字符串之间的函数关系又错综复杂,谁是谁的函数,又是怎么样的一种结果,往往我们是看一遍忘一遍,对此我是头疼不已,感觉自己是个笨蛋^_^. 为了以后不再查文档,特此把常用的函数 ...

  9. Extjs 一些配置以及方法

    1.例如想要实现以下功能,本来model中只有用户的firstname和lastname,但是在grid中展示还需要展示用户姓名,或者只展示用户姓名

  10. asp.net sqlite 当插入数据后的第一次访问会变的很慢!

    <add key="ConnectionStringSQLite" value="data source=|path|DB/XXX.db;Version=3;&qu ...