前提:已经搭建完全分布式的Hadoop集群,请参看http://www.cnblogs.com/netbloomy/p/6660131.html

1、Scala2.12.1环境搭建

1)、下载scala安装包:wget https://downloads.lightbend.com/scala/2.12.1/scala-2.12.1.rpm

2)、安装:rpm -ivh scala-2.12.1.rpm

3)、添加环境变量:

  export SCALA_HOME=/usr/share/scala
  export PATH=$SCALA_HOME/bin:$PATH

2、Spark2.1.0完全分布式环境搭建

以下操作都在c7001节点/opt目录下进行。

1)、下载二进制包:

  [vagrant@c7002 opt]$ wget http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz

2)、解压并移动到相应目录,命令如下:

  tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz

3)、修改相应的配置文件。

  修改/etc/profie,增加如下内容:

  export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7
  export PATH=$PATH:$SPARK_HOME/bin

  复制spark-env.sh.template成spark-env.sh

  cp spark-env.sh.template spark-env.sh

  修改$SPARK_HOME/conf/spark-env.sh,添加如下内容:

  export JAVA_HOME=/opt/jdk1.8.0_121 #配置java路径
  export SCALA_HOME=/usr/share/scala #配置scala路径
  export HADOOP_HOME=/opt/hadoop-2.8.0 #配置hadoop的路径
  export HADOOP_CONF_DIR=/opt/hadoop-2.8.0/etc/hadoop #配置hadoop的配置路径
  export SPARK_MASTER_IP=192.168.70.101 #master节点ip
  export SPARK_MASTER_HOST=c7001 #master节点hostname
  export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1" #spark-shell启动使用核数
  export SPARK_LOCAL_IP=192.168.70.101 #本机ip或hostname
  export SPARK_LOCAL_DIRS=/opt/spark-2.1.0-bin-hadoop2.7/local #配置spark的local目录
  export SPARK_MASTER_WEBUI_PORT=8080 #web页面端口
  export SPARK_WORKER_MEMORY=1g #worker内存大小
  export SPARK_WORKER_CORES=1 #Worker的cpu核数
  export SPARK_WORKER_DIR=/opt/spark-2.1.0-bin-hadoop2.7/work #worker目录
  export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=604800" #worker自动清理及清理时间间隔
  export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://192.168.70.101:9000/tmp/spark/applicationHistory" #history server页面端口、备份数、log日志在HDFS的位置  
  export SPARK_LOG_DIR=/opt/spark-2.1.0-bin-hadoop2.7/log #配置Spark的log日志目录
  export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7
  export SPARK_DIST_CLASSPATH=$(/opt/hadoop-2.8.0/bin/hadoop classpath)

  spark-defaults.conf内容如下
  spark.eventLog.enabled true #eventLog是否生效(建议开启,可以对已完成的任务记录其详细日志)
  spark.eventLog.compress true #eventLog是否启用压缩(cpu性能好的情况下建议开启,以减少内存等的占用)
  spark.eventLog.dir hdfs://192.168.70.101:9000/tmp/spark/applicationHistory #eventLog的文件存放位置,与spark-env.sh中的history server配置位置一致,这两个位置必须手动创建 hadoop fs -mkdir -p /tmp/spark/applicationHistory,否则spark启动失败
  spark.broadcast.blockSize 8m #广播块大小
  spark.executor.cores 1 #Executor的cpu核数
  spark.executor.memory 512m #Executor的内存大小
  spark.executor.heartbeatInterval 20s #Executor心跳交换时间间隔
  spark.files.fetchTimeout 120s #文件抓取的timeout
  spark.task.maxFailures 6 #作业最大失败次数(达到此次数后,该作业不再继续执行,运行失败)
  spark.serializer org.apache.spark.serializer.KryoSerializer #设置序列化机制(默认使用java的序列化,但是速度很慢,建议使用Kryo)
  spark.kryoserializer.buffer.max 256m #序列化缓冲大小
  spark.akka.frameSize 128 #Akka调度帧大小
  spark.default.parallelism 20 #默认并行数
  spark.network.timeout 300s #最大网络延时
  spark.speculation true #Spark推测机制(建议开启)

  复制slaves.template成slaves

  cp slaves.template slaves

  修改$SPARK_HOME/conf/slaves,添加如下内容:

  c7002
  c7003
  c7004
  c7005

4)、将配置好的spark文件复制到c7002、c7003、c7004和c7005节点。

  scp -r /opt/spark-2.1.0-bin-hadoop2.7 vagrant@C7002:/opt
  scp -r /opt/spark-2.1.0-bin-hadoop2.7 vagrant@C7003:/opt
  scp -r /opt/spark-2.1.0-bin-hadoop2.7 vagrant@C7004:/opt
  scp -r /opt/spark-2.1.0-bin-hadoop2.7 vagrant@C7005:/opt

5)、修改c7002、c7003、c7004和c7005节点配置。

  在c7002、c7003、c7004和c7005节点上分别修改/etc/profile,增加Spark的配置,过程同c7001一样。

  在c7002、c7003、c7004和c7005节点修改$SPARK_HOME/conf/spark-env.sh,将export SPARK_LOCAL_IP=192.168.70.101改成c7002、c7003、c7004和c7005对应节点的IP。

6)、在Master节点启动集群。

  /opt/spark-2.1.0-bin-hadoop2.7/sbin/start-all.sh

7)、查看集群是否启动成功:

  jps

  Master在Hadoop的基础上新增了:

  Master

  Slave在Hadoop的基础上新增了:

  Worker

3、spark-submit提交作业
代码需要提交到spark运行,使用命令 spark-submit --master spark://c7001:7077 test.py
spark-submit 在默认情况下它会从Spark文件夹的conf/spark-defaults.conf读取参数
如果配置了spark.master, 你就可以不用在调用spark-submit脚本时设置--master参数
如果你不清楚配置项来自哪里,你可以使用--verbose打印详细的调试信息

1、spark集群搭建的更多相关文章

  1. (四)Spark集群搭建-Java&Python版Spark

    Spark集群搭建 视频教程 1.优酷 2.YouTube 安装scala环境 下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到m ...

  2. Spark集群搭建简要

    Spark集群搭建 1 Spark编译 1.1 下载源代码 git clone git://github.com/apache/spark.git -b branch-1.6 1.2 修改pom文件 ...

  3. Spark集群搭建简配+它到底有多快?【单挑纯C/CPP/HADOOP】

    最近耳闻Spark风生水起,这两天利用休息时间研究了一下,果然还是给人不少惊喜.可惜,笔者不善JAVA,只有PYTHON和SCALA接口.花了不少时间从零开始认识PYTHON和SCALA,不少时间答了 ...

  4. Spark集群搭建中的问题

    参照<Spark实战高手之路>学习的,书籍电子版在51CTO网站 资料链接 Hadoop下载[链接](http://archive.apache.org/dist/hadoop/core/ ...

  5. Spark集群搭建_Standalone

    2017年3月1日, 星期三 Spark集群搭建_Standalone Driver:    node1    Worker:  node2    Worker:  node3 1.下载安装 下载地址 ...

  6. Spark集群搭建_YARN

    2017年3月1日, 星期三 Spark集群搭建_YARN 前提:参考Spark集群搭建_Standalone   1.修改spark中conf中的spark-env.sh   2.Spark on ...

  7. spark集群搭建

    文中的所有操作都是在之前的文章scala的安装及使用文章基础上建立的,重复操作已经简写: 配置中使用了master01.slave01.slave02.slave03: 一.虚拟机中操作(启动网卡)s ...

  8. Spark 集群搭建

    0. 说明 Spark 集群搭建 [集群规划] 服务器主机名 ip 节点配置 s101 192.168.23.101 Master s102 192.168.23.102 Worker s103 19 ...

  9. hadoop+spark集群搭建入门

    忽略元数据末尾 回到原数据开始处 Hadoop+spark集群搭建 说明: 本文档主要讲述hadoop+spark的集群搭建,linux环境是centos,本文档集群搭建使用两个节点作为集群环境:一个 ...

  10. Spark集群搭建(local、standalone、yarn)

    Spark集群搭建 local本地模式 下载安装包解压即可使用,测试(2.2版本)./bin/spark-submit --class org.apache.spark.examples.SparkP ...

随机推荐

  1. Java进阶3. 内存回收机制

    Java进阶3. 内存回收机制 20131029 前言: 学过C++的都知道,C++中内存需要程序员自己维护.说道这里,很多开发的同学就感觉很痛苦,当他转向Java的时候,就会说你看Java多好啊,程 ...

  2. Prism5.0开发人员指南内容(纯汉语版)

    Prism指南包含以下内容: 下载并安装Prism Prism5.0新内容 介绍 初始化应用程序 组件间的依赖管理 模块化应用程序开发 实现MVVM模式 进击的MVVM 组合式用户界面 导航 松耦合组 ...

  3. web应用后台发生的事

    浏览器里输入网址后浏览器会通过访问的域名找出其IP地址,给Web服务器发送一个HTTP请求,得到一个服务的永久重定向响应,然后浏览器跟踪重定向地址,发送另一个请求,服务器接收到获取请求,然后处理并返回 ...

  4. APUE学习笔记——11 线程同步、互斥锁、自旋锁、条件变量

    线程同步     同属于一个进程的不同线程是共享内存的,因而在执行过程中需要考虑数据的一致性.     假设:进程有一变量i=0,线程A执行i++,线程B执行i++,那么最终i的取值是多少呢?似乎一定 ...

  5. Valgrind的Memcheck快速入门

    一.前言        对于C/C++程序员来说,关于内存问题真是让人头痛不已,尤其是内存泄露.使用未初始化的局部变量进行跳转或移动等隐形问题.要求程序员养成良好的编码习惯确实很重要,但是人总会出现稀 ...

  6. IE中在a标签里的图片会显示边框

    例如: <a><img src="/UI/Images/ss.jpg"></a>,图的边框会出现a标签默认的边框, 解决办法: img{bord ...

  7. HEVC简介】CTU、CU、PU、TU结构

    https://www.cnblogs.com/DwyaneTalk/p/5711342.html

  8. JDK1.7之 HashMap 源码分析

    转载请注明出处:http://blog.csdn.net/crazy1235/article/details/75451812 类继承关系 构造函数 Entry put put putForNullK ...

  9. Lua基础---一维数组与多维数组

    Lua语言中,数组和C还是有区别的,Lua的数组下标从1开始计数,而C语言的数组下标从0开始计数,我想这可能是设计Lua的人想要符合人的思维习惯而去这么设计的. 数组,也就是按相同类型,在内存中顺序排 ...

  10. 使用fill_n算法

    今天使用这个算法来给一个数组赋值,所以把它的使用过程记录下来: fill_n函数的作用是:给你一个起始点,然后再给你一个数值count和val.把从起始点开始依次赋予count个元素val的值. 注意 ...