1、spark集群搭建
前提:已经搭建完全分布式的Hadoop集群,请参看http://www.cnblogs.com/netbloomy/p/6660131.html
1、Scala2.12.1环境搭建
1)、下载scala安装包:wget https://downloads.lightbend.com/scala/2.12.1/scala-2.12.1.rpm
2)、安装:rpm -ivh scala-2.12.1.rpm
3)、添加环境变量:
export SCALA_HOME=/usr/share/scala
export PATH=$SCALA_HOME/bin:$PATH
2、Spark2.1.0完全分布式环境搭建
以下操作都在c7001节点/opt目录下进行。
1)、下载二进制包:
[vagrant@c7002 opt]$ wget http://d3kbcqa49mib13.cloudfront.net/spark-2.1.0-bin-hadoop2.7.tgz
2)、解压并移动到相应目录,命令如下:
tar -zxvf spark-2.1.0-bin-hadoop2.7.tgz
3)、修改相应的配置文件。
修改/etc/profie,增加如下内容:
export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin
复制spark-env.sh.template成spark-env.sh
cp spark-env.sh.template spark-env.sh
修改$SPARK_HOME/conf/spark-env.sh,添加如下内容:
export JAVA_HOME=/opt/jdk1.8.0_121 #配置java路径
export SCALA_HOME=/usr/share/scala #配置scala路径
export HADOOP_HOME=/opt/hadoop-2.8.0 #配置hadoop的路径
export HADOOP_CONF_DIR=/opt/hadoop-2.8.0/etc/hadoop #配置hadoop的配置路径
export SPARK_MASTER_IP=192.168.70.101 #master节点ip
export SPARK_MASTER_HOST=c7001 #master节点hostname
export SPARK_MASTER_OPTS="-Dspark.deploy.defaultCores=1" #spark-shell启动使用核数
export SPARK_LOCAL_IP=192.168.70.101 #本机ip或hostname
export SPARK_LOCAL_DIRS=/opt/spark-2.1.0-bin-hadoop2.7/local #配置spark的local目录
export SPARK_MASTER_WEBUI_PORT=8080 #web页面端口
export SPARK_WORKER_MEMORY=1g #worker内存大小
export SPARK_WORKER_CORES=1 #Worker的cpu核数
export SPARK_WORKER_DIR=/opt/spark-2.1.0-bin-hadoop2.7/work #worker目录
export SPARK_WORKER_OPTS="-Dspark.worker.cleanup.enabled=true -Dspark.worker.cleanup.appDataTtl=604800" #worker自动清理及清理时间间隔
export SPARK_HISTORY_OPTS="-Dspark.history.ui.port=18080 -Dspark.history.retainedApplications=3 -Dspark.history.fs.logDirectory=hdfs://192.168.70.101:9000/tmp/spark/applicationHistory" #history server页面端口、备份数、log日志在HDFS的位置
export SPARK_LOG_DIR=/opt/spark-2.1.0-bin-hadoop2.7/log #配置Spark的log日志目录
export SPARK_HOME=/opt/spark-2.1.0-bin-hadoop2.7
export SPARK_DIST_CLASSPATH=$(/opt/hadoop-2.8.0/bin/hadoop classpath)
spark-defaults.conf内容如下
spark.eventLog.enabled true #eventLog是否生效(建议开启,可以对已完成的任务记录其详细日志)
spark.eventLog.compress true #eventLog是否启用压缩(cpu性能好的情况下建议开启,以减少内存等的占用)
spark.eventLog.dir hdfs://192.168.70.101:9000/tmp/spark/applicationHistory #eventLog的文件存放位置,与spark-env.sh中的history server配置位置一致,这两个位置必须手动创建 hadoop fs -mkdir -p /tmp/spark/applicationHistory,否则spark启动失败
spark.broadcast.blockSize 8m #广播块大小
spark.executor.cores 1 #Executor的cpu核数
spark.executor.memory 512m #Executor的内存大小
spark.executor.heartbeatInterval 20s #Executor心跳交换时间间隔
spark.files.fetchTimeout 120s #文件抓取的timeout
spark.task.maxFailures 6 #作业最大失败次数(达到此次数后,该作业不再继续执行,运行失败)
spark.serializer org.apache.spark.serializer.KryoSerializer #设置序列化机制(默认使用java的序列化,但是速度很慢,建议使用Kryo)
spark.kryoserializer.buffer.max 256m #序列化缓冲大小
spark.akka.frameSize 128 #Akka调度帧大小
spark.default.parallelism 20 #默认并行数
spark.network.timeout 300s #最大网络延时
spark.speculation true #Spark推测机制(建议开启)
复制slaves.template成slaves
cp slaves.template slaves
修改$SPARK_HOME/conf/slaves,添加如下内容:
c7002
c7003
c7004
c7005
4)、将配置好的spark文件复制到c7002、c7003、c7004和c7005节点。
scp -r /opt/spark-2.1.0-bin-hadoop2.7 vagrant@C7002:/opt
scp -r /opt/spark-2.1.0-bin-hadoop2.7 vagrant@C7003:/opt
scp -r /opt/spark-2.1.0-bin-hadoop2.7 vagrant@C7004:/opt
scp -r /opt/spark-2.1.0-bin-hadoop2.7 vagrant@C7005:/opt
5)、修改c7002、c7003、c7004和c7005节点配置。
在c7002、c7003、c7004和c7005节点上分别修改/etc/profile,增加Spark的配置,过程同c7001一样。
在c7002、c7003、c7004和c7005节点修改$SPARK_HOME/conf/spark-env.sh,将export SPARK_LOCAL_IP=192.168.70.101改成c7002、c7003、c7004和c7005对应节点的IP。
6)、在Master节点启动集群。
/opt/spark-2.1.0-bin-hadoop2.7/sbin/start-all.sh
7)、查看集群是否启动成功:
jps
Master在Hadoop的基础上新增了:
Master
Slave在Hadoop的基础上新增了:
Worker
3、spark-submit提交作业
代码需要提交到spark运行,使用命令 spark-submit --master spark://c7001:7077 test.py
spark-submit 在默认情况下它会从Spark文件夹的conf/spark-defaults.conf读取参数
如果配置了spark.master, 你就可以不用在调用spark-submit脚本时设置--master参数
如果你不清楚配置项来自哪里,你可以使用--verbose打印详细的调试信息
1、spark集群搭建的更多相关文章
- (四)Spark集群搭建-Java&Python版Spark
Spark集群搭建 视频教程 1.优酷 2.YouTube 安装scala环境 下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到m ...
- Spark集群搭建简要
Spark集群搭建 1 Spark编译 1.1 下载源代码 git clone git://github.com/apache/spark.git -b branch-1.6 1.2 修改pom文件 ...
- Spark集群搭建简配+它到底有多快?【单挑纯C/CPP/HADOOP】
最近耳闻Spark风生水起,这两天利用休息时间研究了一下,果然还是给人不少惊喜.可惜,笔者不善JAVA,只有PYTHON和SCALA接口.花了不少时间从零开始认识PYTHON和SCALA,不少时间答了 ...
- Spark集群搭建中的问题
参照<Spark实战高手之路>学习的,书籍电子版在51CTO网站 资料链接 Hadoop下载[链接](http://archive.apache.org/dist/hadoop/core/ ...
- Spark集群搭建_Standalone
2017年3月1日, 星期三 Spark集群搭建_Standalone Driver: node1 Worker: node2 Worker: node3 1.下载安装 下载地址 ...
- Spark集群搭建_YARN
2017年3月1日, 星期三 Spark集群搭建_YARN 前提:参考Spark集群搭建_Standalone 1.修改spark中conf中的spark-env.sh 2.Spark on ...
- spark集群搭建
文中的所有操作都是在之前的文章scala的安装及使用文章基础上建立的,重复操作已经简写: 配置中使用了master01.slave01.slave02.slave03: 一.虚拟机中操作(启动网卡)s ...
- Spark 集群搭建
0. 说明 Spark 集群搭建 [集群规划] 服务器主机名 ip 节点配置 s101 192.168.23.101 Master s102 192.168.23.102 Worker s103 19 ...
- hadoop+spark集群搭建入门
忽略元数据末尾 回到原数据开始处 Hadoop+spark集群搭建 说明: 本文档主要讲述hadoop+spark的集群搭建,linux环境是centos,本文档集群搭建使用两个节点作为集群环境:一个 ...
- Spark集群搭建(local、standalone、yarn)
Spark集群搭建 local本地模式 下载安装包解压即可使用,测试(2.2版本)./bin/spark-submit --class org.apache.spark.examples.SparkP ...
随机推荐
- Testing shell commands from Python
如何测试shell命令?最近,我遇到了一些情况,我想运行shell命令进行测试,Python称为万能胶水语言,一些自动化测试都可以完成,目前手头的工作都是用python完成的.但是无法从Python中 ...
- 【Error】 1045 (28000): Access denied for user 'root'@'localhost' (using password: YES)
mysql 登录输入密码有时会碰到如题的错误. 错误描述: Error 1045 (28000): Access denied for user 'root'@'localhost' (using p ...
- Linux安装apue.3e(基于ubuntu16.0.4)
本菜刚刚学习UNIX高级编程,无奈搭建本书编程环境时遇到不少问题,参考了网上各路大神的解决办法,最终解决了问题. (1)下载源代码,可以去官网下载:http://apuebook.com/code3e ...
- 【WebGL】4.光源
光的类型:所有的光都是从THREE.Light继承,分为环境光THREE.AmbientLight,点光源PointLight,聚光灯THREE.SpotLight和方向光THREE.Directio ...
- C++11_Type Traits
版权声明:本文为博主原创文章,未经博主允许不得转载. 识别变量的type id,返回true或false,举一个简单使用的例子 template <typename T> void typ ...
- 42.zip
最近看linux的解压缩,无意间了解到了一个和压缩率相关的小故事——42.zip 一般我们使用压缩工具的时候,都会用到无损压缩技术,对于无损压缩,算法非常重要,不同的算法实现 的压缩率和速度有很大差别 ...
- 使用gmock白盒测试
提起白盒测试,很多程序员可能觉得就是个书上的概念,很多人写完代码根本没有具体的测试方案,自己觉得可行就提交了,其实这是个很危险的事情,毕竟出了bug,最后要加班的人还是你 ,因此做好白盒测试,100% ...
- 人生苦短之我用Python篇(XML模块)
XML模块 http://baike.baidu.com/link?url=-mBgvMdEDU7F05Pw7h_hBt7A0ctYiPm5a_WvKVLknydnRXKRIyydcVZWRjd_5H ...
- stark组件
写一个stark组件仿造admin的功能 1:新建一个stark的app 问题:在django每次启动会扫描目录下所有的admin文件,需要扫描项目目录下的每个stark文件,我们需要怎么做 1:看在 ...
- 【排序】冒泡排序,C++实现
原创文章,转载请注明出处! 博客文章索引地址 博客文章中代码的github地址 # 基本思想(从小到大排序) 对于给定的n个元素,从第一个元素开始,依次对相邻的两个元素进行比较,当前面的记 ...