Spark Standalone模式伪分布式环境搭建

前提：安装好jdk1.7，hadoop

安装步骤：

1、安装scala

下载地址：http://www.scala-lang.org/download/

配置环境变量：

export SCALA_HOME=/..../scala

export PATH=.:$SCALA_HOME/bin ....

验证：scala -version

2、安装spark

使用自己编译过的对应自己hadoop的spark

配置环境变量：

export SPARK_HOME=/.../spark

export PATH=.:$SPARK_HOME/bin ....

修改spark配置文件：

1）$SPARK_HOME/conf/spark-env.sh

export SPARK_MASTER_IP=hadoop000

export SPARK_WORKER_CORES=1 #WorkNode分出几核给spark使用

export SPARK_WORKER_INSTANCES=1 #WorkNode使用几个spark实例，一般一个就行了

export SPARK_WORKER_MEMORY=1G #WorkNode分出多少内存给spark使用

export SPARK_WORKER_PORT=8888 #指定spark运行时的端口号

2）$SPARK_HOME/conf/slave.sh

配置worknode节点hostname，一行配置一个

3）$SPARK_HOME/conf/spark-defaults.conf （可选配置）

参数配置参见：http://spark.apache.org/docs/latest/configuration.html

spark.master spark://hadoop000:7077
spark.local.dir /home/spark/spark_shuffle/ #配置spark shuffle数据存放路径
spark.executor.memory 1g

3、启动spark

$SPARK_HOME下的sbin和bin说明：
sbin：存放的是启动和停止spark集群等的命令；
bin：存放的是应用程序（spark-shell）启动和停止等的命令。

启动spark集群（sbin目录下）：start-all.sh

启动后浏览器访问：http://hadoop000:8080/

注：hadoop000为hostname，配置的属性可以在4040端口查看到，形如：http://hadoop000:4040/environment/

启动spark-shell（bin目录下）：

1）单机启动方式：spark-shell

2）集群启动方式：

spark-shell --master spark://hadoop000:7077

默认情况下Application的Memory是512M，申请所有的CPU资源；

指定executor的memory和cpu core数：spark-shell --master spark://hadoop000:7077 --executor-memory 2g --total-executor-cores 1

注意：executor-memory是每个executor占用的，而executor-cores是所有executor一共占用

具体参数配置的来源：SparkSubmit.scala中的options属性

为了启动方便起见，可以将master配置到spark-defaults.conf中

spark.master spark://hadoop000:7077

再启动spark-shell时，只需要： spark-shell

如果要指定参数，则使用：spark-shell --executor-memory 2g --total-executor-cores 1

详细信息参见官方文档：http://spark.apache.org/docs/latest/spark-standalone.html#installing-spark-standalone-to-a-cluster

Spark Standalone模式伪分布式环境搭建的更多相关文章

hive-2.2.0 伪分布式环境搭建
一,实验环境: 1, ubuntu server 16.04 2, jdk,1.8 3, hadoop 2.7.4 伪分布式环境或者集群模式 4, apache-hive-2.2.0-bin.tar. ...
Hadoop学习笔记1：伪分布式环境搭建
在搭建Hadoop环境之前,请先阅读如下博文,把搭建Hadoop环境之前的准备工作做好,博文如下: 1.CentOS 6.7下安装JDK , 地址: http://blog.csdn.net/yule ...
Hadoop2.5.0伪分布式环境搭建
本章主要介绍下在Linux系统下的Hadoop2.5.0伪分布式环境搭建步骤.首先要搭建Hadoop伪分布式环境,需要完成一些前置依赖工作,包括创建用户.安装JDK.关闭防火墙等. 一.创建hadoo ...
【Hadoop】伪分布式环境搭建、验证
Hadoop伪分布式环境搭建: 自动部署脚本: #!/bin/bash set -eux export APP_PATH=/opt/applications export APP_NAME=Ares ...
大数据：Hadoop（JDK安装、HDFS伪分布式环境搭建、HDFS 的shell操作）
所有的内容都来源与 Hadoop 官方文档一.Hadoop 伪分布式安装步骤 1)JDK安装解压:tar -zxvf jdk-7u79-linux-x64.tar.gz -C ~/app 添加到系 ...
【Hadoop离线基础总结】CDH版本Hadoop 伪分布式环境搭建
CDH版本Hadoop 伪分布式环境搭建服务规划步骤第一步:上传压缩包并解压 cd /export/softwares/ tar -zxvf hadoop-2.6.0-cdh5.14.0.tar ...
CentOS7下Hadoop伪分布式环境搭建
CentOS7下Hadoop伪分布式环境搭建前期准备 1.配置hostname(可选,了解) 在CentOS中,有三种定义的主机名:静态的(static),瞬态的(transient),和灵活的(p ...
HDFS 伪分布式环境搭建
HDFS 伪分布式环境搭建作者:Grey 原文地址: 博客园:HDFS 伪分布式环境搭建 CSDN:HDFS 伪分布式环境搭建相关软件版本 Hadoop 2.6.5 CentOS 7 Oracle ...
Spark2.4.0伪分布式环境搭建
一.搭建环境的前提条件环境:ubuntu-16.04 hadoop-2.6.0 jdk1.8.0_161. spark-2.4.0-bin-hadoop2.6.这里的环境不一定需要和我一样,基本版 ...

随机推荐

adb failed to start daemon 的解决办法
很多人遇到下面这个问题 * daemon not running. starting it now on port 5037 * ADB server didn't ACK<br>* fa ...
linux crontab 实现每秒执行(转)
linux crontab 命令,最小的执行时间是一分钟.如需要在小于一分钟内重复执行,可以有两个方法实现. 1.使用延时来实现每N秒执行创建一个php做执行动作,非常简单,就是把当前时间写入log ...
Struts2 - Convertion
Struts2中的Convertion插件是比较有用,它可以简化很多操作,比如不需要一个一个Action在struts.xml中设置.当然,最有意义的是它与rest插件一起整合使用,可以完成web-s ...
nova分析（6）—— nova service启动过程
Nova project下面具有多个service,api,compute,sceduler等等,他们的启动过程都几乎类似,这一篇博客就详细记录nova-sceduler的启动过程.文章中贴出的源码都 ...
C语言每日一题之No.3
几天下来,感慨学习要坚持下来真的是件很难的事,本来说了每天一题,可是毕竟这是个细活,需要用心雕琢,有时候真的不能当天拿下来>_<.虽然说只是一题,却涉及到很多小细节,慢慢的琢磨直至完全摸透 ...
Android SDK 4.0.3 开发环境配置及运行
最近又装了一次最新版本的ADK环境目前最新版是Android SDK 4.0.3 本文的插图和文本虽然是Android2.2的步骤都是一样的,如果安装的过程中遇到什么问题,可以留言,我会尽快回复! ...
黄聪：wordpress如何添加自定义文章快速编辑按钮
When working with WordPress posts and you want to quickly change the status or date of one or more p ...
*.hbm.xml讲解
 <hibernate ...
solr基于tomcat增加主界面登录权限
tomcat-user.xml增加下面标签(用户名,密码,角色)<user username="admin" password="new-password" ...
spark RDD transformation与action函数整理
1.创建RDD val lines = sc.parallelize(List("pandas","i like pandas")) 2.加载本地文件到RDD ...

Spark Standalone模式伪分布式环境搭建

Spark Standalone模式伪分布式环境搭建的更多相关文章

随机推荐

热门专题