安装spark ha集群 

1.默认安装好hadoop+zookeeper
2.安装scala
1.解压安装包
tar zxvf scala-2.11.7.tgz
2.配置环境变量
vim /etc/profile #scala
export SCALA_HOME=/opt/scala-2.11.7 #CLASSPATH
export CLASSPATH=$CLASSPATH:$SCALA_HOME/lib #PATH
export PATH=$PATH:$SCALA_HOME/bin 保存退出 source /etc/profile
3.验证
scala -version 3.安装spark
1.解压安装包
tar zxvf spark-1.6.0-bin-hadoop2.4.tgz
2.配置环境变量
vim /etc/profile #spark
export SPARK_HOME=/opt/spark-1.6.0 #CLASSPATH
export CLASSPATH=$CLASSPATH:$SPARK_HOME/lib #PATH
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin 保存退出 source /etc/profile 3.修改配置文件
1.根据模板复制相关配置文件
cp spark-env.sh.template spark-env.sh
cp slaves.template slaves
cp log4j.properties.template log4j.properties
cp spark-defaults.conf.template spark-defaults.conf
2.创建相关目录
mkdir /opt/spark-1.6.0/logs
mkdir /opt/spark-1.6.0/tmp
hadoop fs -mkdir /spark //在hdfs上创建存储spark的任务日志文件
3.修改配置文件参数
####spark-env.sh#### 最后加入 其中hadoop.master为主节点 hadoop.slaver1为备份主节点
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=hadoop.master:2181,hadoop.slaver1:2181 -Dspark.deploy.zookeeper.dir=/spark"
export JAVA_HOME=/usr/java/jdk1.8.0_65
export SPARK_WORKER_CORES=1
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=1g ####slaves####将所有的从节点主机名加入
hadoop.slaver1
hadoop.slaver2
hadoop.slaver3 ####log4j.properties####
无需修改 ####spark-defaults.conf####
spark.eventLog.enabled true
spark.eventLog.dir hdfs://ns1:8020/spark
spark.history.fs.logDirectory hdfs://ns1:8020/spark
spark.eventLog.compress true 4.分发到各个节点
scp -r /opt/spark-1.6.0 hadoop@hadoop.slaver1:/opt
scp -r /opt/spark-1.6.0 hadoop@hadoop.slaver2:/opt
scp -r /opt/spark-1.6.0 hadoop@hadoop.slaver3:/opt
5.启动
//先启动zookeeper 和 hdfs
sbin/start-all.sh //注意切换目录 不然跟hadoop的start-all 冲突 spark-shell --master spark://hadoop.master:7077 //集群模式启动客户端
spark-shell //单机模式启动客户端
6.验证
1.jps
2.web
节点主机名:8080 //如果采用默认端口的話则是8080 主节点web
节点主机名:18080 //主节点 历史任务web
节点主机名:4040 //子节点正在进行任务web
3.HA
在备份主机节点执行 start-master.sh命令
然后在主机节点把master进程kill掉,此时会自行切换至备份节点(需要几秒钟的缓冲时间)
7.常用命令
1.启动
start-all.sh //注意切换目录
start-master.sh
stop-master.sh
start-slave.sh 主节点:7077 //默认端口 如果不修改的話
start-history-server.sh //启动任务历史服务
2.使用
1.本机模式
运行 spark-shell
2.yarn
打包运行jar包
spark-submit
--master spark://spark113:7077
--class org.apache.spark.examples.SparkPi
--name Spark-Pi --executor-memory 400M
--driver-memory 512M
/opt/spark-1.6.0/lib/spark-examples-1.6.0-hadoop2.4.0.jar
3.wordcount
val file=sc.textFile("hdfs://ns1:8020/huangzhijian/test.dat")
val count=file.flatMap(line => line.split(" ")).map(word => (word,1)).reduceByKey(_+_)
count.saveAsTextFile("hdfs://ns1:8020/output") //需保证hdfs上该目录不存在

  

安装spark ha集群的更多相关文章

  1. 大数据-spark HA集群搭建

    一.安装scala 我们安装的是scala-2.11.8  5台机器全部安装 下载需要的安装包,放到特定的目录下/opt/workspace/并进行解压 1.解压缩 [root@master1 ~]# ...

  2. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十)安装hadoop2.9.0搭建HA

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

  3. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(九)安装kafka_2.11-1.1.0

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

  4. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(八)安装zookeeper-3.4.12

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

  5. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(三)安装spark2.2.1

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

  6. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二)安装hadoop2.9.0

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

  7. HUE配置文件hue.ini 的Spark模块详解(图文详解)(分HA集群和HA集群)

    不多说,直接上干货! 我的集群机器情况是 bigdatamaster(192.168.80.10).bigdataslave1(192.168.80.11)和bigdataslave2(192.168 ...

  8. Storm-1.0.1+ZooKeeper-3.4.8+Netty-4.1.3 HA集群安装

    Storm-1.0.1+ZooKeeper-3.4.8+Netty-4.1.3 HA集群安装 下载Storm-1.0.1 http://mirrors.tuna.tsinghua.edu.cn/apa ...

  9. 菜鸟玩云计算之十九:Hadoop 2.5.0 HA 集群安装第2章

    菜鸟玩云计算之十九:Hadoop 2.5.0 HA 集群安装第2章 cheungmine, 2014-10-26 在上一章中,我们准备好了计算机和软件.本章开始部署hadoop 高可用集群. 2 部署 ...

随机推荐

  1. Linux vmstat使用

    Vmstat命令的简单使用 Vmstat命令是Linux/unix常用的系统监控工具,可以方便的查看CPU.内存.swap分区.IO读写等情况. Vmstat常用的参数主要有两个:1.采集的时间间隔 ...

  2. Maven模块聚合

    一个Maven工程中一般会有很多模块组成,为了构建的方便通常想一次构建多个模块,Maven聚合这一特性就是为该需求服务的. 假设我们有account-email和account-persist两个模块 ...

  3. Struts2第一个入门案例

      一.如何获取Struts2,以及Struts2资源包的目录结构的了解    Struts的官方地址为http://struts.apache.org 在他的主页当中,我们可以通过左侧的Apache ...

  4. dom解析和sax解析的区别及优缺点

    dom解析一开始就将文档所有内容装入内存,每个元素(标签)都作为一个element对象存储,形成对象树,缺点是对内存占用大,不能解析数据量很大的文档:优点是方便进行crud操作. sax解析,逐行解析 ...

  5. Webstorm 2016.3激活码

    webstorm 2016.3 可用激活码, 使用activation code方式激活 就这么任性,就这么长 43B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0QTczWVlKI ...

  6. JS利用取余实现toggle多函数

    <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...

  7. http状态代码-转载

    一些常见的状态码为: 200 – 服务器成功返回网页 404 – 请求的网页不存在 503 – 服务不可用 1xx(临时响应) 表示临时响应并需要请求者继续执行操作的状态代码. 代码 说明 100 ( ...

  8. excel链接sharepoint 用于 Excel 的 Microsoft Power Query

    https://www.microsoft.com/zh-cn/download/confirmation.aspx?id=39379

  9. 破解激活Win10无风险?激活后删除激活工具无影响===http://www.pconline.com.cn/win10/693/6932077_all.html#content_page_4

    1Windows激活:测试环境搭建 随着Windows 10的发布,许多用户都用上了这个新一代的操作系统.Windows 10有个最好的设置就是,只要你在已经激活的旧系统中升进行升级操作,就能获得一个 ...

  10. Windows10系统如何更改程序的默认安装目录?

    Windows10系统如何更改程序的默认安装目录? 在Windows10系统的使用中,软件程序的默认安装目录是:C:\Program Files\...或者C:\Program Files(x86)\ ...