[bigdata] spark集群安装及测试

在spark安装之前，应该已经安装了hadoop原生版或者cdh，因为spark基本要基于hdfs来进行计算。

1. 下载

spark： http://mirrors.cnnic.cn/apache//spark/spark-1.4.1/spark-1.4.1-bin-hadoop2.3.tgz

scala： http://downloads.typesafe.com/scala/2.10.5/scala-2.10.5.tgz?_ga=1.171364775.609435662.1441620697

注意scala版本要与spark版本匹配，具体spark版本需要什么版本的scala可以官方文档上查看，如Spark 1.4.1需要 2.10.x的scala。

“ Spark runs on Java 6+, Python 2.6+ and R 3.1+. For the Scala API, Spark 1.4.1 uses Scala 2.10. You will need to use a compatible Scala version (2.10.x)” [http://spark.apache.org/docs/latest/]

2. 集群所有服务器上解压

tar -xvf /opt/app/spark-1.4.-bin-hadoop2..tgz

tar -xvf /opt/app/scala-2.10..tgz

3. 配置

假设集群有三台机器hadoop1，hadoop2，hadoop3，其中hadoop1作为master服务器，hadoop1,hadoop2,hadoop3作为slave服务器

1) 配置ssh免密码登陆，master与slave通信需要ssh通信，设置master到slaves服务器的ssh免密码登陆

在master hadoop1上执行

ssh-keygen-trsa

将 ~/.ssh/id_rsa.pub 的内容追加到三台slave服务器上的~/.ssh/authorized_keys文件。

hadoop1也需要配置，否则启动worker的时候会报权限问题。

2) 所有服务器上配置环境变量

vim /etc/profile

export SCALA_HOME=/opt/app/scala-2.10.

export SPARK_HOME=/opt/app/spark-1.4.-bin-hadoop2.

export PATH=$SCALA_HOME/bin:$SPARK_HOME/bin:$PATH

3）所有服务器上配置spark

[root@hadoop1 conf]# pwd

/opt/app/spark-1.4.-bin-hadoop2./conf

[root@hadoop1 conf]# cp spark-env.sh.template spark-env.sh

[root@hadoop1 conf]# cp slaves.template slaves

vim spark-env.sh

export JAVA_HOME=/opt/app/jdk1..0_45

export SCALA_HOME=/opt/app/scala-2.10.

export SPARK_HOME=/opt/app/spark-1.4.-bin-hadoop2.

export SPARK_MASTER_IP=10.200.8.74

export SPARK_WORKER_MEMORY=1g

export HADOOP_CONF_DIR=/etc/hadoop/conf

export SPARK_LIBRARY_PATH=$SPARK_HOME/lib

export SCALA_LIBRARY_PATH=$SPARK_LIBRARY_PATH

vim slaves

hadoop1

hadoop2

hadoop3

4. 启动

[root@hadoop1 spark-1.4.-bin-hadoop2.]# sbin/start-all.sh

[root@hadoop1 spark-1.4.-bin-hadoop2.]# sbin/stop-all.sh   //停止

5. 验证测试

通过jps命令查看启动的spark进程。

hadoop1上已启动Master与Worker进程

[root@hadoop1 spark-1.4.-bin-hadoop2.]# jps

 Bootstrap

 QuorumPeerMain

 Master

 RunJar

 jar

 Main

 Main

 JobHistoryServer

 RunJar

 Main

 Worker

 RunJar

 Main

 Jps

 Kafka

 Bootstrap

 AlertPublisher

 DataNode

 EventCatcherService

 Bootstrap

 SecondaryNameNode

hadoop2，hadoop3上已启动Worker进程

[root@hadoop2 conf]# jps

 Worker

 QuorumPeerMain

 troy-recv-3.0.-SNAPSHOT.jar

 Kafka

 Bootstrap

 Application

 NodeManager

 DataNode

 Jps

通过执行样例程序，成功执行说明一切安装部署OK

bin/run-example org.apache.spark.examples.SparkPi

通过web界面查看集群状态： http://master_ip:8080/

至此，spark集群安装部署完成。

[bigdata] spark集群安装及测试的更多相关文章

Spark入门：第2节 Spark集群安装：1 - 3；第3节 Spark HA高可用部署：1 - 2
三. Spark集群安装 3.1 下载spark安装包下载地址spark官网:http://spark.apache.org/downloads.html 这里我们使用 spark-2.1.3-bi ...
大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
第1章 Spark 概述1.1 什么是 Spark1.2 Spark 特点1.3 Spark 的用户和用途第2章 Spark 集群安装2.1 集群角色2.2 机器准备2.3 下载 Spark 安装包2 ...
CentOS6安装各种大数据软件第十章：Spark集群安装和部署
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
spark集群安装配置
spark集群安装配置一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoo ...
3 Spark 集群安装
第3章 Spark集群安装 3.1 Spark安装地址 1．官网地址 http://spark.apache.org/ 2．文档查看地址 https://spark.apache.org/docs/2 ...
大数据平台搭建-spark集群安装
版本要求 java 版本:1.8.*(1.8.0_60) 下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downl ...
Spark集群安装和WordCount编写
一.Spark概述官网:http://spark.apache.org/ Apache Spark™是用于大规模数据处理的统一分析引擎. 为大数据处理而设计的快速通用的计算引擎. Spark加州大学 ...
spark集群安装并集成到hadoop集群
前言最近在搞hadoop+spark+python,所以就搭建了一个本地的hadoop环境,基础环境搭建地址hadoop2.7.7 分布式集群安装与配置本篇博客主要说明,如果搭建spark集群并集 ...
Spark 个人实战系列(1)--Spark 集群安装
前言: CDH4不带yarn和spark, 因此需要自己搭建spark集群. 这边简单描述spark集群的安装过程, 并讲述spark的standalone模式, 以及对相关的脚本进行简单的分析. s ...

随机推荐

couchDB文档
每个文档都是自包含的数据单元,是一系列数据项的集合. 每个数据项都有一个名称与对应的值,值既可以是简单的数据类型,如字符串.数字和日期等:也可以是复杂的类型,如有序列表和关联对象. 每个文档都有一个全 ...
Android 最全Activity生命周期
新进入Activity:onCreate > onStart > onResume 退出Activity:onPause > onStop > onDestroy 目前处于该A ...
一个语句创建Oracle所有表的序列
-- 动态创建序列 declare cursor c_job is select TABLE_NAME from user_tables; c_row c_job%rowtype; v_sql ); ...
Tomcat：配置SSL
SSL简述 SSL就是安全套接字层,是一种允许web浏览器和 web服务器通过安全连接通信的技术.这是一个双向的过程,这意味着服务器和浏览器在发送数据之前加密所有交流的数据. SSL有一个重要的特点 ...
分布式搜索引擎Elasticsearch的查询与过滤
一.写入先来一个简单的官方例子,插入的参数为-XPUT,插入一条记录. curl -XPUT 'http://localhost:9200/test/users/1' -d '{ "use ...
2-3 Linux文件管理命令详解
1. 复制文件 cp: copy 格式 SRCFILE DEST 一个文件到一个文件多个文件到一个目录注,cd 后面什么都不加,是进入用户的家目录如果目标文件不存在,则先创建文 ...
linux小技巧
主机禁止ping: 修改/proc/sys/net/ipv4/icmp_echo_ignore_all 值为1 默认是0 echo '1' > /proc/sys/net/ipv4/icmp_e ...
extjs学习资料
ExtJs 入门教程 1.Extjs5.1.0教程云盘地址 http://pan.baidu.com/s/1qYhHiEw 2.Extjs3.x如下: ExtJs 入门教程一[学习方法] ExtJ ...
centos yum update kernel
1.查看当前kernel版本 uname -r 2.查看已安装版本 rpm -q kernel 3.查看可升级kernel版本 yum list kernel 4.升级kernel版本 yum upd ...
迅为-iMX6开发板飞思卡尔iMX6Q开发板工业级开发板
了解详情请点击迅为官网:http://topeetboard.com 迅为-i.MX6开发板是采用Freescale Cortex-A9 四核i.MX6Q处理器,主频1GHz,2G DDR3内存,16 ...

[bigdata] spark集群安装及测试

[bigdata] spark集群安装及测试的更多相关文章

随机推荐

热门专题