安装配置Spark集群

首先准备3台电脑或虚拟机，分别是Master,Worker1,Worker2，安装操作系统(本文中使用CentOS7)。

1、配置集群，以下步骤在Master机器上执行

　　1.1、关闭防火墙：systemctl stop firewalld.service

　　1.2、设置机器ip为静态ip

　　　　1.2.1、修改配置

cd /etc/sysconfig/network-scripts/

vim ifcfg-eno16777736

更改内容如下：

BOOTPROTO=static

#配置静态IP，网关，子网掩码

IPADDR=192.168.232.133

NETMASK=255.255.255.0

GATEWAY=192.168.232.2

#取消networkmanager 管理

NM_CONTROLLED=no

ONBOOT=yes

　　　　1.2.2、重启网络服务：systemctl restart network.service

　　1.3、设置机器名hostname：hostnamectl set-hostname Master

　　1.4、设置/etc/hosts

192.168.232.133    Master

192.168.232.134    Worker1

192.168.232.135    Worker2

　　1.5、按以上5个步骤配置Worker1,Worker2

　　1.6、测试集群内机器是否可相互ping通：ping Worker1

2、配置ssh免密码登录

　　2.1、配置Master无密码登录所有Worker

　　　　2.1.1、在Master节点上生成密码对，在Master上执行以下命令：
　　　　　　ssh-keygen -t rsa -P ''
　　　　　　生成的密钥对：id_rsa和id_rsa.pub，默认存储在"/root/.ssh"目录下。

　　　　2.1.2、在Master节点上做如下配置，把id_rsa.pub追加到授权的key里面去。
　　　　　　cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

　　　　2.1.3、修改ssh配置文件"/etc/ssh/sshd_config"的下列内容：

RSAAuthentication yes # 启用 RSA 认证

PubkeyAuthentication yes # 启用公钥私钥配对认证方式

AuthorizedKeysFile .ssh/authorized_keys # 公钥文件路径（和上面生成的文件同）

　　　　2.1.4、重启ssh服务，才能使刚才设置有效：service sshd restart

　　　　2.1.5、验证无密码登录本机是否成功：ssh Master

　　　　2.1.6、把公钥复制到所有的Worker机器上。使用scp命令进行复制公钥：

scp /root/.ssh/id_rsa.pub root@Worker1:/root/

scp /root/.ssh/id_rsa.pub root@Worker2:/root/

　　2.2、配置Worker1机器
　　　　2.2.1、在"/root/"下创建".ssh"文件夹，如果已经存在就不需要创建了。
　　　　　　mkdir /root/.ssh

　　　　2.2.2、将Master的公钥追加到Worker1的授权文件"authorized_keys"中去。
　　　　　　cat /root/id_rsa.pub >> /root/.ssh/authorized_keys

　　　　2.2.3、修改"/etc/ssh/sshd_config"，具体步骤参考前面Master设置的第1.3和第1.4。

　　　　2.2.4、用Master使用ssh无密码登录Worker1
　　　　　　ssh worker1

　　　　2.2.5、删除"/root/"目录下的"id_rsa.pub"文件。
　　　　　　rm –r /root/id_rsa.pub

　　　　2.2.6、重复上面的5个步骤把Worker2服务器进行相同的配置。

　　2.3、配置所有Worker无密码登录Master

　　　　2.3.1、在Worker1节点上生成密码对，并把自己的公钥追加到"authorized_keys"文件中，执行下面命令：
　　　　　　ssh-keygen -t rsa -P ''
　　　　　　cat /root/.ssh/id_rsa.pub >> /root/.ssh/authorized_keys

　　　　2.3.2、将Worker1节点的公钥"id_rsa.pub"复制到Master节点的"/root/"目录下。
　　　　　　scp /root/.ssh/id_rsa.pub root@Master:/root/

　　　　2.3.3、在Master节点将Worker1的公钥追加到Master的授权文件"authorized_keys"中去。
　　　　　　cat ~/id_rsa.pub >> ~/.ssh/authorized_keys

　　　　2.3.4、在Master节点删除"id_rsa.pub"文件。
　　　　　　rm –r /root/id_rsa.pub

　　　　2.3.5、测试从Worker1免密码登录到Master：ssh Master

　　2.4、按照上面的步骤把Worker2和Master之间建立起无密码登录。这样，Master能无密码登录每个Worker，每个Worker也能无密码登录到Master。

3、在Master安装Java、Scala，把下载的安装包解压即可tar -xzvf ...

4、在Master安装配置Hadoop
　　4.1、配置hdfs-site.xml

<configuration>

    <property>

        <name>dfs.replication</name>

        <value>2</value>

    </property>

    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>Master:50090</value>

    </property>

    <property>

        <name>dfs.namenode.name.dir</name>

        <value>/usr/etc/hadoop-2.7.5/hdfs/name</value>

    </property>

    <property>

        <name>dfs.datanode.data.dir</name>

        <value>/usr/etc/hadoop-2.7.5/hdfs/data</value>

    </property>

    <property>

        <name>dfs.namenode.checkpoint.dir</name>

        <value>/usr/etc/hadoop-2.7.5/hdfs/namesecondary</value>

    </property>

</configuration>

　　4.2、配置yarn-site.xml

<configuration>

   <property>

         <name>yarn.resourcemanager.hostname</name>

         <value>Master</value>

   </property>

   <property>

         <name>yarn.nodemanager.aux-services</name>

         <value>mapreduce_shuffle</value>

   </property>

   <property>

         <name>yarn.resourcemanager.address</name>

         <value>Master:8032</value>

   </property>

   <property>

         <name>yarn.resourcemanager.scheduler.address</name>

         <value>Master:8030</value>

   </property>

   <property>

         <name>yarn.resourcemanager.resource-tracker.address</name>

         <value>Master:8031</value>

   </property>

   <property>

         <name>yarn.resourcemanager.admin.address</name>

         <value>Master:8033</value>

   </property>

   <property>

         <name>yarn.resourcemanager.webapp.address</name>

         <value>Master:8088</value>

   </property>

</configuration>

　　4.3、配置mapred-site.xml

<configuration>

   <property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

  </property>

</configuration>

　　4.4、配置hadoop-env.sh

export JAVA_HOME=/usr/etc/jdk1..0_161

export HADOOP_HOME=/usr/etc/hadoop-2.7.

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib"

export HADOOP_CONF_DIR=${HADOOP_CONF_DIR:-"/etc/hadoop"}

　　4.5、配置core-site.xml

<configuration>

   <property>

      <name>fs.defaultFS</name>

          <value>hdfs://Master:9000</value>

   </property>

    <property>

       <name>hadoop.tmp.dir</name>

       <value>/usr/etc/hadoop-2.7./tmp</value>

    </property>

   <property>

       <name>hadoop.native.lib</name>

       <value>true</value>

    </property>

</configuration>

　　4.6、配置slaves

Worker1

Worker2

5、在Master安装配置Spark
　　5.1、配置spark-env.sh

export JAVA_HOME=/usr/etc/jdk1..0_161

export SCALA_HOME=/usr/etc/scala-2.12.

export HADOOP_HOME=/usr/etc/hadoop-2.7.

export HADOOP_CONF_DIR=/usr/etc/hadoop-2.7./etc/hadoop

export SPARK_MASTER_IP=Master

export SPARK_WORKER_MEMORY=1g

export SPARK_EXECUTOR_MEMORY=1g

export SPARK_DRIVER_MEMORY=500m

export SPARK_WORKER_CORES=

export SPARK_HOME=/usr/etc/spark-2.3.-bin-hadoop2.

export SPARK_DIST_CLASSPATH=$(/usr/etc/hadoop-2.7./bin/hadoop classpath)

5.2、配置spark-defaults.conf

spark.eventLog.enabled true

spark.eventLog.dir hdfs://Master:9000/historyserverforSpark

spark.yarn.historyServer.address Master:

spark.history.fs.logDirectory hdfs://Master:9000/historyserverforSpark

spark.executor.extraJavaOptions -XX:+PrintGCDetails -Dkey=value -Dnumbers="one two three"

5.3、配置slaves

Worker1

Worker2

6、在Master配置环境变量/etc/profile，并通过source /etc/profile使生效

export PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROL

export JAVA_HOME=/usr/etc/jdk1..0_161

export JRE_HOME=/usr/etc/jdk1..0_161/jre

export SCALA_HOME=/usr/etc/scala-2.12.

export HADOOP_HOME=/usr/etc/hadoop-2.7.

export HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop

export HADOOP_COMMON_LIB_NATIVE_DIR=${HADOOP_HOME}/lib/native

export HADOOP_OPTS="-Djava.library.path=${HADOOP_HOME}/lib"

export SPARK_HOME=/usr/etc/spark-2.3.-bin-hadoop2.

export HIVE_HOME=/usr/etc/apache-hive-2.1.-bin

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$SCALA_HOME/lib:$HADOOP_HOME/lib

PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SPARK_HOME/bin:$SPARK_HOME/sbin:$HIVE_HOME/bin:$SCALA_HOME/bin:$JAVA_HOME/bin:$PATH

export JAVA_HOME PATH

7、在Master通过scp命令拷贝java，scala，hadoop，spark，/etc/profile到Worker1,Worker2机器上

8、在Master机器上运行命令：hadoop namenode -format，格式化磁盘

9、在Master机器上运行命令：start-hdfs.sh，启动hdfs服务，可在浏览器通过Master:50070访问

10、在Master机器上运行命令：进入spark的bin目录，start-all.sh，启动Spark，可在浏览器通过Master:8080访问

11、在Master机器上运行命令：start-history-server.sh，启动Spark历史服务，可在浏览器通过Master:18080访问

12、测试集群application运行

12.1、使用spark-submit提交Application：

./spark-submit --class org.apache.spark.examples.SparkPi --master spark://Master:7077 ../examples/jars/spark-examples_2.11-2.3.0.jar 100000

--class：命名空间(包名)+类名；--master：spark集群的master；.jar：jar包位置；10000：任务个数

12.2、启动spark-shell，运行woldcount程序：

sc.textFile("/README.md").flatMap(_.split(" ")).map((_,)).reduceByKey(_+_).map(pair=>(pair._2,pair._1).sortByKey(false,).map(pair=>(pair._2,pair._1)).saveAsTextFile("/resdir/wordcount")

安装配置Spark集群的更多相关文章

Linux中安装配置spark集群
一. Spark简介 Spark是一个通用的并行计算框架,由UCBerkeley的AMP实验室开发.Spark基于map reduce 算法模式实现的分布式计算,拥有Hadoop MapReduce所 ...
Hadoop2.2集群安装配置-Spark集群安装部署
配置安装Hadoop2.2.0 部署spark 1.0的流程一.环境描写叙述本实验在一台Windows7-64下安装Vmware.在Vmware里安装两虚拟机分别例如以下主机名spark1(19 ...
使用docker安装部署Spark集群来训练CNN（含Python实例）
使用docker安装部署Spark集群来训练CNN(含Python实例) http://blog.csdn.net/cyh_24/article/details/49683221 实验室有4台神服务器 ...
配置spark集群
配置spark集群 1.配置spark-env.sh [/soft/spark/conf/spark-env.sh] ... export JAVA_HOME=/soft/jdk 2.配置slaves ...
Linux中安装配置hadoop集群
一. 简介参考了网上许多教程,最终把hadoop在ubuntu14.04中安装配置成功.下面就把详细的安装步骤叙述一下.我所使用的环境:两台ubuntu 14.04 64位的台式机,hadoop选择 ...
linux上配置spark集群
环境: linux spark1.6.0 hadoop2.2.0 一.安装scala(每台机器) 1.下载scala-2.11.0.tgz 放在目录: /opt下,tar -zxvf scal ...
hadoop集群环境搭建之安装配置hadoop集群
在安装hadoop集群之前,需要先进行zookeeper的安装,请参照hadoop集群环境搭建之zookeeper集群的安装部署 1 将hadoop安装包解压到 /itcast/ (如果没有这个目录 ...
架构（三）MongoDB安装配置以及集群搭建
一安装 1.1 下载MongoDB 我个人不太喜欢用wget url, 之前出现过wget下载的包有问题的情况 https://fastdl.mongodb.org/linux/mongodb-li ...
离线环境下使用二进制方式安装配置Kubernetes集群
本文环境 Redhat Linux 7.3,操作系统采用的最小安装方式. Kubernetes的版本为 V1.10. Docker版本为18.03.1-ce. etcd 版本为 V3.3.8. 1. ...

随机推荐

maven error: element dependency can not have character children
就是Mavn pom.xml的解析错误,因为dependency这个标签中有不可见的垃圾字符,解决方法就是删掉重新打字进去就可以了. references: https://stackoverflow ...
C# string 是不可变的，指什么不可变
String 表示文本,即一系列 Unicode 字符.字符串是 Unicode 字符的有序集合,用于表示文本.String 对象是 System.Char 对象的有序集合,用于表示字符串.Strin ...
Unity应用架构设计(10)——绕不开的协程和多线程（Part 1）
在进入本章主题之前,我们必须要了解客户端应用程序都是单线程模型,即只有一个主线程(Main Thread),或者叫做UI线程,即所有的UI控件的创建和操作都是在主线程上完成的.而服务器端应用程序,也就 ...
ASP.NET CORE 中用单元测试测试控制器
之前用ASP.NET CORE做的项目加了一个新功能,数据库加了个字段balabala.... 更新到服务器上,新功能测试正常,然后就没管了..... 今天客户说网站有BUG,某个页面打开后出错了, ...
SSL SSH
http://www.91ri.org/13679.html https://www.linux.com/blog/how-install-ssl-certificate-linux-server h ...
如何用cmd命令递归文件夹中的所有特定文件，拷贝到另一个文件夹中
现在有一个文件夹,里面有很多子文件夹,每个子文件夹中有很多不同类型的图片,现在想将其所有.png图片整理出来,一开始我是手动拷贝的,拷贝了几个图片后,突然想能不能让计算机来自动完成此项功能,经过一番尝 ...
Linux进程资源占用分析
[时间:2018-03] [状态:Open] [关键词:linux, 进程,proc,top] 0 引言最近在分析安卓程序上的monkey测试日志时发现,需要了解下Linux进程资源占用情况及其查看 ...
Intellij 高亮显示与选中字符串相同的内容
如下图所示,我的是 2018,不同版本,Schema 可能要 Save As一下
HTTP 02 HTTP1.1 协议
发送请求: 返回时, content-type 与 HTTP 正文之间有一个空格 HTTP 是不保存状态协议, 也就是说在 HTTP 这个级别, 协议对于发送过的请求或相应都不做持久化处理. 但是, ...
MySQL 批量写入数据报错：mysql_query:Lost connection to MySQL server during query
场景: 批量往mysql replace写入数据时,报错. 解决方法: 1.增大mysql 数据库配置中 max_allowed_packet 的值 max_allowed_packet = 1G ( ...

安装配置Spark集群

安装配置Spark集群的更多相关文章

随机推荐

热门专题