【Spark】---- 在Linux集群上安装和配置Spark

1 安装JDK

1）进入JDK官网

2）下载JDK安装包

3）配置环境变量，在/etc/profile增加以下代码

JAVA_HOME=/home/hadoop/jdk1.6.0_38
PATH=$JAVA_HOME/bin:$PATH
CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/jre/lib/dt.jar:$JAVA_HOME/jre/lib/tools.jar
export JAVA_HOME PATH CLASSPATH

4）使profile文件更新生效

source /etc/profile

2 安装Scala

Scala 官网提供各个版本的Scala，用户需要根据Spark官方规定的Scala版本进行下载和安装。Scala官网地址为http://www.scala-lang.org/

1）下载Scala

2）在目录下解压

tar -zxvf scala-2.10.4.tgz

3）配置环境变量，在/etc/profile中添加下面的内容

export SCALA__HOME=/home/hadoop/scala-2.10.4/scala-2.10.4
export PATH=${SCALA_HOME}/bin:$PATH

4）使用profile文件更新生效

source /etc/profile

3 配置SSH免密码登录

在集群管理和配置中有很多工具可以使用。例如，可以采用pssh等Linux工具在集群中分发与复制文件，用户也可以自己书写Shell、Python的脚步分发包。

Spark的Master节点向Worker节点命令需要通过ssh进行发送，用户不希望Master每发送一次命令就输入一次密码，因此需要实现Master无密码登陆到所有Worker。

Master作为客户端，要实现无密码公钥认证，连接服务端Worker。需要在Master上生成一个秘钥对，包括一个公钥和一个私钥，然后将公钥复制到Worker上。当Master通过ssh连接Worker

1）在Master节点上，执行以下命令

ssh-keygen-trsa

2）打印日志执行以下命令

如果是root用户，则在/root/.ssh/目录下生成一个私钥id_rsa和一个公钥id_rsa.pub。

把Master上的id_rsa.pub文件追加到Worker的authorized_keys内。

3）复制Master的id_rsa.pub文件

scp id_rsa.pub root@172.20.14.144:/home
/*可使用pssh对全部节点分发*/

4）登录worker节点，执行以下命令

cat /home/id_rsa.pub >> /root/.ssh/authorized_keys
/*可使用pssh对全部节点分发*/

注意：配置完毕，如果Master仍然不能访问Worker，可以修改Worker的authorized_keys文件的权限，命令为 chmod 600 authorized_keys

4安装Hadoop

（1）下载hadoop-2.2.0

1）选取一个Hadoop镜像网址，下载Hadoop

wget http://www.trieuvan.com/apache/hadoop/common/hadoop-2.2.0/hadoop-2.2.0.tar.gz

2）解压tar包

tar -vxzf hadoop-2.2.0.tar.gz -C /usr/local
cd /usr/local
mv hadoop-2.2.0 hadoop
chown -R hduser:hadoop hadoop

（2）配置Hadoop环境变量

1）编辑profile文件

vi /etc/profile

2）在profile文件中增加以下内容

export JAVA_HOME=/usr/lib/jvm/jdk/
export HADOOP_INSTALL=/usr/local/hadoop
export PATH=$PATH:$HADOOP_INSTALL/bin
export PATH=$PATH:$HADOOP_INSTALL/sbin
export HADOOP_MAPRED_HOME=$HADOOP_INSTALL
export HADOOP_COMMON_HOME=$HADOOP_INSTALL
export HADOOP_HDFS_HOME=$HADOOP_INSTALL
export YARN_HOME=$HADOOP_INSTALL

（3）编辑配置文件

1）进入Hadoop所在目录

2）配置hadoop-env.sh文件

export JAVA_HOME=/usr/lib/jvm/jdk/

3）配置core-site.xml文件

<configuration>
/*这里的值指的是默认的HDFS路径*/
<property>
<name>fs.defaultFS</name>
<value>hdfs://Master:9000</value>
</property>

/*缓冲区大小: io.file.buffer.size默认是4KB*/
<property>
<name>io.file.buffer.size</name>
<value>131072</value>
</property>
/*临时文件夹路径*/
<property>
<name>hadoop.tmp.dir</name>
<value>file:/home/tmp</value>
<description> Abase for other temporary directories </description>
</property>
<property>
<name>hadoop.proxyuser.hduser.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hduser.groups</name>
<value>*</value>
</property>
</configuration>

4）配置yarn-site.xml文件

<configuration>
<property>
<name>yarn.nodemanager.aux-services</value>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
<value>org.apache.hadoop.mapred.ShuffleHandler</value>
</property>
/*resourceManager的地址*/
<property>
<name>yarn.resourcemanager.address</name>
<value>Master:8030</value>
</property>
/*调度器的端口*/
<property>
<name>yarn.resourcemanager.scheduler.address</name>
<value>Master1:8030</value>
</property>
/*resource-tracker端口*/
<property>
<name>yarn.resourcemanager.resource-tracker.address</name>
<value>Master:8031</value>
/*resourcemanager管理器端口*/
<property>
<name>yarn.resourcemanager.admin.address</name>
<value>Master:8033</value>
</property>
/*ResourceManager 的Web端口、监控 job 的资源调度*/
<property>
<name>yarn.resourcemanager.webapp.address</name>
<value>Master:8088</value>
</property>
</configuration>

5）配置mapred-site.xml文件

<configuration>
/*hadoop对map-reduce运行矿建一共提供了3种实现，在mapred-site.xml中通过“mapreduce.framework.name”这个属性来设置为"classic"."yarn"或者“local”*/
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
/*MapReduce JobHistory Server地址*/
<property>
<name>mapreduce.jobhistory.address</name>
<value>Master:10020</value>
</property>
/*MapReduce JobHistory Server web UI 地址*/
<property>
<name>mapreduce.jobhistory.webapp.address</name>
<value>Master:19888</value>
</property>
</configuration>

（4）创建namenode和datanode目录，并配置其相应路径

1）创建namenode和datanode目录，

mkdir /hdfs/namenode
mkdir /hdfs/datanode

2）执行命令后，再次回到目录，配置hdfs-site.xml文件，在文件中添加如下内容

<configuration>
/*配置主节点名和端口*/
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>Master:9001</value>
</property>
/*配置从节点和端口号*/
<property>
<name>dfs.namenode.name.dir</name>
<value>file:/hdfs/namenode</value>
</property>
/*配置datanode的数据存储目录*/
<property>
<name>dfs.datanode.data.dir</name>
<value>file:/hdfs/datanode</value>
</property>
/*配置副本数*/
<property>
<name>dfs.replication</name>
<value>3</value>
</property>
/*将dfs.webhdfs.enabled属性设置为true,否则就不能使用webhdfs的LISTSTATUS，LISTFILESTATUS等需要列出文件，文件夹状态的命令，因为这些信息都是由namenode保存的*/
<proeprty>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

（5）配置Master和Slave文件

1）Master文件负责配置主节点的主机名

Master /*Master为主节点主机名*/

2）配置Slaves文件添加从节点主机名

/*Slave为从节点主机名*/
Slave1
Slave2
Slave3
Slave4
Slave5

（6）将Hadoop所有文件通过pssh发送到各个节点

./pssh -h hosts.txt -r /hadoop /

（7）格式化Namenode（在Hadoop根目录下）

./bin/hadoop namenode -format

（8）启动Hadoop

./sbin/start-all.sh

（9）查看是否配置和启动成功

jps
DataNode
ResourceManager
Jps
NodeManager
NameNode
SecondaryNameNode

ps-aux|grep *DataNode* /*查看DataNode进程*/

5 安装Spark

1）下载spark

2）解压

3）配置

编辑conf/Spark-env.sh文件，加入下面的配置参数

export SCALA_HOME=/paht/to/scala-2.10.4
export SPARK_WORKER_MEMORY=7g
export SPARK_MASTER_IP=172.16.0.140
export MASTER=spark://172.16.0.140:7077

4）配置slaves文件

编辑conf/slaves文件，以5个Worker节点为例，将节点的主机名加入slaves文件中

Slave1
Slave2
Slave3
Slave4
Slave5

6 启动集群

（1）Spark启动与关闭

1）在Spark根目录启动Spark

./sbin/start-all.sh

2）关闭Spark

./sbin/stop-all.sh

（2）Hadoop的启动与关闭

1）在Hadoop根目录启动Hadoop

2）关闭Hadoop

（3）检测是否安装成功

1）正常状态下的Master节点如下。

2）利用ssh登录Worker节点

【Spark】---- 在Linux集群上安装和配置Spark的更多相关文章

Istio(二)：在Kubernetes(k8s)集群上安装部署istio1.14
目录一.模块概览二.系统环境三.安装istio 3.1 使用 Istioctl 安装 3.2 使用 Istio Operator 安装 3.3 生产部署情况如何? 3.4 平台安装指南四.Ge ...
06、部署Spark程序到集群上运行
06.部署Spark程序到集群上运行 6.1 修改程序代码修改文件加载路径在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改 ...
超详细实操教程！在现有K8S集群上安装JenkinsX，极速提升CI/CD体验！
在2018年年初,Jenkins X首次发布,它由Apache Groovy语言的创建者Jame Strachan创建.Jenkins X 是一个高度集成化的 CI/CD 平台,基于 Jenkins ...
Dubbo入门到精通学习笔记（十三）：ZooKeeper集群的安装、配置、高可用测试、升级、迁移
文章目录 ZooKeeper集群的安装.配置.高可用测试 ZooKeeper 与 Dubbo 服务集群架构图 1. 修改操作系统的/etc/hosts 文件,添加 IP 与主机名映射: 2. 下载或上 ...
ZooKeeper 集群的安装、配置---Dubbo 注册中心
ZooKeeper 集群的安装.配置.高可用测试 Dubbo 注册中心集群 Zookeeper-3.4.6 Dubbo 建议使用 Zookeeper 作为服务的注册中心. Zookeeper 集群中只 ...
Dubbo入门到精通学习笔记（十四）：ActiveMQ集群的安装、配置、高可用测试，ActiveMQ高可用+负载均衡集群的安装、配置、高可用测试
文章目录 ActiveMQ 高可用集群安装.配置.高可用测试( ZooKeeper + LevelDB) ActiveMQ高可用+负载均衡集群的安装.配置.高可用测试准备正式开始 ActiveMQ ...
大数据高可用集群环境安装与配置（06）——安装Hadoop高可用集群
下载Hadoop安装包登录 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 镜像站,找到我们要安装的版本,点击进去复制下载链接 ...
在Hadoop集群上的HBase配置
之前,我们已经在hadoop集群上配置了Hive,今天我们来配置下Hbase. 一.准备工作 1.ZooKeeper下载地址:http://archive.apache.org/dist/zookee ...
大数据高可用集群环境安装与配置（09）——安装Spark高可用集群
1. 获取spark下载链接登录官网:http://spark.apache.org/downloads.html 选择要下载的版本 2. 执行命令下载并安装 cd /usr/local/src/ ...

随机推荐

15个最好的PDF转word的在线转换器，将PDF文件转换成doc文件
PDF是一种文件格式,包含文本,图像,数据等,这是独立于操作系统的文件类型.它是一个开放的标准,压缩,另一方面DOC文件和矢量图形是由微软文字处理文件.该文件格式将纯文本格式转换为格式化文档.它支持几 ...
MySQL存储引擎选型
一.MySQL的存储引擎完整的引擎说明还是看官方文档:http://dev.mysql.com/doc/refman/5.6/en/storage-engines.html 这里介绍一些主要的引擎 ...
php加密解密功能类
这两天突发奇想想要用php写一个对日常项目加密以及解密的功能,经过努力简单的封装了一个对php代码进行加密解密的类,一些思想也是来自于网络,初步测试用着还行,可以实现对指定项目的加密以及解密(只针对本 ...
线程互斥与析构函数中mutex的销毁
正在实现一个线程池的pthread包装器,突然发现有人在讨论关于http://blog.csdn.net/Solstice/article/details/5238671 是一篇比较老的文章,考虑了下 ...
hdu 1845
一看题意就是二分匹配问题,建边是双向的,两个集合都是n个点这题的图很特殊,每个点都要与三个点相连,在纸上画了六个点的图就感觉此图最大匹配肯定是六,除以2就是原图的匹配了,就感觉这样的图肯定会达到满匹 ...
Halcon标定步骤
Halcon标定步骤 1.设置相机内部参数的初始值 StartCamPar := [0.016,0,0.0000074,0.0000074,326,247,652,494]set_calib_data ...
Navi.Soft30.产品.代码生成器.操作手册
1系统简介 1.1功能简述在Net软件开发过程中,大部分时间都是在编写代码,并且都是重复和冗杂的代码.比如:要实现在数据库中10个表的增删改查功能,大部分代码都是相同的,只需修改10%的代码量.此时 ...
WebApp开发之--"rem"单位(转)
随着web app的兴起,rem这是个低调的css单位,近一两年开始崭露头角,有许多朋友对于它的评价不一,有的在尝试使用,有的在使用过程中遇到坑就弃用了.但是我认为rem是用来做web app它绝对是 ...
[AX]AX2012 Number sequence framework ：（三）再谈Number sequence
AX2012的number sequence framework中引入了两个Scope和segment两个概念,它们的具体作用从下面序列的例子说起. 法国/中国的法律要求财务凭证的Journal nu ...
Spring3系列9- Spring AOP——Advice
Spring3系列9- Spring AOP——Advice Spring AOP即Aspect-oriented programming,面向切面编程,是作为面向对象编程的一种补充,专门用于处理系统 ...

【Spark】---- 在Linux集群上安装和配置Spark

【Spark】---- 在Linux集群上安装和配置Spark的更多相关文章

随机推荐

热门专题