ubuntu18.04安装spark（伪分布式）

在安装spark之前，首先需要安装配置Hadoop,这个就不做详细介绍了，可以参看博主的另一篇：

https://blog.csdn.net/weixin_42001089/article/details/81865101

##################################################################################################

Hadoop
按上面文章配置后，启动hdfs文件系统以及yarn资源调度器:

使用jps查看是否启动成功：

出现如上即表示启动成功！！！！！！！！

说明：
ResourceManager和NodeManager是yarn资源调度器启动的

DataNode、 NameNode和SecondaryNameNode是hdfs文件系统启动的

所以如果有哪项没有启动成功，就说明对应（yarn或hdfs）的配置文件没有配置成功，需要去看日志手动解决

二者都有相应的web即：

yarn:

http://localhost:8088/cluster

hdfs:

http://localhost:50070/

###################################################################################################

Scala安装：
下载地址：https://www.scala-lang.org/download/2.11.8.html

下载好后解压到：/usr/local/

sudo tar zxvf scala-2.11.8.tgz -C /usr/local/
删除安装包：

rm scala-2.11.8.tgz
进入到减压目录并重命名：

cd /usr/local/

sudo mv scala-2.11.8 scala
配置环境变量：

sudo vim /etc/profile

source /etc/profile
测试：

################################################################################################

Spark安装：
下载地址：http://spark.apache.org/downloads.html

下载好后解压到：/usr/local/

sudo tar zxvf spark-2.3.1-bin-hadoop2.7.tgz -C /usr/local/
删除安装包：

rm spark-2.3.1-bin-hadoop2.7.tgz
进入到减压目录并重命名：

cd /usr/local/
sudo mv spark-2.3.1-bin-hadoop2.7 spark
配置环境：
sudo vim /etc/profile

source /etc/profile
配置配置spark-env.sh
进入到spark/conf/

cp spark-env.sh.template spark-env.sh
vim spark-env.sh
export JAVA_HOME=/usr/local/java/jdk1.8.0_181
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SCALA_HOME=/usr/local/scala
export SPARK_HOME=/usr/local/spark
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native
java，hadoop等具体路径根据自己实际环境设置。

配置Slave
cp slaves.template slaves
vim slaves

默认就是localhost

启动（前提是hadoop伪分布已经启动，就是上面的jps后出现那几个）：
启动sbin目录下的start-master.sh以及start-slaves.sh

注意：

sbin目录下都是些启动或关闭操作，尤其注意下有start-slaves.sh和start-slave.sh，这里启动的是start-slaves.sh

Spark的web界面：http://127.0.0.1:8099/

启动bin目录下的spark-shell

可以看到已经进入到scala环境，此时就可以编写代码啦！！！！！！！！！

spark-shell的web界面http://127.0.0.1:4040

当然为了方便，还可以配置修改BASH配置：
vim /etc/bash.bashrc
export SPARK_HOME=/usr/local/spark

export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SPARK_HOME}/bin:${SPARK_HOME}/sbin:$PATH
source /etc/bash.bashrc
以后就可以方便使用了。

简略日志：
spark将所有日志都会输出，很详细，所以屏幕打印很多，由于混合了很多日志不利于寻找程序执行的结果，所以要将info，改为warn，这样打印结果简单明了了许多。

cd $SPARK_HOME/conf
cp log4j.properties.template log4j.properties
sudo vim log4j.properties

以上介绍了进入scala编程环境，如果想要使用python环境开发，可以参考：https://blog.csdn.net/weixin_42001089/article/details/82383856
---------------------
作者：weixin_42001089
来源：CSDN
原文：https://blog.csdn.net/weixin_42001089/article/details/82346367
版权声明：本文为博主原创文章，转载请附上博文链接！

ubuntu18.04安装spark（伪分布式）的更多相关文章

ubantu14.04安装storm伪分布式
1.安装jdk 安装:sudo apt-get install openjdk-7-jdk 配置: 修改文件 sudo nano /etc/profile , 添加以下内容: 立即执行使之生效: 2. ...
centos7安装Scala、Spark(伪分布式)
centos7安装spark(伪分布式) spark是由scala语言开发的,首先需要安装scala. Scala安装下载scala-2.11.8,(与spark版本要对应) 命令:wget htt ...
ubuntu18.04 安装hadoop 2.7.3+hive 2.3.4
1. 安装hadoop 详细请参见本人的另外一片博文<Hadoop 2.7.3 分布式集群安装> 2. 下载hive 2.3.4 解压文件到/opt/software -bin.tar.g ...
java大数据最全课程学习笔记(1)--Hadoop简介和安装及伪分布式
Hadoop简介和安装及伪分布式大数据概念大数据概论大数据(Big Data): 指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发 ...
Ubuntu18.04安装mysql5.7
Ubuntu18.04安装mysql5.7 1.1安装首先执行下面三条命令: # 安装mysql服务 sudo apt-get install mysql-server # 安装客户端 sudo a ...
Ubuntu18.04安装RabbitMQ
Ubuntu18.04安装RabbitMQ 2018年06月10日 19:32:38 dmfrm 阅读数:2492 版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog ...
ubuntu18.04 安装mysql不出现设置 root 帐户的密码问题（装）
ubuntu18.04 安装mysql不出现设置 root 帐户的密码问题 https://blog.csdn.net/NeptuneClouds/article/details/80995 ...
Ubuntu18.04安装Virtualenv虚拟环境
在Ubuntu18.04安装Virtualenv虚拟环境 [实验环境]: 在这台电脑上已经安装了python3 [安装参考] 1.查看是否已安装virtualenv virtualenv --vers ...
Ubuntu18.04安装thunderbird并设置中文
Ubuntu18.04安装thunderbird并设置中文安装thunderbird sudo apt-get install thunderbird 安装中文包 sudo apt-get inst ...

随机推荐

Go中链路层套接字的实践
1. 介绍 2. 服务端 3. 协议头部 4. 客户端 5. 总结 1. 介绍接上次的博客,按照约定的划分,还有一层链路层socket.这一层就可以自定义链路层的协议头部(header)了,下面是目 ...
Linux文件系统类型和区别
文件系统EXT3,EXT4和XFS的区别: 1. EXT3 (1)最多只能支持32TB的文件系统和2TB的文件,实际只能容纳2TB的文件系统和16GB的文件 (2)Ext3目前只支持32000个子目录 ...
volatile关键字的特性及证明
volatile是java虚拟机提供的轻量级的同步机制 JMM(Java内存模型)是围绕着并发编程中原子性.可见性.有序性这三个特征来建立的原子性:一个操作或多个操作要么全部执行完成且执行过程不被中 ...
安装Adobe时出现Adobe Application Manager丢失或损坏解决方法
很多朋友在安装Adobe系列产品时出现Adobe Application Manager丢失或损坏,这是由于上次安装的Adobe产品没有正确卸载,导致这次安装失败.那么如何解决这一问题呢? 1.下载安 ...
python将字符串类型list转换成list
python读取了一个list是字符串形式的'[11.23,23.34]',想转换成list类型: 方式一: import ast str_list = "[11.23,23.34]&quo ...
机器学习算法GBDT的面试要点总结-上篇
1.简介 gbdt全称梯度下降树,在传统机器学习算法里面是对真实分布拟合的最好的几种算法之一,在前几年深度学习还没有大行其道之前,gbdt在各种竞赛是大放异彩.原因大概有几个,一是效果确实挺不错.二是 ...
【Netty】（5）源码 Bootstrap
[Netty]5 源码 Bootstrap 上一篇讲了AbstractBootstrap,为这篇做了个铺垫. 一.概述 Bootstrap 是 Netty 提供的一个便利的工厂类, 我们可以通过它来完 ...
JavaScript夯实基础系列（五）：类
JavaScript中没有类,是通过使用构造函数和原型模式的组合来实现类似其它面向对象编程语言中"类"的功能.ES6引入的关键字class,形式上向其它面向对象编程语言靠拢,其 ...
Flink从入门到放弃(入门篇1)-Flink是什么
戳更多文章: 1-Flink入门 2-本地环境搭建&构建第一个Flink应用 3-DataSet API 4-DataSteam API 5-集群部署 6-分布式缓存 7-重启策略 8-Fli ...
Python爬虫实例：爬取猫眼电影——破解字体反爬
字体反爬字体反爬也就是自定义字体反爬,通过调用自定义的字体文件来渲染网页中的文字,而网页中的文字不再是文字,而是相应的字体编码,通过复制或者简单的采集是无法采集到编码后的文字内容的. 现在貌似不少网 ...

ubuntu18.04安装spark（伪分布式）

ubuntu18.04安装spark（伪分布式）的更多相关文章

随机推荐

热门专题