在安装spark之前,首先需要安装配置Hadoop,这个就不做详细介绍了,可以参看博主的另一篇:

https://blog.csdn.net/weixin_42001089/article/details/81865101

##################################################################################################

Hadoop
按上面文章配置后,启动hdfs文件系统以及yarn资源调度器:

使用jps查看是否启动成功:

出现如上即表示启动成功!!!!!!!!

说明:
ResourceManager和NodeManager是yarn资源调度器启动的

DataNode、 NameNode和SecondaryNameNode是hdfs文件系统启动的

所以如果有哪项没有启动成功,就说明对应(yarn或hdfs)的配置文件没有配置成功,需要去看日志手动解决

二者都有相应的web即:

yarn:

http://localhost:8088/cluster

hdfs:

http://localhost:50070/

###################################################################################################

Scala安装:
下载地址:https://www.scala-lang.org/download/2.11.8.html

下载好后解压到:/usr/local/

sudo tar zxvf scala-2.11.8.tgz -C /usr/local/
删除安装包:

rm scala-2.11.8.tgz
进入到减压目录并重命名:

cd /usr/local/

sudo mv scala-2.11.8 scala
配置环境变量:

sudo vim /etc/profile

source /etc/profile
测试:

################################################################################################

Spark安装:
下载地址:http://spark.apache.org/downloads.html

下载好后解压到:/usr/local/

sudo tar zxvf spark-2.3.1-bin-hadoop2.7.tgz -C /usr/local/
删除安装包:

rm spark-2.3.1-bin-hadoop2.7.tgz
进入到减压目录并重命名:

​cd /usr/local/
sudo mv spark-2.3.1-bin-hadoop2.7 spark
配置环境:
sudo vim /etc/profile

source /etc/profile
配置配置spark-env.sh
进入到spark/conf/

cp spark-env.sh.template spark-env.sh
vim spark-env.sh
export JAVA_HOME=/usr/local/java/jdk1.8.0_181
export HADOOP_HOME=/usr/local/hadoop
export HADOOP_CONF_DIR=/usr/local/hadoop/etc/hadoop
export SCALA_HOME=/usr/local/scala
export SPARK_HOME=/usr/local/spark
export SPARK_MASTER_IP=127.0.0.1
export SPARK_MASTER_PORT=7077
export SPARK_MASTER_WEBUI_PORT=8099
export SPARK_WORKER_CORES=3
export SPARK_WORKER_INSTANCES=1
export SPARK_WORKER_MEMORY=5G
export SPARK_WORKER_WEBUI_PORT=8081
export SPARK_EXECUTOR_CORES=1
export SPARK_EXECUTOR_MEMORY=1G
export LD_LIBRARY_PATH=${LD_LIBRARY_PATH}:$HADOOP_HOME/lib/native
java,hadoop等具体路径根据自己实际环境设置。

配置Slave
cp slaves.template slaves
vim slaves

默认就是localhost

启动(前提是hadoop伪分布已经启动,就是上面的jps后出现那几个):
启动sbin目录下的start-master.sh以及start-slaves.sh

注意:

sbin目录下都是些启动或关闭操作,尤其注意下有start-slaves.sh和start-slave.sh,这里启动的是start-slaves.sh

Spark的web界面:http://127.0.0.1:8099/

启动bin目录下的spark-shell

可以看到已经进入到scala环境,此时就可以编写代码啦!!!!!!!!!

spark-shell的web界面http://127.0.0.1:4040

当然为了方便,还可以配置修改BASH配置:
vim /etc/bash.bashrc
export SPARK_HOME=/usr/local/spark

export PATH=${JAVA_HOME}/bin:${HADOOP_HOME}/bin:${HADOOP_HOME}/sbin:${SPARK_HOME}/bin:${SPARK_HOME}/sbin:$PATH
source /etc/bash.bashrc
以后就可以方便使用了。

简略日志:
spark将所有日志都会输出,很详细,所以屏幕打印很多,由于混合了很多日志不利于寻找程序执行的结果,所以要将info,改为warn,这样打印结果简单明了了许多。

cd $SPARK_HOME/conf
cp log4j.properties.template log4j.properties
sudo vim log4j.properties

以上介绍了进入scala编程环境,如果想要使用python环境开发,可以参考:https://blog.csdn.net/weixin_42001089/article/details/82383856
---------------------
作者:weixin_42001089
来源:CSDN
原文:https://blog.csdn.net/weixin_42001089/article/details/82346367
版权声明:本文为博主原创文章,转载请附上博文链接!

ubuntu18.04安装spark(伪分布式)的更多相关文章

  1. ubantu14.04安装storm伪分布式

    1.安装jdk 安装:sudo apt-get install openjdk-7-jdk 配置: 修改文件 sudo nano /etc/profile , 添加以下内容: 立即执行使之生效: 2. ...

  2. centos7安装Scala、Spark(伪分布式)

    centos7安装spark(伪分布式) spark是由scala语言开发的,首先需要安装scala. Scala安装 下载scala-2.11.8,(与spark版本要对应) 命令:wget htt ...

  3. ubuntu18.04 安装hadoop 2.7.3+hive 2.3.4

    1. 安装hadoop 详细请参见本人的另外一片博文<Hadoop 2.7.3 分布式集群安装> 2. 下载hive 2.3.4 解压文件到/opt/software -bin.tar.g ...

  4. java大数据最全课程学习笔记(1)--Hadoop简介和安装及伪分布式

    Hadoop简介和安装及伪分布式 大数据概念 大数据概论 大数据(Big Data): 指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发 ...

  5. Ubuntu18.04安装mysql5.7

    Ubuntu18.04安装mysql5.7 1.1安装 首先执行下面三条命令: # 安装mysql服务 sudo apt-get install mysql-server # 安装客户端 sudo a ...

  6. Ubuntu18.04安装RabbitMQ

    Ubuntu18.04安装RabbitMQ 2018年06月10日 19:32:38 dmfrm 阅读数:2492    版权声明:本文为博主原创文章,未经博主允许不得转载. https://blog ...

  7. ubuntu18.04 安装mysql不出现设置 root 帐户的密码问题(装)

    ubuntu18.04 安装mysql不出现设置 root 帐户的密码问题      https://blog.csdn.net/NeptuneClouds/article/details/80995 ...

  8. Ubuntu18.04安装Virtualenv虚拟环境

    在Ubuntu18.04安装Virtualenv虚拟环境 [实验环境]: 在这台电脑上已经安装了python3 [安装参考] 1.查看是否已安装virtualenv virtualenv --vers ...

  9. Ubuntu18.04安装thunderbird并设置中文

    Ubuntu18.04安装thunderbird并设置中文 安装thunderbird sudo apt-get install thunderbird 安装中文包 sudo apt-get inst ...

随机推荐

  1. Video/Audio禁止快进(退)

    首先接着上个随笔.上个随笔主要介绍了视频音频的相关操作.属性和方法.这里主要记录一个应用:禁止快进(快退同理). 思路:监听快进事件(此处是监听播放时间更新),利用一个缓存的时间和播放到的时间进行对比 ...

  2. Web Deploy配置及其使用VS进行Web部署

    前言: 因为公司一直比较保守所以一直都使用的是window 2008 R2版本的服务器,所以今天要讲的是在Window 2008 R2下如何配置Web Deploy. Web Deploy介绍: We ...

  3. Linux自定义分隔符IFS引发的文本处理问题

    需求是检查指定应用的某些配置所以就写了个脚本,数据文件的内容是这样的:应用名称|IP|端口    多个IP用空格,这样可以生成数组.这个文件的数据是通过部署平台的API获取后自己组装的. #!/bin ...

  4. 使用redis有序集合sorted set设计高效查询ip所在地

    1.将纯真版ip数据  xxx.data 导入至 redis(整个过程只花费了几秒) 引入nuget包 CSRedisCore,使用方法见:https://github.com/2881099/csr ...

  5. [开发技巧]·HTML检测输入已完成自动填写下一个内容

    [开发技巧]·HTML检测输入已完成自动填写下一个内容 个人网站 --> http://www.yansongsong.cn 在上一个博客中简易实现检测输入已完成,我们实现了检测输入已完成,现在 ...

  6. Kafka、ActiveMQ、RabbitMQ、RocketMQ 区别以及高可用原理

    为什么使用消息队列 其实就是问问你消息队列都有哪些使用场景,然后你项目里具体是什么场景,说说你在这个场景里用消息队列是什么? 面试官问你这个问题,期望的一个回答是说,你们公司有个什么业务场景,这个业务 ...

  7. Java8内存模型—永久代(PermGen)和元空间(Metaspace)

    一.JVM 内存模型 根据 JVM 规范,JVM 内存共分为虚拟机栈.堆.方法区.程序计数器.本地方法栈五个部分. 1.虚拟机栈:每个线程有一个私有的栈,随着线程的创建而创建.栈里面存着的是一种叫“栈 ...

  8. Git认证方式https和ssh的原理及比较

    常见的代码托管平台GitHub.GitLab和BitBucket等,基本都会使用Git作为版本控制工具.平台一般都提供两种认证方式https和ssh.了解该过程能够更加自由的配置和使用,本文就来简单聊 ...

  9. Service Worker基础知识整理

    Service Worker是什么 service worker 是独立于当前页面的一段运行在浏览器后台进程里的脚本.它的特性将包括推送消息,背景后台同步, geofencing(地理围栏定位),拦截 ...

  10. python类属性用法总结

    属性的定义:python中的属性其实是普通方法的衍生. 操作类属性有三种方法: 1.使用@property装饰器操作类属性. 2.使用类或实例直接操作类属性(例如:obj.name,obj.age=1 ...