环境:

已经安装好:

hadoop 2.6.4  yarn

参考: [b0001] 伪分布式 hadoop 2.6.4

准备:

spark-2.0.1-bin-hadoop2.6.tgz 下载地址: http://spark.apache.org/downloads.html

说明

  • 官方说 2.0 后的spark 自带scala,所以接下来不用额外安装
  • 安装spark 不一定要装hadoop,可以直接跑在linux系统上
  • 以下所有操作都是用hadoop安装用户进行,权限不够就sudo

1. 获得安装包

迅雷下载,上传到linux,解压

hadoop@ssmaster:~$ tar zxvf  spark-2.0.-bin-hadoop2..tgz
hadoop@ssmaster:~$ sudo mv spark-2.0.-bin-hadoop2. /opt/

2.配置spark

2.1  SPARK_HOME 环境变量

hadoop@ssmaster:/opt$ sudo vi /etc/profile

添加

export SPARK_HOME=/opt/spark-2.0.-bin-hadoop2.
export HADOOP_HOME=/opt/hadoop-2.6.
export JAVA_HOME=/home/szb/hadoop/jdk1..0_80
export JRE_HOME=$JAVA_HOME/jre
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SPARK_HOME/bin
export CLASSPATH=./:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

保存、使生效并测试

hadoop@ssmaster:/opt$ source /etc/profile
hadoop@ssmaster:/opt$ echo $SPARK_HOME
/opt/spark-2.0.-bin-hadoop2.

2.2  参数配置

修改 spark-env.sh

 hadoop@ssmaster:/opt/spark-2.0.-bin-hadoop2./conf$ pwd
/opt/spark-2.0.-bin-hadoop2./conf
hadoop@ssmaster:/opt/spark-2.0.-bin-hadoop2./conf$ cp spark-env.sh.template spark-env.sh
hadoop@ssmaster:/opt/spark-2.0.-bin-hadoop2./conf$ vi spark-env.sh

在 spark-env.sh中添加以下参数,含义很好理解

###jdk dir

export  JAVA_HOME=/home/szb/hadoop/jdk1..0_80

###the ip of master node of spark

export SPARK_MASTER_IP=192.168.249.144

###the max memory size of worker

export SPARK_WORKER_MEMORY=1024m

###hadoop configuration file dir

export HADOOP_CONF_DIR=/opt/hadoop-2.6./etc/hadoop/

2.3 指定spark slave节点

hadoop@ssmaster:/opt/spark-2.0.-bin-hadoop2./conf$ cp slaves.template slaves
hadoop@ssmaster:/opt/spark-2.0.1-bin-hadoop2.6/conf$ vi slaves

修改内容为 ssmaster。

至此,配置都完成了

3 启动spark

3.1 先启动 hadoop ,依次执行 start-dfs.sh,start-yarn.sh,  jps查看后没问题

3.2 启动spark 所有节点

hadoop@ssmaster:/opt/spark-2.0.-bin-hadoop2.$ sbin/start-all.sh

hadoop@ssmaster:/opt/spark-2.0.1-bin-hadoop2.6$ jps
5859 ResourceManager
5979 NodeManager
5690 SecondaryNameNode
5361 NameNode
7014 Jps
5479 DataNode
6866 Master
6955 Worker

3.3 启动scala

hadoop@ssmaster:/opt/spark-2.0.-bin-hadoop2.$ bin/spark-shell
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel).
// :: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable
// :: WARN spark.SparkContext: Use an existing SparkContext, some configuration may not take effect.
Spark context Web UI available at http://192.168.249.144:4040
Spark context available as 'sc' (master = local[*], app id = local-).
Spark session available as 'spark'.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/___/ .__/\_,_/_/ /_/\_\ version 2.0.
/_/ Using Scala version 2.11. (Java HotSpot(TM) -Bit Server VM, Java 1.7.0_80)
Type in expressions to have them evaluated.
Type :help for more information. scala> print("hello world")
hello world

备注:

停止spark         sbin/stop-all.sh

停止scala          ctrl-c

启动python入口  bin/pyspark

能打开以下页面,说明spark 安装成功

http://ssmaster:8080/

http://ssmaster:4040/

Z 总结:

hadoop2.6上的spark伪分布式搭建成功

后续:

  • 重点学习使用它做一些实际的事情
  • 有空研究分布式spark搭建
  • 有空研究spark各个参数的功能
  • spark的用户与hadoop用户同一个,如何不同,怎么安装[遗留研究]

C 参考:

Hadoop2.6.0上的spark1.5.2集群搭建

http://www.open-open.com/lib/view/open1453950039980.html

[b0006] Spark 2.0.1 伪分布式搭建练手的更多相关文章

  1. spark1.6.0伪分布式搭建

    环境: hadoop2.6.0 jdk1.8 ubuntu 14.04 64位 1 安装scala环境 版本是scala-2.10.6,官网下载地址http://www.scala-lang.org/ ...

  2. bayaim_hadoop1_2.2.0伪分布式搭建

    ------------------bayaim_hadoop1_2.2.0伪分布式搭建_2018年11月06日09:21:46--------------------------------- 1. ...

  3. Hadoop简介与伪分布式搭建—DAY01

    一.  Hadoop的一些相关概念及思想 1.hadoop的核心组成: (1)hdfs分布式文件系统 (2)mapreduce 分布式批处理运算框架 (3)yarn 分布式资源调度系统 2.hadoo ...

  4. 2.hadoop基本配置,本地模式,伪分布式搭建

    2. Hadoop三种集群方式 1. 三种集群方式 本地模式 hdfs dfs -ls / 不需要启动任何进程 伪分布式 所有进程跑在一个机器上 完全分布式 每个机器运行不同的进程 2. 服务器基本配 ...

  5. 超详细解说Hadoop伪分布式搭建--实战验证【转】

    超详细解说Hadoop伪分布式搭建 原文http://www.tuicool.com/articles/NBvMv2原原文 http://wojiaobaoshanyinong.iteye.com/b ...

  6. hadoop2.8 集群 1 (伪分布式搭建)

    简介: 关于完整分布式请参考: hadoop2.8 ha 集群搭建   [七台机器的集群] Hadoop:(hadoop2.8) Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户 ...

  7. Ubuntu 14.04 LTS 安装 spark 1.6.0 (伪分布式)-26号开始

    需要下载的软件: 1.hadoop-2.6.4.tar.gz 下载网址:http://hadoop.apache.org/releases.html 2.scala-2.11.7.tgz 下载网址:h ...

  8. hadoop2.2.0 单机伪分布式(含64位hadoop编译) 及 eclipse hadoop开发环境搭建

    hadoop中文镜像地址:http://mirrors.hust.edu.cn/apache/hadoop/core/hadoop-2.2.0/ 第一步,下载 wget 'http://archive ...

  9. hadoop2.4.0伪分布式搭建以及分布式关机重启后datanode没起来的解决办法

    1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip ...

随机推荐

  1. Docker 镜像与容器

    镜像和容器的关系   容器提交    commint 作用:       根据容器生成一个新的镜像        命令格式:       docker commit [OPTIONS] CONTAIN ...

  2. SQLServer之GROUP BY语句

    GROUP BY 语句 GROUP BY 语句用于结合合计函数,根据一个或多个列对结果集进行分组. SQL GROUP BY 语法 SELECT column_name, aggregate_func ...

  3. ALV字段设置更改后,展示不同步的问题

    案例: 一个需要用户交互的ALV,比如某字段设置为输入长度20,不区分大小写.用户要求输入长度改为50,且要求区分大小写. 处理方式: 如果本来ALV字段设置时,采用的是ref_table和ref_f ...

  4. Linux iotop工具简介

    iotop的简介: iotop是一款开源.免费的用来监控磁盘I/O使用状况的类似top命令的工具,iotop可以监控进程的I/O信息.它是Python语言编写的,与iostat工具比较,iostat是 ...

  5. 并发编程~~~多线程~~~守护线程, 互斥锁, 死锁现象与递归锁, 信号量 (Semaphore), GIL全局解释器锁

    一 守护线程 from threading import Thread import time def foo(): print(123) time.sleep(1) print('end123') ...

  6. pymysql连接

    import pymysql conn=pymysql.connect(host='localhost',user='root',password='123',db='sg',charset='utf ...

  7. MySQL 优化 (四)

    参数优化 innodb_log_buffer_size 此参数确定些日志文件所用的内存大小,以M为单位.缓冲区更大能提高性能,对于较大的事务,可以增大缓存大小. innodb_log_buffer_s ...

  8. LInux:YUM源安装工具的配置及使用

    YUM源的设置及使用 YUM工具简介 (1)YUM(Yellow dog Upadate Modifie)是改进版的 RPM 管理器,很好地解决了 RPM 软件包的依赖问题. (2)YUM 可以从很多 ...

  9. Linux 内核虚拟地址到物理地址转换讨论【转】

    转自:https://blog.csdn.net/sunlei0625/article/details/59476987 版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请 ...

  10. JVM-5-GC(Garbage Collection) 垃圾回收机制

    GC(Garbage Collection)  垃圾回收机制   什么是垃圾回收机制 垃圾回收是一种动态存储管理技术,它自动地释放不再被程序引用的对象,按照特定的垃圾收集算法来实现资源自动回收的功能. ...