spark1.5.1环境搭建

今天一个小伙伴找我搞spark,搞了一个中午都没搭建好。心里痒痒的。索性自己重来了一遍。

本来很简单的事情，被这小子搞的老复杂了。究其原因，有以下几点：

下载的软件不对，我用的是这两个软件

spark-1.5.1-bin-hadoop2.6.tgz

hadoop-2.6.0.tar.gz

当然还需要基础的java和scala

这个我就不仔细讲了。

hadoop的搭建我前面的博客已经写过了。这里只讲一点，就是新搭建Hadoop环境后腰hadoop namenode -format

并且保证主从节点的clusterID一致。这个值在data文件夹的VERSION文件里面。

下面将spark 的搭建。

spark 的搭建首要的一点是，软件必须是跟hadoop版本配套的。不配套真麻烦。我看了一个中午的里面的shell脚本。嵌套调用我看的也很晕。

所以还是搞配套的版本好

然后就是配置一下变量了

在conf下面有两个文件要改：

一个时spark-env.sh

添加了这么几行：

export SCALA_HOME = /root/scala-2.11.4

export SPARK_HOME=/root/spark-1.5.1-bin-hadoop2.6

export JAVA_HOME=/jdk1.7.0.55

export SPARK_MASTER_IP=master

export SPARK_WORK_MEMORY=1000m

另一个文件是slaves

修改成这样

slave1

slave2

这个文件是指定work的节点情况。前一个文件就是指定一些语言和路径的情况。

简单吧，然后启动就OK了。

最后主节点增加一个Master进程，

两个slave节点增加了work进程。

要想如何测试集群是否OK

这样测试：在bin目录下跑spark-shell。然后进入了交互式的界面。执行这个语句。

val textc=sc.textFile("/test.txt").filter(line=>line.contains("Spark")).count()

其中test.txt文件是先前放到hdfs上去的。

hadoop dfs -put test.txt /

这个测试语句的作用是统计test.txt里面有多少个spark单词

spark1.5.1环境搭建的更多相关文章

centos+scala2.11.4+hadoop2.3+spark1.3.1环境搭建
一.Java安装 1.安装包准备: 首先到官网下载jdk,http://www.oracle.com/technetwork/java/javase/downloads/jdk7-downloads- ...
Apache Spark1.1.0部署与开发环境搭建
Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构.与MapReduce不同,Spark并不局限于编写map和reduce ...
Hive On Spark环境搭建
Spark源码编译与环境搭建 Note that you must have a version of Spark which does not include the Hive jars; Spar ...
Hadoop+Spark:集群环境搭建
环境准备: 在虚拟机下,大家三台Linux ubuntu 14.04 server x64 系统(下载地址:http://releases.ubuntu.com/14.04.2/ubuntu-14.0 ...
Spark 1.6.1分布式集群环境搭建
一.软件准备 scala-2.11.8.tgz spark-1.6.1-bin-hadoop2.6.tgz 二.Scala 安装 1.master 机器 (1)下载 scala-2.11.8.tgz, ...
(一) 从零开始搭建Spark Standalone集群环境搭建
本文主要讲解spark 环境的搭建主机配置 4核8线程,主频3.4G,16G内存虚拟环境: VMWare 虚拟环境系统:Ubuntu 14.10 虚拟机运行环境: jdk-1.7.0_79(64 ...
windows7 spark单机环境搭建及pycharm访问spark
windows7 spark单机环境搭建 follow this link how to run apache spark on windows7 pycharm 访问本机 spark 安装py4j ...
Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例【附详细代码】
http://blog.csdn.net/xiefu5hh/article/details/51707529 Spark+ECLIPSE+JAVA+MAVEN windows开发环境搭建及入门实例[附 ...
Spark认识&环境搭建&运行第一个Spark程序
摘要:Spark作为新一代大数据计算引擎,因为内存计算的特性,具有比hadoop更快的计算速度.这里总结下对Spark的认识.虚拟机Spark安装.Spark开发环境搭建及编写第一个scala程序.运 ...

随机推荐

iOS-Gdata XML解析配置和简单使用
简单介绍使用废话少说直接上图就能看明白... 导入libxml2,使用第三方AFNetworking网络请求,第三方XML解析GData GData需要的配置 Build Settings 里搜索,添 ...
Linux线程-终止
在前文讨论了线程创建的一些基本东西,这里讨论有哪些方法可以使线程终止,线程终止又是如何与创建所需的参数进行关联的. 一,正常终止线程在执行完成之后,正常终止. 二,线程取消 2.1 线程取消的定义 ...
Node.js高级编程读书笔记 - 3 网络编程
Outline 3.4 构建TCP服务器 3.5 构建HTTP服务器 3.6 构建TCP客户端 3.7 创建HTTP请求 3.8 使用UDP 3.9 用TLS/SSL保证服务器的安全性 3.10 用H ...
C++概念整理
/* 面向对象: 多态, 继承封装 */ #include <stdio.h> #include <stdlib.h> //一旦有了纯虚函数,该对象就不能实例化了. #def ...
redis 集群环境搭建-redis集群管理
集群架构 (1)所有的redis节点彼此互联(PING-PONG机制),内部使用二进制协议优化传输速度和带宽. (2)节点的fail是通过集群中超过半数的节点检测失效时才生效. (3)客户端与redi ...
How to relocate tablespace directory
I’ll demonstrate how to relocate a tablespace directory without the reconstruction of databases. I h ...
迷你DVD管理器（Java版）
import java.text.SimpleDateFormat;import java.util.Date;import java.util.Scanner;class Test { pub ...
.NET EXCEL NPOI 图片
今天闲来无事写了下 “ .NET 用 NPOI 组件将图片文件写到 EXCEL 中 ” 先看效果: 头是我加的,这个应该不是难事! 再看代码: private void button1_C ...
Python入门1
简介 Python的创始人为Guido van Rossum.1989年圣诞节期间,在阿姆斯特丹,Guido为了打发圣诞节的无趣,决心开发一个新的脚本解释程序,做为ABC 语言的一种继承.Python ...
urlrewriter的使用
开源类库地址 https://github.com/sethyates/urlrewriter/find/master <?xml version="1.0"?> &l ...

spark1.5.1环境搭建

spark1.5.1环境搭建的更多相关文章

随机推荐

热门专题