Ubuntu 14.10 下安装Spark

Spark 是一种与 Hadoop 相似的开源集群计算环境,不过最近非常火.下面介绍安装步骤.

1 安装scala

　　1.1 我选用的是2.11.4,下载地址http://www.scala-lang.org/download/

　　1.2 解压到文件夹

tar -xzvf scala-2.11..tgz

　　1.3 设置环境变量

sudo nano /etc/profile

export SCALA_HOME=/home/liucc/software/spark/scala-2.11.

export PATH=$PATH:$SCALA_HOME/bin

　　1.4 检查是否安装成功

scala -version

2 安装Spark

　　2.0 Spark编译的话，可以用MVN，SBT，和他自带的make-distribution.sh文件

sbt/sbt assembly -Phadoop-2.6 -Dhadoop.version=2.6. -Pyarn -Dyarn.version=2.6. -Pspark-ganglia-lgpl -Pkinesis-asl -Phive

mvn -Phadoop-2.6 -Dhadoop.version=2.6. -Pyarn -Dyarn.version=2.6. -Pspark-ganglia-lgpl -Pkinesis-asl -Phive -DskipTests clean package


./make-distribution.sh --tgz --name 2.6. -Pyarn -Phadoop-2.6 -Pspark-ganglia-lgpl -Phive -DskipTests

　　2.1 下载编译好的spark,我是看了这个博主写的http://www.aboutyun.com/thread-8160-1-1.html,我选的是hadoop2.2.0

下载预编译好的Spark, （32位、64都可以）

hadoop1安装包

链接：http://pan.baidu.com/s/1c0kZMLE

密码：d4om

hadoop2安装包

链接：http://pan.baidu.com/s/1kT3czFD

密码：elpg

2.2 解压到相应目录

tar -xzvf spark-1.0.-bin-hadoop2.tgz

　　2.3 设置SPARK_HOME

export SPARK_EXAMPLES_JAR=/home/liucc/software/spark/spark-1.0./examples/target/scala-2.11./spar$

export SPARK_HOME=/home/liucc/software/spark/spark-1.0.

　　备注:SPARK_EXAMPLES_JAR的设置是摘抄自pig2:这一步其实最关键，很不幸的是，官方文档和网上的博客，都没有提及这一点。我是偶然看到了这两篇帖子，Running SparkPi, Null pointer exception when running ./run spark.examples.SparkPi local，才补上了这一步，之前死活都无法运行SparkPi。

　　2.4 配置Spark,进入到conf目录下面,配置spark-env.sh文件

cp spark-env.sh.template spark-env.sh

nano spark-env.sh

export JAVA_HOME=/usr/dev/jdk1..0_51

export SCALA_HOME=/home/liucc/software/spark/scala-2.11.

　　2.5 至此配置完毕,可以启动试试,进入sprk目录,可以通过 http://localhost:8080/ 看到对应界面

sbin/start-master.sh

3 测试,下面在spark上运行第一个例子：与Hadoop交互的WordCount

　　3.1 将文件上传到hadoop中

　　3.2 进入spark-shell,进入spark根目录

bin/spark-shell

　　3.3 输入scala语句,不熟悉的话,可以去学习一下,有个公开课https://class.coursera.org/progfun-005,很不错

val file=sc.textFile("要统计的文件")

val count=file.flatMap(line=>line.split(" ")).map(word=>(word,)).reduceByKey(_+_)

count.collect()

　　如果没错的话会看到结果

　　3.4 可以将结果上传到hadoop

count.saveAsTextFile("要保存的目录")

---------------------------------------------------------------------------------------

　　完毕,当然,也可以在Eclipse 中用java测试,网上很多了

Ubuntu 14.10 下安装Spark的更多相关文章

Ubuntu 14.10 下安装Ganglia监控集群
关于 Ganglia 软件,Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统,如集群和网格.它是基于分层设计,它使用广泛的技术,如XML数据代表,便携数据传输,RRDtool用于数 ...
Ubuntu 14.10 下安装java反编译工具 jd-gui
系统环境,Ubuntu 14.10 ,64位 1 下载JD-GUI,网址http://221.3.153.126/1Q2W3E4R5T6Y7U8I9O0P1Z2X3C4V5B/jd.benow.ca/ ...
Ubuntu 14.10 下安装伪分布式hive-0.14.0
本地独立模式,MySQL作为元数据库 1 安装环境准备 1.1 安装JDK,在安装hadoop时候已经安装了,参考http://www.cnblogs.com/liuchangchun/p/40972 ...
Ubuntu 14.10 下安装navicat
1 下载navicat,网址http://www.navicat.com.cn/download,我下载的是navicat111_premium_cs.tar.gz 2 解压到合适的位置 3 进入解压 ...
Ubuntu 14.10下安装深度音乐客户端
很多刚从windows系统投靠到ubuntu的机油,在听音乐时不是很舒心.毕竟ubuntu软件中心的很多影音软件都是国外的朋友编写的,所以很多时候国内的朋友用着很不舒服.今天给大家推荐的是国内开发者针 ...
Ubuntu 14.10 下安装rabbitvcs-版本控制
在Windows下用惯了TortoiseSVN这只小乌龟,到了Ubuntu下很不习惯命令行的SVN,于是经过一番寻找安装了RabbitVCS这款SVN图形化前端工具(官方网站:http://rabbi ...
Ubuntu 14.10 下安装伪分布式hdoop 2.5.0
折腾了一天,其间配置SSH时候出现了问题,误删了ssh-keygen相关文件,导致配置SSH彻底萎了,又重装了系统.... 采用伪分布式模式,即hadoop将所有进程运行于同一台主机上,但此时Hado ...
Ubuntu 14.10 下安装Synergy，不同电脑之间公用一套键盘鼠标
因为工作时候有多台电脑放在一起,如果每个用一套键盘鼠标很是不方便,所以希望能够不用电脑之间公用一套键盘鼠标. Synergy可以实现不同电脑之间公用一套键盘鼠标,并且支持简单的复制粘贴.很好用. 它还 ...
Ubuntu 14.10 下安装Sublime Text 3，注册码，中文输入法
1 下载Sublime Text 3,网址http://www.sublimetext.com/3 2 双击deb安装 3 因为需要需要付费,输入下面的注册码,下面的注册码,来自百度,亲测可行 Sub ...

随机推荐

s21day02 python笔记
s21day02 python笔记一.昨日内容回顾及补充内容回顾补充 if条件语句嵌套 10086示例 pycharm更改解释器 python3.7解释器 python2.7解释器二.循环语句 ...
Formal Grammars of English -10 chapter（Speech and Language Processing）
determiner 限定词 DET propernoun 专有名词 NP (or noun phrase) mass noun 不可数名词 Det Nouns 限定词名词 relative pro ...
Linux命令速查手册
Others make 通过外部编译器的,比如linux中的gcc集来编译源码获取Makefile文件的命令触发编译 curl -X GET/POST -I 获取head curl有cache 查看 ...
Python 3.5 in win10 pip install Orange3
http://www.lfd.uci.edu/%7Egohlke/pythonlibs/ 下载Orange3 以及依赖包注意网页上标出的Orange 的依赖,以及 https://github.c ...
【vue】遇到的问题
[一]项目编译的时候报错 npm install npm WARN @mtfe/thrift@2.3.7 requires a peer of thrift@0.11.0 but none is in ...
MySQL 8.0支持DDL原子化
在MySQL 5.5/5.6/5.7版本中,DDL操作是非原子型操作,在执行过程中遇到实例故障重启,可能导致DDL没有完成也没有回滚.如 1.执行DROP TABLE T1,T2操作,实例重启恢复后, ...
Benchmarking Zeebe: An Intro to How Zeebe Scales Horizontally and How We Measure It
Written by Felix Müller and Mike Winters on Jun 12 2018 in the Inside Zeebe category. In the past fe ...
how to use Eclipse for kernel development
http://wiki.eclipse.org/HowTo_use_the_CDT_to_navigate_Linux_kernel_source Here are some steps that I ...
使用 Composer 查看 FastAdmin 项目组件的版本
比如查看 ThinkPHP 的版本号. 使用命令 composer show topthink/* 显示如下,可以看到 ThinPHP 版本为 V5.0.12:
BTrace学习总结
一.简介: 在生产环境中经常遇到格式各样的问题,如OOM或者莫名其妙的进程死掉.一般情况下是通过修改程序,添加打印日志:然后重新发布程序来完成.然而,这不仅麻烦,而且带来很多不可控的因素.有没有一种方 ...

Ubuntu 14.10 下安装Spark

Ubuntu 14.10 下安装Spark的更多相关文章

随机推荐

热门专题