Spark 是一种与 Hadoop 相似的开源集群计算环境,不过最近非常火.下面介绍安装步骤.

1 安装scala

  1.1 我选用的是2.11.4,下载地址http://www.scala-lang.org/download/

  1.2 解压到文件夹

tar -xzvf scala-2.11..tgz 

  1.3 设置环境变量

sudo nano /etc/profile
export SCALA_HOME=/home/liucc/software/spark/scala-2.11.
export PATH=$PATH:$SCALA_HOME/bin

  1.4 检查是否安装成功

scala -version

2 安装Spark

  2.0  Spark编译的话,可以用MVN,SBT,和他自带的make-distribution.sh文件

sbt/sbt assembly -Phadoop-2.6 -Dhadoop.version=2.6. -Pyarn -Dyarn.version=2.6. -Pspark-ganglia-lgpl -Pkinesis-asl -Phive

mvn -Phadoop-2.6 -Dhadoop.version=2.6. -Pyarn -Dyarn.version=2.6. -Pspark-ganglia-lgpl -Pkinesis-asl -Phive -DskipTests clean package

./make-distribution.sh --tgz --name 2.6. -Pyarn -Phadoop-2.6 -Pspark-ganglia-lgpl -Phive -DskipTests

  2.1 下载编译好的spark,我是看了这个博主写的http://www.aboutyun.com/thread-8160-1-1.html,我选的是hadoop2.2.0

下载预编译好的Spark, (32位、64都可以)
hadoop1安装包
密码:d4om
hadoop2安装
密码:elpg
2.2 解压到相应目录
tar -xzvf spark-1.0.-bin-hadoop2.tgz

  2.3 设置SPARK_HOME

export SPARK_EXAMPLES_JAR=/home/liucc/software/spark/spark-1.0./examples/target/scala-2.11./spar$
export SPARK_HOME=/home/liucc/software/spark/spark-1.0.

  备注:SPARK_EXAMPLES_JAR的设置是摘抄自pig2:这一步其实最关键,很不幸的是,官方文档和网上的博客,都没有提及这一点。我是偶然看到了这两篇帖子,Running SparkPi, Null pointer exception when running ./run spark.examples.SparkPi local,才补上了这一步,之前死活都无法运行SparkPi。

  2.4 配置Spark,进入到conf目录下面,配置spark-env.sh文件

cp spark-env.sh.template spark-env.sh
nano spark-env.sh
export JAVA_HOME=/usr/dev/jdk1..0_51
export SCALA_HOME=/home/liucc/software/spark/scala-2.11.

  2.5 至此配置完毕,可以启动试试,进入sprk目录,可以通过 http://localhost:8080/ 看到对应界面

sbin/start-master.sh

3 测试,下面在spark上运行第一个例子:与Hadoop交互的WordCount

  3.1 将文件上传到hadoop中

  3.2 进入spark-shell,进入spark根目录

bin/spark-shell

  3.3 输入scala语句,不熟悉的话,可以去学习一下,有个公开课https://class.coursera.org/progfun-005,很不错

val file=sc.textFile("要统计的文件")
val count=file.flatMap(line=>line.split(" ")).map(word=>(word,)).reduceByKey(_+_)
count.collect()

  如果没错的话会看到结果

  3.4 可以将结果上传到hadoop

count.saveAsTextFile("要保存的目录")

---------------------------------------------------------------------------------------

  完毕,当然,也可以在Eclipse   中用java测试,网上很多了

Ubuntu 14.10 下安装Spark的更多相关文章

  1. Ubuntu 14.10 下安装Ganglia监控集群

    关于 Ganglia 软件,Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统,如集群和网格.它是基于分层设计,它使用广泛的技术,如XML数据代表,便携数据传输,RRDtool用于数 ...

  2. Ubuntu 14.10 下安装java反编译工具 jd-gui

    系统环境,Ubuntu 14.10 ,64位 1 下载JD-GUI,网址http://221.3.153.126/1Q2W3E4R5T6Y7U8I9O0P1Z2X3C4V5B/jd.benow.ca/ ...

  3. Ubuntu 14.10 下安装伪分布式hive-0.14.0

    本地独立模式,MySQL作为元数据库 1 安装环境准备 1.1 安装JDK,在安装hadoop时候已经安装了,参考http://www.cnblogs.com/liuchangchun/p/40972 ...

  4. Ubuntu 14.10 下安装navicat

    1 下载navicat,网址http://www.navicat.com.cn/download,我下载的是navicat111_premium_cs.tar.gz 2 解压到合适的位置 3 进入解压 ...

  5. Ubuntu 14.10下安装深度音乐客户端

    很多刚从windows系统投靠到ubuntu的机油,在听音乐时不是很舒心.毕竟ubuntu软件中心的很多影音软件都是国外的朋友编写的,所以很多时候国内的朋友用着很不舒服.今天给大家推荐的是国内开发者针 ...

  6. Ubuntu 14.10 下安装rabbitvcs-版本控制

    在Windows下用惯了TortoiseSVN这只小乌龟,到了Ubuntu下很不习惯命令行的SVN,于是经过一番寻找安装了RabbitVCS这款SVN图形化前端工具(官方网站:http://rabbi ...

  7. Ubuntu 14.10 下安装伪分布式hdoop 2.5.0

    折腾了一天,其间配置SSH时候出现了问题,误删了ssh-keygen相关文件,导致配置SSH彻底萎了,又重装了系统.... 采用伪分布式模式,即hadoop将所有进程运行于同一台主机上,但此时Hado ...

  8. Ubuntu 14.10 下安装Synergy,不同电脑之间公用一套键盘鼠标

    因为工作时候有多台电脑放在一起,如果每个用一套键盘鼠标很是不方便,所以希望能够不用电脑之间公用一套键盘鼠标. Synergy可以实现不同电脑之间公用一套键盘鼠标,并且支持简单的复制粘贴.很好用. 它还 ...

  9. Ubuntu 14.10 下安装Sublime Text 3,注册码,中文输入法

    1 下载Sublime Text 3,网址http://www.sublimetext.com/3 2 双击deb安装 3 因为需要需要付费,输入下面的注册码,下面的注册码,来自百度,亲测可行 Sub ...

随机推荐

  1. ortp 发送RTP实例

    参考源代码目录src/tests/rtpsend.c     ortp_init();     ortp_scheduler_init();     ortp_set_log_level_mask(O ...

  2. jQuery事件委托方法 bind live delegate on

    1.bind    jquery 1.3之前 定义和用法:主要用于给选择到的元素上绑定特定事件类型的监听函数 语法:  bind(type,[data],function(e)); 特点: a.适合页 ...

  3. 20155208徐子涵 2016-2017-2 《Java程序设计》第4周学习总结

    20155208徐子涵 2016-2017-2 <Java程序设计>第4周学习总结 教材学习内容总结 第六章 继承与多态 继承 继承作为面向对象的第二大特征,基本上就是避免多个类间重复定义 ...

  4. java错误:找不到或无法加载主类

    问题: 在 windows cmd 中编译后,运行 java 文件时,出现此错误 分析: 源文件 ClientDemo.java: package netdemo; public class Clie ...

  5. C# 后台获取前台交互判断

    前台传来明细 ,判断是否修改,在把前台 的数据组成新的类保存 public class tt { public string id { get; set; } public string e_id { ...

  6. ISCC的 Misc——WP

    比赛已经结束了,自己做出来的题也不是很多,跟大家分享一下 Misc 第一题:What is that? 下载链接; 打开 解压 是一个图片 因为分值很少所以题和简单 观察图片是一个向下指的手 说明fl ...

  7. cmake 创建并调用动态库和静态库

    编程之路刚刚开始,错误难免,希望大家能够指出. 刚刚开始学习cmake,写这篇之前我认真的看了“小代码2016”的博客,感觉很不错,看完之后我自己练习了一遍,记录一下. 1.首先建立好合适的目录结构, ...

  8. jdk1.9之前的版本及jdk1.9环境变量的配置

    一.jdk9之前安装配置 1.下载jdk:http://www.oracle.com/technetwork/java/javase/downloads/index.html 2.配置环境变量: 安装 ...

  9. Gource 方便的软件版本可视化录制工具

    Gource 是一个特别棒的软件变更可视化录制工具,我们可以使用此工具,方便的将软件的版本变动,录制 为视频 安装 brew install gource brew install ffmpeg   ...

  10. 手动安装python库

    有些时候由于工作环境的限制如proxy,不能自动安装python 的第三方的库(用python –m pip install package).在这个情况下,只能自己手动安装.以xlwt-1.3.0. ...