Ubuntu 14.10 下安装Spark
Spark 是一种与 Hadoop 相似的开源集群计算环境,不过最近非常火.下面介绍安装步骤.
1 安装scala
1.1 我选用的是2.11.4,下载地址http://www.scala-lang.org/download/
1.2 解压到文件夹
tar -xzvf scala-2.11..tgz
1.3 设置环境变量
sudo nano /etc/profile
export SCALA_HOME=/home/liucc/software/spark/scala-2.11.
export PATH=$PATH:$SCALA_HOME/bin
1.4 检查是否安装成功
scala -version
2 安装Spark
2.0 Spark编译的话,可以用MVN,SBT,和他自带的make-distribution.sh文件
sbt/sbt assembly -Phadoop-2.6 -Dhadoop.version=2.6. -Pyarn -Dyarn.version=2.6. -Pspark-ganglia-lgpl -Pkinesis-asl -Phive mvn -Phadoop-2.6 -Dhadoop.version=2.6. -Pyarn -Dyarn.version=2.6. -Pspark-ganglia-lgpl -Pkinesis-asl -Phive -DskipTests clean package
./make-distribution.sh --tgz --name 2.6. -Pyarn -Phadoop-2.6 -Pspark-ganglia-lgpl -Phive -DskipTests
2.1 下载编译好的spark,我是看了这个博主写的http://www.aboutyun.com/thread-8160-1-1.html,我选的是hadoop2.2.0
tar -xzvf spark-1.0.-bin-hadoop2.tgz
2.3 设置SPARK_HOME
export SPARK_EXAMPLES_JAR=/home/liucc/software/spark/spark-1.0./examples/target/scala-2.11./spar$
export SPARK_HOME=/home/liucc/software/spark/spark-1.0.
备注:SPARK_EXAMPLES_JAR的设置是摘抄自pig2:这一步其实最关键,很不幸的是,官方文档和网上的博客,都没有提及这一点。我是偶然看到了这两篇帖子,Running SparkPi, Null pointer exception when running ./run spark.examples.SparkPi local,才补上了这一步,之前死活都无法运行SparkPi。
2.4 配置Spark,进入到conf目录下面,配置spark-env.sh文件
cp spark-env.sh.template spark-env.sh
nano spark-env.sh
export JAVA_HOME=/usr/dev/jdk1..0_51
export SCALA_HOME=/home/liucc/software/spark/scala-2.11.
2.5 至此配置完毕,可以启动试试,进入sprk目录,可以通过 http://localhost:8080/ 看到对应界面
sbin/start-master.sh
3 测试,下面在spark上运行第一个例子:与Hadoop交互的WordCount
3.1 将文件上传到hadoop中
3.2 进入spark-shell,进入spark根目录
bin/spark-shell
3.3 输入scala语句,不熟悉的话,可以去学习一下,有个公开课https://class.coursera.org/progfun-005,很不错
val file=sc.textFile("要统计的文件")
val count=file.flatMap(line=>line.split(" ")).map(word=>(word,)).reduceByKey(_+_)
count.collect()
如果没错的话会看到结果
3.4 可以将结果上传到hadoop
count.saveAsTextFile("要保存的目录")
---------------------------------------------------------------------------------------
完毕,当然,也可以在Eclipse 中用java测试,网上很多了
Ubuntu 14.10 下安装Spark的更多相关文章
- Ubuntu 14.10 下安装Ganglia监控集群
关于 Ganglia 软件,Ganglia是一个跨平台可扩展的,高性能计算系统下的分布式监控系统,如集群和网格.它是基于分层设计,它使用广泛的技术,如XML数据代表,便携数据传输,RRDtool用于数 ...
- Ubuntu 14.10 下安装java反编译工具 jd-gui
系统环境,Ubuntu 14.10 ,64位 1 下载JD-GUI,网址http://221.3.153.126/1Q2W3E4R5T6Y7U8I9O0P1Z2X3C4V5B/jd.benow.ca/ ...
- Ubuntu 14.10 下安装伪分布式hive-0.14.0
本地独立模式,MySQL作为元数据库 1 安装环境准备 1.1 安装JDK,在安装hadoop时候已经安装了,参考http://www.cnblogs.com/liuchangchun/p/40972 ...
- Ubuntu 14.10 下安装navicat
1 下载navicat,网址http://www.navicat.com.cn/download,我下载的是navicat111_premium_cs.tar.gz 2 解压到合适的位置 3 进入解压 ...
- Ubuntu 14.10下安装深度音乐客户端
很多刚从windows系统投靠到ubuntu的机油,在听音乐时不是很舒心.毕竟ubuntu软件中心的很多影音软件都是国外的朋友编写的,所以很多时候国内的朋友用着很不舒服.今天给大家推荐的是国内开发者针 ...
- Ubuntu 14.10 下安装rabbitvcs-版本控制
在Windows下用惯了TortoiseSVN这只小乌龟,到了Ubuntu下很不习惯命令行的SVN,于是经过一番寻找安装了RabbitVCS这款SVN图形化前端工具(官方网站:http://rabbi ...
- Ubuntu 14.10 下安装伪分布式hdoop 2.5.0
折腾了一天,其间配置SSH时候出现了问题,误删了ssh-keygen相关文件,导致配置SSH彻底萎了,又重装了系统.... 采用伪分布式模式,即hadoop将所有进程运行于同一台主机上,但此时Hado ...
- Ubuntu 14.10 下安装Synergy,不同电脑之间公用一套键盘鼠标
因为工作时候有多台电脑放在一起,如果每个用一套键盘鼠标很是不方便,所以希望能够不用电脑之间公用一套键盘鼠标. Synergy可以实现不同电脑之间公用一套键盘鼠标,并且支持简单的复制粘贴.很好用. 它还 ...
- Ubuntu 14.10 下安装Sublime Text 3,注册码,中文输入法
1 下载Sublime Text 3,网址http://www.sublimetext.com/3 2 双击deb安装 3 因为需要需要付费,输入下面的注册码,下面的注册码,来自百度,亲测可行 Sub ...
随机推荐
- dfs——n的全排列(回溯)
#include <iostream> #include <cstring> #include <string> #include <map> #inc ...
- indexedDB为何物
https://developer.mozilla.org/zh-CN/docs/Web/API/IndexedDB_API 在前一个阶段的工作中,项目组要开发一个平台,为了做出更好的用户体验,实现快 ...
- Windows下安装pymssql
准备用Python接入Sql Server数据库,因此准备用pymssql模块. 安装有点纠结. 64位win10系统,python3.6 步骤: 首先需要配置一下freetds: 在这里下载:htt ...
- 调试 shell script 方法
wade@V1088:~$ cat b.sh#!/bin/bash dir=`pwd` dir=$dir'/' for f in `ls *.png` do echo $dir$f done 看每一行 ...
- java黑魔法-反射机制-02-通过Java反射调用其他类方法
package com.aaron.reflect; import java.lang.reflect.Method; import java.lang.reflect.InvocationTarge ...
- Centos6.7 64位安装配置kvm虚拟化
首先,需要我们的cpu支持虚拟化,有的机器支持但是并未在bios开启,这个需要事先开启. 1. Dell R710安装centos6.7 64位 ,Dell R710在开机后按F2进入BIOS,Pro ...
- tailor multi fragment && cutom-amd script demo 说明
tailor 官方demo 中提供了一个multi fragment 的demo,这个比较简单,就是使用不同的 后端server 做为fragment ,然后使用 html tag 进行加载就可以了. ...
- 02基于python玩转人工智能最火框架之TensorFlow人工智能&深度学习介绍
人工智能之父麦卡锡给出的定义 构建智能机器,特别是智能计算机程序的科学和工程. 人工智能是一种让计算机程序能够"智能地"思考的方式 思考的模式类似于人类. 什么是智能? 智能的英语 ...
- MySQL联结查询和组合查询
联结查询 1.关系表 主键:一列或一组列,能够唯一区分表中的每一行,用来表示一个特定的行 外键:为某个表中的一列,包含另一个表的主键,定义量表的关系. 2.创建联结 规定要连接的表和他们如何关联即可 ...
- Java参数验证Bean Validation 框架
1.为什么要做参数校验? 参数校验和业务逻辑代码分离,参数校验代码复用,统一参数校验方式.校验不太通过时统一异常描述. 2.bean validation规范 JSR303 规范(Bean Valid ...