最新版spark1.1.0集群安装配置

和分布式文件系统和NoSQL数据库相比而言，spark集群的安装配置还算是比较简单的：

很多教程提到要安装java和scala，但我发现spark最新版本是包含scala的，JRE采用linux内嵌的版本也是可以的！

在主节点（bluejoe0）上安装spark1.1.0：

wget http://mirror.bit.edu.cn/apache/spark/spark-1.1.0/spark-1.1.0-bin-hadoop2.3.tgz

tar -zxvf spark-1.1.0-bin-hadoop2.3.tgz

ln -s spark-1.1.0-bin-hadoop2.3 spark
启动spark-shell：

cd /usr/local/spark/bin

./spark-shell

可以看到spark已经自带了scala 2.10：
输入测试程序：

scala> val data = Array(1, 2, 3, 4, 5)

data: Array[Int] = Array(1, 2, 3, 4, 5)

scala> val distData = sc.parallelize(data)

distData: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[0] at parallelize at <console>:14

scala> distData.reduce(_+_)
可以观察4040端口：
也可以测试PI的计算：

./bin/run-example SparkPi

14/11/23 16:08:25 INFO SparkContext: Job finished: reduce at SparkPi.scala:35, took 1.008332384 s

Pi is roughly 3.1403
也可以采用spark-submit来提交任务：

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master local[6] /usr/local/spark/lib/spark-examples-1.1.0-hadoop2.3.0.jar 1000

14/11/23 16:07:30 INFO SparkContext: Job finished: reduce at SparkPi.scala:35, took 46.220537186 s

Pi is roughly 3.14172056
现在安装几个从节点，scp spark.tgz文件到其它节点，如：bluejoe4,bluejoe5,bluejoe9
注意设置好ssh无密码登录；
修改conf/slaves

# A Spark Worker will be started on each of the machines listed below.

bluejoe4

bluejoe5

bluejoe9
在bluejoe0上启动spark集群：

./sbin/start-all.sh

此时可以在浏览器上观察到3个从节点的情况：
再测试在集群上计算PI的程序：

./bin/spark-submit --class org.apache.spark.examples.SparkPi --master spark://bluejoe0:7077 /usr/local/spark/lib/spark-examples-1.1.0-hadoop2.3.0.jar 1000

14/11/23 16:05:00 INFO SparkContext: Job finished: reduce at SparkPi.scala:35, took 26.322514766 s

Pi is roughly 3.14159516

此时观察浏览器的显示：

随机推荐

本地已有SVN项目导入到eclipse中
有时候在本地上checkout了项目,在eclipse中不希望重新checkout一次,可以如下操作: 1.在project上右键-> team -> share project -> ...
【转】Bash中的shopt选项
set选项与shopt选项是两组不同的内容,用set -o和shopt -p可以分别查看两个组所有的打开和关闭的条目, 在默认状态下,有些是打开的,有些是关闭的,shopt各选项随着bash版本的更新 ...
【Hadoop代码笔记】目录
整理09年时候做的Hadoop的代码笔记. 开始. [Hadoop代码笔记]Hadoop作业提交之客户端作业提交 [Hadoop代码笔记]通过JobClient对Jobtracker的调用看详细了解H ...
各种排序算法代码（C语言版）
选择排序 #include <stdio.h> /* * 选择排序 * 稳定性:不稳定 * 时间复杂度:O(N^2) **/ void select_sort(int a[], int l ...
JavaScript获取HTML页面源代码
来自:http://www.cnblogs.com/luckbird/archive/2008/02/01/1061048.html <a href="javascript:gets( ...
Spider Studio 数据挖掘集成开发环境
(最新版本: 2.7.12.1) 传统的多线程蜘蛛程序虽然采集速度快, 但是明明不需要所有内容, 却胡子眉毛一把抓, 将整个网页都下载下来当作一个文本进行处理. 由于网页内容参差不齐, 所以抓取质量常 ...
Android 实现ListView的A-Z字母排序和过滤搜索功能，实现汉字转成拼音
转载:http://blog.csdn.net/xiaanming/article/details/12684155 转载请注明出处:http://blog.csdn.net/xiaanming/ar ...
Android动画Animation之Tween用代码实现动画
透明度动画.旋转动画.尺寸伸缩动画.移动动画 package com.javen.tween; import android.annotation.SuppressLint; import andro ...
Parse error: syntax error, unexpected T_PUBLIC in 问题解决
class 类中 public function _getInfo($sn){ $title = ''; $_array = explode('~', $sn); ...
python内存管理
python对象三要素: identity(值):对应于内存的地址,不可修改 type(类型):不可修改 value(值): mutable :可以修改 immutable:不可以修改引用计数当引 ...

最新版spark1.1.0集群安装配置

最新版spark1.1.0集群安装配置的更多相关文章

随机推荐

热门专题