在Hadoop2.2基础上安装Spark（伪分布式）

没想到，在我的hadoop2.2.0小集群上上安装传说中的Spark竟然如此顺利，可能是因为和搭建Hadoop时比较像，更多需要学习的地方还是scala编程和RDD机制吧

总之，开个好头

原来的集群:全源码安装，包括hadoop2.2.0 hive0.13.0 hbase-0.96.2-hadoop2 hbase-0.96.2-hadoop2 sqoop-1.4.5.bin__hadoop-2.0.4-alpha pig-0.12.1

hive和hbase的版本要求比较严格，才能相互调用，所以，虽然hadoop可以升级到2.6,0，先保险起见。还是不单独升级。

Spark的伪分布式安装

1.下载合适的版本
http://spark.apache.org/downloads.html
这里下载的是spark-1.0.2-bin-hadoop2
http://www.scala-lang.org/download/2.11.0.html

2.解压到/usr/local/hadoop
tar -zxvf ...
建立软连接：
ln -s spark-1.0.2-bin-hadoop2 spark
ln -s scala-2.11.0 scala

3.配置路径
进入SPARK_HOME/conf目录，复制一份spark-env.sh.template并更改文件名为spark-env.sh
vim /etc/profile
export JAVA_HOME=/usr/java/jdk1.8.0_25
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
export HADOOP_HOME=/usr/local/hadoop-2.2.0
export HBASE_HOME=/usr/local/hbase
export HIVE_HOME=/usr/local/hive
export SQOOP_HOME=/usr/local/sqoop
export PIG_HOME=/usr/local/pig
export PIG_CALSSPATH=$HADOOP_HOME/etc/hadoop
export MAVEN_HOME=/opt/apache-maven-3.2.3
export ANT_HOME=/opt/apache-ant-1.9.4
export PATH=$PATH:$HADOOP_HOME/:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HBASE_HOME/bin:$HIVE_HOME/bin:$MAVEN_HOME/bin:$ANT_HOME/bin:$SQOOP_HOME/bin:$PIG_HOME/bin
export SCALA_HOME=/usr/local/scala
export SPARK_MASTER=localhost
export SPARK_LOCAL_IP=localhost
export SPARK_HOME=/usr/local/spark
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
export SPARK_LIBARY_PATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib:$HADOOP_HOME/lib/native
export PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin
export YARN_CONF_DIR=$HADOOP_HOME/etc/hadoop
。。。安装了这么多东西，都要配置

让配置生效：
source /etc/profile

4.查看scala版本
[root@centos local]# scala -version
Scala code runner version 2.11.0 -- Copyright 2002-2013, LAMP/EPFL

5.启动spark
进入到SPARK_HOME/sbin下,运行：
start-all.sh
[root@centos local]# jps
7953 DataNode
8354 NodeManager
8248 ResourceManager
8104 SecondaryNameNode
10396 Jps
7836 NameNode
7613 Worker
7485 Master
有一个Master跟Worker进程说明启动成功
可以通过http://localhost:8080/查看spark集群状况

6.两种模式运行Spark例子程序
1.Spark-shell
此模式用于interactive programming，具体使用方法如下(先进入bin文件夹)

./spark-shell

Welcome to

____ __

/ __/__ ___ _____/ /__

_\ \/ _ \/ _ `/ __/ '_/

/___/ .__/\_,_/_/ /_/\_\ version 1.0.2

/_/

Using Scala version 2.10.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_25)

Type in expressions to have them evaluated.

Type :help for more information.

15/03/17 19:15:18 INFO spark.SecurityManager: Changing view acls to: root

scala> val days = List("Sunday","Monday","Tuesday","Wednesday","Thursday","Friday","Saturday")

days: List[String] = List(Sunday, Monday, Tuesday, Wednesday, Thursday, Friday, Saturday)

scala> val daysRDD =sc.parallelize(days)

daysRDD: org.apache.spark.rdd.RDD[String] = ParallelCollectionRDD[0] at parallelize at <console>:14

scala>daysRDD.count()

显示以下信息：
res0:Long =7

2.运行脚本
运行Spark自带的example中的SparkPi，在
这里要注意，以下两种写法都有问题
./bin/run-example org.apache.spark.examples.SparkPi spark://localhost:7077
./bin/run-example org.apache.spark.examples.SparkPi local[3]
local表示本地，[3]表示3个线程跑

这样就可以：

./bin/run-example org.apache.spark.examples.SparkPi 2 spark://192.168.0.120:7077

15/03/17 19:23:56 INFO scheduler.DAGScheduler: Completed ResultTask(0, 0)

15/03/17 19:23:56 INFO scheduler.DAGScheduler: Stage 0 (reduce at SparkPi.scala:35) finished in 0.416 s

15/03/17 19:23:56 INFO spark.SparkContext: Job finished: reduce at SparkPi.scala:35, took 0.501835986 s

Pi is roughly 3.14086

7.scala特点

MR不理想的最主要的原因有几个:
1.它是以job形式进行提交的
2.它的Job相对来说比较重，包括步骤jar到各个节点， Job进行数据的迭代等，一个最简单的Job都要秒计MP

Scala的几个特性，让你有兴趣去学这门新语言:
1. 它最终也会编译成Java VM代码，看起来象不象Java的壳程序？-至少做为一个Java开发人员，你会松一口气
2. 它可以使用Java包和类 - 又放心了一点儿，这样不用担心你写的包又得用另外一种语言重写一遍
3. 更简洁的语法和更快的开发效率

在Hadoop2.2基础上安装Spark（伪分布式）的更多相关文章

在mac上安装hadoop伪分布式
换了macbook pro之后,要重新安装hadoop,但是mac上的jdk跟windows上的不同,导致折腾了挺久的,现在分享出来,希望对大家有用. 一:下载jdk 选择最新版本下载,地址:http ...
Hadoop-2.9.2单机版安装（伪分布式模式）（一）
一.环境硬件:虚拟机VMware.win7 操作系统:Centos-7 64位主机名: hadoopServerOne 安装用户:root软件:jdk1.8.0_181.Hadoop-2.9.2 ...
centos7安装Scala、Spark(伪分布式)
centos7安装spark(伪分布式) spark是由scala语言开发的,首先需要安装scala. Scala安装下载scala-2.11.8,(与spark版本要对应) 命令:wget htt ...
沉淀，再出发——在Hadoop集群的基础上搭建Spark
在Hadoop集群的基础上搭建Spark 一.环境准备在搭建Spark环境之前必须搭建Hadoop平台,尽管以前的一些博客上说在单机的环境下使用本地FS不用搭建Hadoop集群,可是在新版spark ...
cdh 上安装spark on yarn
在cdh 上安装spark on yarn 还是比较简单的,不需要独立安装什么模块或者组件. 安装服务选择on yarn 模式:上面 Spark 在spark 服务中添加在yarn 服务中添加 g ...
在linux上安装spark详细步骤
在linux上安装spark ,前提要部署了hadoop,并且安装了scala. 提君博客原创对应版本 >>提君博客原创 http://www.cnblogs.com/tijun/ ...
Linux下一键安装包的基础上安装SVN及实现nginx web同步更新
Linux下一键安装包的基础上安装SVN及实现nginx web同步更新一.安装 1.查看是否安装cvs rpm -qa | grep subversion 2.安装 yum install sub ...
java大数据最全课程学习笔记(1)--Hadoop简介和安装及伪分布式
Hadoop简介和安装及伪分布式大数据概念大数据概论大数据(Big Data): 指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发 ...
VMwareWorkstation 平台 Ubuntu14 下安装配置伪分布式 hadoop
VMwareWorkstation平台Ubuntu14下安装配置伪分布式hadoop 安装VmwareStation 内含注册机. 链接:https://pan.baidu.com/s/1j-vKgD ...

随机推荐

Android更新主线程UI的两种方式handler与runOnUiThread()
在android开发过程中,耗时操作我们会放在子线程中去执行,而更新UI是要主线程(也叫做:UI线程)来更新的,自然会遇到如何更新主线程UI的问题.如果在主线程之外的线程中直接更新页面显示常会报错.抛 ...
android 中string.xml中的%1$s
idView.setText(getString(R.string.estate_id, mCollectParamObj.getPlotNo())); estate_id:小区号%1$s %d ...
PHP面试题超强总结（PHP中文网）
PHP面试基础题目 1.双引号和单引号的区别双引号解释变量,单引号不解释变量双引号里插入单引号,其中单引号里如果有变量的话,变量解释双引号的变量名后面必须要有一个非数字.字母.下划线的特殊字符, ...
【转】rinex
RINEX(Receiver INdependent Exchange)格式是与接收机无关的数据交换格式,该格式采用文本文件存储数据,数据记录格式与接收机的制造厂商和具体型号无关.RINEX ...
零基础实现node+express个性化聊天室
本篇文章使用node+express+jquery写一个个性化聊天室,一起来get一下~(源码地址见文章末尾) 效果图项目结构实现功能登录检测系统自动提示用户状态(进入/离开) 显示在线用户 ...
NodeJs实现他人项目实例
1.简单实例,参考 https://github.com/alsotang/node-lessons/tree/master/lesson2 2.express一个新项目 ,但出现警告发现少了nod ...
windows程序设计获取文本框（窗口、对话框）文本
就是这样一个简单的界面,窗口上重绘的对话框(这种写法参考我之前博文): 需要做到的就是点击确定,获取文本框中内容. // 处理对话框消息 INT_PTR CALLBACK NewDlgProc(HWN ...
ABP官方文档翻译 5.3 OData集成
OData集成介绍安装安装Nuget包设置模块依赖配置实体创建控制器配置示例获取实体列表 Request Response 获取单个实体 Request Response 使用导航属 ...
ABP官方文档翻译 5.1 Web API控制器
ASP.NET Web API控制器介绍 AbpApiController基类本地化其他过滤器审计日志授权反伪造过滤器工作单元结果包装和异常处理结果缓存校验模型绑定器介绍 A ...
zzcms8.2#任意用户密码重置#del.php时间盲注#复现
00x0 引言早上起来,发现seebug更新了一批新的洞, 发现zzcms8.2这个洞好多人在挖,于是我就默默的踏上了复现之路(要不是点进去要买详情,我何必这么折腾~) 环境:zzcms8.2(产品 ...

在Hadoop2.2基础上安装Spark（伪分布式）

在Hadoop2.2基础上安装Spark（伪分布式）的更多相关文章

随机推荐

热门专题