今天由于所以要安装spark做一些实验。我已有的环境是:

操作系统:CentOS6.5
hadoop:hadoop2.4.1
JDK:1.7
集群环境:四个节点
 
闲话不说,以下是我的安装步骤:
说明:下边的这些安装都是先在master节点上安装。安装完成后将scala和spark传到其他节点。
Spark采用的是sala语言编写的,需要依赖scala的。所以首先需要安装scala
安装scala
下载地址:http://www.scala-lang.org/download/  我这里下载的是最新的2.11.4版本
 
解压:tar -zxvf scala-2.11.4.tgz
 
配置环境变量:
vi /etc/profile
添加
export SCALA_HOME=/hadoop/scala-2.11.4
export PATH=$PATH:$SCALA_HOME/bin
 
生效 source /etc/profile
很简单,scala就安装好了(虽然我不会用,没接触过啊~~~~~)
 
安装Spark
要选择与自己集群对用的下载
解压:tar -zxvf <安装包>
 
配置环境变量(这部可选,主要就是方便打开)
export SPARK_HOME=/hadoop/spark-1.1.0-bin-hadoop2.4
export PATH=$PATH:$SCALA_HOME/bin:$SPARK_HOME/bin
环境变量生效
 
配置Spark
进入到spark的conf中:cd /hadoop/spark-1.1.0-bin-hadoop2.4/conf
修改slaves,添加你的spark节点,我这里添加了三个
Master.domain.dev
Slave1.domain.dev
Slave2.domain.dev
 
cp spark-env.sh.template spark-env.sh
 
修改spark-env.sh,添加
export HADOOP_HOME=/usr/lib/hadoop
export JAVA_HOME=/usr/jdk64/jdk1.7.0_45
export SCALA_HOME=/hadoop/scala-2.11.4
 
master节点spark配置完成,很简单吧,接下来只需要把spark和scala的安装目录拷贝到slave1和salve2节点就可以了。需要注意的是,拷贝过去后的目录和master中的目录一样。
scp -r scala-2.11.4/ slave2:/hadoop/
scp -r spark-1.1.0-bin-hadoop2.4/ slave2:/hadoop/
拷贝成功后需要配置一下slave1和slave2节点中的环境变量,也就是配置/etc/profile文件。
大功告成,开始启动吧~~~~~~~~~~
 
测试spark
启动spark:spark-all.sh
哈哈,没报错,一次启动成功。
jps一下,会看到多出两个进程Master和Worker。
在其他两个节点中只有Worker进程的。
 
用一个例子跑一下吧。
我这里跑了一个WordCount的例子。跑例子前先在hdfs中存一个文件。
启动Spark-Shell
scala>val file = sc.textFile("hdfs://master:8020/testdata/input/README.md")
scala>val count = file.flatMap(line => line.split(" ")).map(word => (word, 1)).reduceByKey(_+_)
scala> count.collect()
运行这三天语句之后你会神奇的发现竟然出结果了。对scala语言不太了解,就不具体讲解了。要想深入学习spark,必须要先学习scala啊。

Spark在集群中的安装的更多相关文章

  1. Hadoop实战1:MapR在ubuntu集群中的安装

    由于机器学习算法在处理大数据处理的时候在所难免的会效率降低,公司需要搭建hadoop集群,最后采用了商业版的Hadoop2(MapR). 官网: http://doc.mapr.com/display ...

  2. 安装spark ha集群

    安装spark ha集群 1.默认安装好hadoop+zookeeper 2.安装scala 1.解压安装包 tar zxvf scala-2.11.7.tgz 2.配置环境变量 vim /etc/p ...

  3. Spark新手入门——3.Spark集群(standalone模式)安装

    主要包括以下三部分,本文为第三部分: 一. Scala环境准备 查看二. Hadoop集群(伪分布模式)安装 查看三. Spark集群(standalone模式)安装 Spark集群(standalo ...

  4. Spark新手入门——2.Hadoop集群(伪分布模式)安装

    主要包括以下三部分,本文为第二部分: 一. Scala环境准备 查看 二. Hadoop集群(伪分布模式)安装 三. Spark集群(standalone模式)安装 查看 Hadoop集群(伪分布模式 ...

  5. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十七):kafka manager安装

    一.kafka-manager简介 为了简化开发者和服务工程师维护Kafka集群的工作,yahoo构建了一个叫做Kafka管理器的基于Web工具,叫做 Kafka Manager.这个管理工具可以很容 ...

  6. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(二十一)NIFI1.7.1安装

    一.nifi基本配置 1. 修改各节点主机名,修改/etc/hosts文件内容. 192.168.0.120 master 192.168.0.121 slave1 192.168.0.122 sla ...

  7. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十七)Elasticsearch-6.2.2集群安装,组件安装

    1.集群安装es ES内部索引原理: <时间序列数据库的秘密(1)—— 介绍> <时间序列数据库的秘密 (2)——索引> <时间序列数据库的秘密(3)——加载和分布式计算 ...

  8. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(十)安装hadoop2.9.0搭建HA

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

  9. Kafka:ZK+Kafka+Spark Streaming集群环境搭建(九)安装kafka_2.11-1.1.0

    如何搭建配置centos虚拟机请参考<Kafka:ZK+Kafka+Spark Streaming集群环境搭建(一)VMW安装四台CentOS,并实现本机与它们能交互,虚拟机内部实现可以上网.& ...

随机推荐

  1. 加解密算法二:非对称加解密及RSA算法的实现

    加密和解密使用不同的密钥的一类加密算法.这类加密算法通常有两个密钥A和B,使用密钥A加密数据得到的密文,只有密钥B可以进行解密操作(即使密钥A也无法解密):相反,使用密钥B加密数据得到的密文,只有密钥 ...

  2. 敏捷开发的价值观(转自MBAlib)

    敏捷开发的价值观 实际上敏捷开发运动在数年前就开始了,但它正式开始的标志是2001年2月的“敏捷宣言”(Agile Manifesto),这项宣言是由17位当时称之为“轻量级方法学家”所编写签署的,他 ...

  3. webkit私有css3属性 -webkit-overflow-scrolling:touch;

    -webkit-overflow-scrolling:touch;/*允许独立的滚动区域和触摸回弹*/ 这个属性可以提高滚动的平滑度

  4. Asp.Net MVC ajax调用 .net 类库问题

    如果你还在为 ajax 调用 .net 类库还束手无策的话,相信这篇博客将帮助你解决这个世纪问题! 因为Visual Studio 内置了asp.net mvc ,不过当你添加asp.net mvc项 ...

  5. Discuz CDN优化方案

    DZ整体来说CDN是有点蛋疼的,因为毕竟琐碎,貌似大部分帖子都没有说全,这里罗列一下,给在用的孩儿们一点参考: 1.在后台设置CSS/JS走CDN路径,具体[全局]-[性能优化]-[服务器优化] 2. ...

  6. 基于jQuery的上下左右无缝滚动应用(单行或多行)

    $(function(){     var _wrap=$('ul.line');//定义滚动区域     var _interval=2000;//定义滚动间隙时间     var _moving; ...

  7. bzoj 4127: Abs 树链剖分

    4127: Abs Time Limit: 40 Sec  Memory Limit: 256 MBSubmit: 11  Solved: 5[Submit][Status][Discuss] Des ...

  8. 为什么Nagios会那么吵?你又能做些什么呢?(1)

    如果你受困于 Nagios 的告警洪潮中不能自拔,那么这两篇连载博客就是为你而生的.让我们来详细的阐述下这个问题! 运维人员都有着独立的监控工具,因此会经常受到 Nagios 告警吵闹的影响.很多运维 ...

  9. [topcoder]SmartWordToy

    广度搜索BFS,要用Queue.还不是很熟,这道题帮助理清一些思绪了.其实这道题是求最短路径,所以BFS遇到第一个就可以返回了,所以后面有些现有大小和历史大小的判断可以省却. 过程中拿数组存step还 ...

  10. Altium Designer学习: 原理图和PCB元件对应查找

    画PCB的时候,需要经常的去查看原理图上对应的元件,元件数目少还好找,数目多了找起来就比较扯淡.还要Altium Designer提供了不错的交叉查找功能. 这里我建议使用两个显示器,一个显示器放原理 ...