Spark之集群搭建

注意,这种安装方式是集群方式:然后有常用两种运行模式: standalone , on yarn

区别就是在编写 standalone 与 onyarn 的程序时的配置不一样,具体请参照spar2中的例子.

提交方式:

standalone
spark-submit --class testkmeans.KMeans_jie spark2-1.0-SNAPSHOT.jar
onyarn :

spark-submit --class SaprkOnYarn spark2-1.0-SNAPSHOT.jar kmeans_data.txt kmeans_data_out.txt

spark 集群搭建：

2台服务器
hadoop13 master
hadoop14 slaves

1.安装scala sdk

下载scala2.11.4版本下载地址为：http://www.scala-lang.org/download/2.11.4.html

2.解压和安装：

解压： tar -xvf scala-2.11.4.tgz ,安装： mv scala-2.11.4 ~/usr/local/scala

3.编辑 ~/.bash_profile文件增加SCALA_HOME环境变量配置

export JAVA_HOME=/home/spark/opt/java/jdk1.6.0_37

export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar

export SCALA_HOME=/home/spark/opt/scala-2.11.4

export HADOOP_HOME=/home/spark/opt/hadoop-2.6.0

PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:${SCALA_HOME}/bin

立即生效 bash_profile  ，[spark@S1PA11 scala]$ source ~/.bash_profile

4.验证scala： scala –version

Scala code runner version 2.11.4 -- Copyright 2002-2013, LAMP/EPFL

5.进入scala

scala

Welcome to Scala version 2.11.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.6.0_37).

Type in expressions to have them evaluated.

Type :help for more information.

scala> var str = "SB is"+"SB"

str: String = SB isSB 

scala>

6.安装spark

下载spark，wget http://d3kbcqa49mib13.cloudfront.net/spark-1.2.0-bin-hadoop2.4.tgz
tar-zxvf 
mv /usr    /lo

并配置环境变量

7. 修改配置文件

first ：修改slaves文件，增加两个slave节点S1PA11、S1PA222

second：配置spark-env.sh

首先把spark-env.sh.template copy spark-env.sh

vi spark-env.sh文件 在最下面增加： 

export JAVA_HOME=/usr/local/java/jdk1.7.0_79 

export SCALA_HOME=/usr/local/scala/scala-2.11.4

export SPARK_MASTER_IP=192.168.122.213

export SPARK_WORKER_MEMORY=1g

export HADOOP_CONF_DIR=/zzy/hadoop-2.6.0/etc/hadoop

HADOOP_CONF_DIR是Hadoop配置文件目录，

SPARK_MASTER_IP主机IP地址，SPARK_WORKER_MEMORY是worker使用的最大内存

完成配置后，

将spark目录copy slave机器 scp -r ~/zzy/spark-1.2.0-bin-hadoop2.4  /zzy/

8.启动 进入sbin 目录

start-all.sh(切记，hadoop 也有此脚本)

9. hadoop13:8080访问WEB页面查看(注意8080端口，storm 也用)
10.加载远程文件(加载本地失败) 
　　a.txt ( hello you 
　　　　　　　hello me)
　　var file = sc.textFile("hdfs://hadoop11:9000/a.txt").collect
11.wordcount
　　var file = sc.textFile("hdfs://hadoop11:9000/a.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect;

Spark之集群搭建的更多相关文章

04、Spark Standalone集群搭建
04.Spark Standalone集群搭建 4.1 集群概述独立模式是Spark集群模式之一,需要在多台节点上安装spark软件包,并分别启动master节点和worker节点.master节点 ...
一文读懂spark yarn集群搭建
文是超简单的spark yarn配置教程: yarn是hadoop的一个子项目,目的是用于管理分布式计算资源,在yarn上面搭建spark集群需要配置好hadoop和spark.我在搭建集群的时候有3 ...
大数据-spark HA集群搭建
一.安装scala 我们安装的是scala-2.11.8 5台机器全部安装下载需要的安装包,放到特定的目录下/opt/workspace/并进行解压 1.解压缩 [root@master1 ~]# ...
Spark简单集群搭建
1．上传spark-2.2.0-bin-hadoop2.7.tgz安装包到/home/dtouding目录下 2．解压安装包到/bigdata/目录下,tar –zxvf spark-2.2.0- ...
Spark集群搭建【Spark+Hadoop+Scala+Zookeeper】
1.安装Linux 需要:3台CentOS7虚拟机 IP:192.168.245.130,192.168.245.131,192.168.245.132(类似,尽量保持连续,方便记忆) 注意: 3台虚 ...
[spark]-Spark2.x集群搭建与参数详解
在前面的Spark发展历程和基本概念中介绍了Spark的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的.我们可以了解到每个参数配置的作用是什么.这里将详细介绍Spark集群搭建以及xml参 ...
hadoop+spark集群搭建入门
忽略元数据末尾回到原数据开始处 Hadoop+spark集群搭建说明: 本文档主要讲述hadoop+spark的集群搭建,linux环境是centos,本文档集群搭建使用两个节点作为集群环境:一个 ...
Spark1.3.1 On Yarn的集群搭建
下面给出的是spark集群搭建的环境: 操作系统:最小安装的CentOS 7(下载地址) Yarn对应的hadoop版本号:Hadoop的Cloudera公司发行版Hadoop2.6.0-CDH5.4 ...
（四）Spark集群搭建-Java&Python版Spark
Spark集群搭建视频教程 1.优酷 2.YouTube 安装scala环境下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到m ...

随机推荐

Git及Github入门笔记
简介 Git是一个分布式版本控制系统(你可以通过Git来管理你的代码以及相关文档,可以在自己电脑上管理,同时也可以和同事协同使用管理),Github为Git提供一个服务器(简单的说,就是你可以把你的代 ...
CMD命令之：修改windows的CMD窗口输出编码格式为UTF-8
修改windows的CMD窗口输出编码格式为UTF-8 转载自 http://xuliduo.iteye.com/blog/639923 dos命令: chcp 65001 就是换成UTF-8代码页 ...
说说css3布局
使用float属性或position属性布局的缺点 <!DOCTYPE html> <html xmlns="http://www.w3.org/1999/xhtml&qu ...
global--命名空间的使用（一些零散的js方法）
var GLOBAL = {}; GLOBAL.namespace = function (str) { var arr = str.split('.'), o = GLOBAL; for (var ...
1 构建Mysql+heartbeat+DRBD+LVS集群应用系统系列之DRBD的搭建
preface 近来公司利润上升,购买了10几台服务器,趁此机会,把mysql的主从同步的架构进一步扩展,为了适应日益增长的流量.针对mysql架构的扩展,先是咨询前辈,后和同事探讨,准备采用Mysq ...
DNS(二)之bind的视图功能
bind视图工作原理在我国目前的网络环境下面,多个运营商并存,运营商之间的存在一定的网络互通问题,如果把来自不同的运营商或者地域的所有用户通过简单的A记录分配到一个机房,那么就存在部分网民访问延时大 ...
ecshop 给商品随机添加评论
<?php /* * 随机插入商品评论 * * * */ define('IN_ECS', true); require(dirname(__FILE__) . '/includes/init. ...
SaltStack与ZeroMQ（二）
SaltStack与ZeroMQ SaltStack底层是基于ZeroMQ进行高效的网络通信. ZeroMQ简介 ØMQ (也拼写作ZeroMQ,0MQ或ZMQ)是一个为可伸缩的分布式或并发应用程序设 ...
申请https证书需要注意的4大问题
HTTPS证书是什么 https证书是数字证书中的一种,由受信任的数字证书颁发机构CA如[沃通CA]在验证服务器身份后颁发,具有服务器身份验证和数据传输加密功能,因其要配置在服务器上,所以也称SSL ...
sql 行转列，列转行
行列互转复制代码 create table test(id ),quarter int,profile int) insert into test values(,,) insert into te ...

Spark之集群搭建

Spark之集群搭建的更多相关文章

随机推荐

热门专题