注意,这种安装方式是集群方式:然后有常用两种运行模式: standalone , on yarn

区别就是在编写 standalone 与 onyarn 的程序时的配置不一样,具体请参照spar2中的例子.

提交方式:

standalone
spark-submit --class testkmeans.KMeans_jie spark2-1.0-SNAPSHOT.jar
onyarn :

spark-submit --class SaprkOnYarn spark2-1.0-SNAPSHOT.jar kmeans_data.txt kmeans_data_out.txt

spark 集群搭建:

2台服务器
hadoop13 master
hadoop14 slaves

1.安装scala sdk

下载scala2.11.4版本 下载地址为:http://www.scala-lang.org/download/2.11.4.html

2.解压和安装:

解压 : tar -xvf scala-2.11.4.tgz  ,安装: mv scala-2.11.4 ~/usr/local/scala

3.编辑 ~/.bash_profile文件 增加SCALA_HOME环境变量配置

export JAVA_HOME=/home/spark/opt/java/jdk1.6.0_37
export CLASSPATH=.:$JAVA_HOME/jre/lib:$JAVA_HOME/lib:$JAVA_HOME/lib/tools.jar
export SCALA_HOME=/home/spark/opt/scala-2.11.4
export HADOOP_HOME=/home/spark/opt/hadoop-2.6.0
PATH=$PATH:$HOME/bin:$JAVA_HOME/bin:${SCALA_HOME}/bin
立即生效 bash_profile ,[spark@S1PA11 scala]$ source ~/.bash_profile
4.验证scala: scala –version

Scala code runner version 2.11.4 -- Copyright 2002-2013, LAMP/EPFL

5.进入scala

scala
Welcome to Scala version 2.11.4 (Java HotSpot(TM) 64-Bit Server VM, Java 1.6.0_37).
Type in expressions to have them evaluated.
Type :help for more information.
scala> var str = "SB is"+"SB"
str: String = SB isSB scala>
 
6.安装spark
下载spark,wget http://d3kbcqa49mib13.cloudfront.net/spark-1.2.0-bin-hadoop2.4.tgz
tar-zxvf
mv /usr    /lo
并配置环境变量 
7. 修改配置文件

first :修改slaves文件,增加两个slave节点S1PA11、S1PA222

second:配置spark-env.sh

首先把spark-env.sh.template copy spark-env.sh
vi spark-env.sh文件 在最下面增加: export JAVA_HOME=/usr/local/java/jdk1.7.0_79 export SCALA_HOME=/usr/local/scala/scala-2.11.4
export SPARK_MASTER_IP=192.168.122.213
export SPARK_WORKER_MEMORY=1g
export HADOOP_CONF_DIR=/zzy/hadoop-2.6.0/etc/hadoop
HADOOP_CONF_DIR是Hadoop配置文件目录,
SPARK_MASTER_IP主机IP地址,SPARK_WORKER_MEMORY是worker使用的最大内存
完成配置后,
将spark目录copy slave机器 scp -r ~/zzy/spark-1.2.0-bin-hadoop2.4 /zzy/
8.启动 进入sbin 目录
start-all.sh(切记,hadoop 也有此脚本)
9. hadoop13:8080访问WEB页面查看(注意8080端口,storm 也用)
10.加载远程文件(加载本地失败)
  a.txt ( hello you
       hello me)
  var file = sc.textFile("hdfs://hadoop11:9000/a.txt").collect
11.wordcount
  var file = sc.textFile("hdfs://hadoop11:9000/a.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect;

Spark之集群搭建的更多相关文章

  1. 04、Spark Standalone集群搭建

    04.Spark Standalone集群搭建 4.1 集群概述 独立模式是Spark集群模式之一,需要在多台节点上安装spark软件包,并分别启动master节点和worker节点.master节点 ...

  2. 一文读懂spark yarn集群搭建

    文是超简单的spark yarn配置教程: yarn是hadoop的一个子项目,目的是用于管理分布式计算资源,在yarn上面搭建spark集群需要配置好hadoop和spark.我在搭建集群的时候有3 ...

  3. 大数据-spark HA集群搭建

    一.安装scala 我们安装的是scala-2.11.8  5台机器全部安装 下载需要的安装包,放到特定的目录下/opt/workspace/并进行解压 1.解压缩 [root@master1 ~]# ...

  4. Spark简单集群搭建

    1. 上传spark-2.2.0-bin-hadoop2.7.tgz安装包到/home/dtouding目录下 2. 解压安装包到/bigdata/目录下,tar –zxvf spark-2.2.0- ...

  5. Spark集群搭建【Spark+Hadoop+Scala+Zookeeper】

    1.安装Linux 需要:3台CentOS7虚拟机 IP:192.168.245.130,192.168.245.131,192.168.245.132(类似,尽量保持连续,方便记忆) 注意: 3台虚 ...

  6. [spark]-Spark2.x集群搭建与参数详解

    在前面的Spark发展历程和基本概念中介绍了Spark的一些基本概念,熟悉了这些基本概念对于集群的搭建是很有必要的.我们可以了解到每个参数配置的作用是什么.这里将详细介绍Spark集群搭建以及xml参 ...

  7. hadoop+spark集群搭建入门

    忽略元数据末尾 回到原数据开始处 Hadoop+spark集群搭建 说明: 本文档主要讲述hadoop+spark的集群搭建,linux环境是centos,本文档集群搭建使用两个节点作为集群环境:一个 ...

  8. Spark1.3.1 On Yarn的集群搭建

    下面给出的是spark集群搭建的环境: 操作系统:最小安装的CentOS 7(下载地址) Yarn对应的hadoop版本号:Hadoop的Cloudera公司发行版Hadoop2.6.0-CDH5.4 ...

  9. (四)Spark集群搭建-Java&Python版Spark

    Spark集群搭建 视频教程 1.优酷 2.YouTube 安装scala环境 下载地址http://www.scala-lang.org/download/ 上传scala-2.10.5.tgz到m ...

随机推荐

  1. codevs 1063 合并果子//优先队列

    1063 合并果子 2004年NOIP全国联赛普及组  时间限制: 1 s 空间限制: 128000 KB 题目等级 : 钻石    题目描述 Description 在一个果园里,多多已经将所有的果 ...

  2. Beta Daily Scrum 第七天

    [目录] 1.任务进度 2.困难及解决 3.燃尽图 4.代码check-in 5.总结 1. 任务进度 学号 今日完成 明日完成 612 app已完成 将APP交给客户使用 615 app已完成 将A ...

  3. 数据结构与算法分析 – Disjoint Set(并查集)

    什么是并查集?并查集是一种树型的数据结构,用于处理一些不相交集合(Disjoint Sets)的合并及查询问题. 并查集的主要操作1.合并两个不相交集合2.判断两个元素是否属于同一集合 主要操作的解释 ...

  4. Yocto开发笔记之《驱动调试-GPS数据采集》(QQ交流群:519230208)

    开了一个交流群,欢迎爱好者和开发者一起交流,转载请注明出处. QQ群:519230208,为避免广告骚扰,申请时请注明 “开发者” 字样 =============================== ...

  5. JAVA Socket超时浅析

    JAVA Socket超时浅析 套接字或插座(socket)是一种软件形式的抽象,用于表达两台机器间一个连接的"终端".针对一个特定的连接,每台机器上都有一个"套接字&q ...

  6. WinForm------SplitContainerControl的窗体调用控件方法

    Frm_Books窗体(窗体里面有个按钮跳转Frm_Book_Select窗体) private void Add_Book_ItemClick(object sender, DevExpress.X ...

  7. linux redhat6.4安装oracle11g

    系统要求 1. Linux安装Oracle系统要求 系统要求 说明 内存 必须高于1G的物理内存 交换空间 一般为内存的2倍,例如:1G的内存可以设置swap 分区为3G大小 硬盘 5G以上  2.修 ...

  8. FBX Transformation

    2010: http://download.autodesk.com/us/fbx/20102/FBX_SDK_Help/index.html?url=WS1a9193826455f5ff3913a1 ...

  9. js中event的target和currentTarget的区别

    js中的event对象包含很多有用的信息 target:触发事件的元素. currentTarget:事件绑定的元素. 两者在没有冒泡的情况下,是一样的值,但在用了事件委托的情况下,就不一样了,例如: ...

  10. inpyt 按钮变透明 边框

    变透明: .btn{width: 80px;height: 36px;margin-left: 22px;border: none;cursor: pointer;background: none;}