提交第一个spark作业到集群运行

写在前面

接触spark有一段时间了，但是一直都没有真正意义上的在集群上面跑自己编写的代码。今天在本地使用scala编写一个简单的WordCount程序。然后，打包提交到集群上面跑一下...

在本地使用idea开发，由于这个程序比较简单，我这里就直接给出代码。



import org.apache.spark.{SparkConf, SparkContext}

object WordCount {

  def main(args: Array[String]): Unit = {

    val conf=new SparkConf().setAppName("WordCount");

    val sc=new SparkContext(conf)

    val input=sc.textFile("/home/hadoop/data/test1.txt")

    val lines=input.flatMap(line=>line.split(" "))

    val count=lines.map(word=>(word,1)).reduceByKey{case(x,y)=>x+y}

    val output=count.saveAsTextFile("/home/hadoop/data/output")

  }

}

代码，写完之后，就是打包成一个jar文件

接着，上传生成的架包到集群

[hadoop@hadoop000 jars]$ rz

[hadoop@hadoop000 jars]$ ls

scalafirst.jar

[hadoop@hadoop000 jars]$

我们的架包上传好了之后，我们就可以启动spark集群了

在开始之前，先来查看一下需要统计的文件：

启动master

[hadoop@hadoop000 sbin]$ pwd

/home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/sbin

[hadoop@hadoop000 sbin]$ ./start-master.sh

starting org.apache.spark.deploy.master.Master, logging to /home/hadoop/app/spark-2.2.0-bin-2.6.0-cdh5.7.0/logs/spark-hadoop-org.apache.spark.deploy.master.Master-1-hadoop000.out

[hadoop@hadoop000 sbin]$

查看结果：

[hadoop@hadoop000 sbin]$ jps

25266 Master

25336 Jps

22815 SparkSubmit

[hadoop@hadoop000 sbin]$

可以看见master启动成功

启动worker

[hadoop@hadoop000 spark-2.2.0-bin-2.6.0-cdh5.7.0]$ ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://hadoop000:7077

查看结果：

[hadoop@hadoop000 ~]$ jps

25266 Master

25356 Worker

25421 Jps

22815 SparkSubmit

[hadoop@hadoop000 ~]$

上面的worker也是成功启动了

提交作业，计算结果

[hadoop@hadoop000 spark-2.2.0-bin-2.6.0-cdh5.7.0]$ ./bin/spark-submit --master spark://hadoop000:7077 --class WordCount /home/hadoop/jars/scalafirst.jar

17/12/02 23:05:23 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable

17/12/02 23:05:25 WARN Utils: Service 'SparkUI' could not bind on port 4040. Attempting port 4041.

[Stage 0:>                                                          (0 + 0) / 2[Stage 0:>                                                          (0 + 1) / 2[Stage 0:>                                                          (0 + 2) / 2[Stage 0:=============================>                             (1 + 1) / 2[Stage 1:>                                                          (0 + 0) / 2[Stage 1:>                                                          (0 + 1) / 2[Stage 1:=============================>                             (1 + 1) / 2                                                                               [hadoop@hadoop000 spark-2.2.0-bin-2.6.0-cdh5.7.0]$

查看结果：

[hadoop@hadoop000 data]$ pwd

/home/hadoop/data

[hadoop@hadoop000 data]$ cd output/

[hadoop@hadoop000 output]$ ls

part-00000  part-00001  _SUCCESS

[hadoop@hadoop000 output]$ cat part-00000

(hive,1)

(,1)

(hello,5)

(kafka,1)

(sqoop,1)

[hadoop@hadoop000 output]$ cat part-00001

(spark,1)

(hadoop,1)

(flume,1)

(hbase,1)

[hadoop@hadoop000 output]$

可以参照之前的：

好的，到这里，我们的统计就已经完成了，可以看见结果也是没有问题的。就这样简单的三个步骤我们就在集群上面跑了我们的第一个程序。如果，你是初学者，不妨一试哟。。

提交第一个spark作业到集群运行的更多相关文章

Spark on Yarn 集群运行要点
实验版本:spark-1.6.0-bin-hadoop2.6 本次实验主要是想在已有的Hadoop集群上使用Spark,无需过多配置 1.下载&解压到一台使用spark的机器上即可 2.修改配 ...
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本]
编写Spark的WordCount程序并提交到集群运行[含scala和java两个版本] 1. 开发环境 Jdk 1.7.0_72 Maven 3.2.1 Scala 2.10.6 Spark 1.6 ...
Java --本地提交MapReduce作业至集群☞实现 Word Count
还是那句话,看别人写的的总是觉得心累,代码一贴,一打包,扔到Hadoop上跑一遍就完事了????写个测试样例程序(MapReduce中的Hello World)还要这么麻烦!!!?,还本地打Jar包, ...
Spark wordcount开发并提交到集群运行
使用的ide是eclipse package com.luogankun.spark.base import org.apache.spark.SparkConf import org.apache. ...
Spark本地运行成功，集群运行空指针异。
一个很久之前写的Spark作业,当时运行在local模式下.最近又开始处理这方面数据了,就打包提交集群,结果频频空指针.最开始以为是程序中有null调用了,经过排除发现是继承App导致集群运行时候无法 ...
spark完全分布式集群搭建
最近学习Spark,因此想把相关内容记录下来,方便他人参考,也方便自己回忆吧 spark开发环境的介绍资料很多,大同小异,很多不能一次配置成功,我以自己的实际操作过程为准,详细记录下来. 1.基本运行 ...
Spark学习笔记3（IDEA编写scala代码并打包上传集群运行）
Spark学习笔记3 IDEA编写scala代码并打包上传集群运行我们在IDEA上的maven项目已经搭建完成了,现在可以写一个简单的spark代码并且打成jar包上传至集群,来检验一下我们的sp ...
【Spark】SparkStreaming-提交到集群运行
SparkStreaming-提交到集群运行 spark streaming 提交_百度搜索 SparkStreaming示例在集群中运行 - CSDN博客
06、部署Spark程序到集群上运行
06.部署Spark程序到集群上运行 6.1 修改程序代码修改文件加载路径在spark集群上执行程序时,如果加载文件需要确保路径是所有节点能否访问到的路径,因此通常是hdfs路径地址.所以需要修改 ...

随机推荐

如何在Python中表示一个对象
关于我一个有思想的程序猿,终身学习实践者,目前在一个创业团队任team lead,技术栈涉及Android.Python.Java和Go,这个也是我们团队的主要技术栈. Github:https:/ ...
egret之弹幕
要实现弹幕功能,首先需要将弹幕配置成配置表.然后代码随机生成. /**生成单个弹幕 */ private showCaptionAnim(captionText: string) { egret.lo ...
c3p0，dbcp与druid 三大连接池的区别[转]
说到druid,这个是在开源中国开源项目中看到的,说是比较好的数据连接池.于是乎就看看.扯淡就到这. 下面就讲讲用的比较多的数据库连接池.(其实我最先接触的是dbcp这个) 1)DBCP DBCP是一 ...
.NET Core 使用 K8S ConfigMap的正确姿势
背景 ASP.NET Core默认的配置文件定义在appsetings.json和appsettings.{Environment}.json文件中. 这里面有一个问题就是,在使用容器部署时,每次修改 ...
hdu6219 Empty Convex Polygons （最大空凸包板子
https://vjudge.net/contest/324256#problem/L 题意:给一堆点,求最大空凸包面积. 思路:枚举凸包左下角点O,dp找出以这个点为起始位置能构成的最大空凸包面积, ...
codeforces 766 C. Mahmoud and a Message（简单dp）
题目链接:http://codeforces.com/contest/766/problem/C 题意:给你一个长度为n的字符串,这个字符串只包含小写字母,然后让你把这个字符串进行分割,形成若干个小的 ...
abp(net core)+easyui+efcore实现仓储管理系统——菜单-下(十七)
实现仓储管理系统目录 abp(net core)+easyui+efcore实现仓储管理系统——ABP总体介绍(一) abp(net core)+easyui+efcore实现仓储管理系统——解决方案 ...
【Offer】[18-1] 【在O(1)时间内删除链表节点】
题目描述思路分析测试用例代码链接题目描述给定单向链表的头指针和一个结点指针,定义一个函数在O(1)时间删除该结点. 思路分析一般我们删除单链表中的节点是需要遍历链表,找到要删除节点的前一个 ...
如何设置FreePBX的数据库用户可以通过远程来连接Mysql数据库？
要满足mysql允许通过除了本机外的主机进行使用客户端连接的方法: 要设置root用户允许通过外网用户进行连接访问的操作方法: 1.首先先改mysql的配置文件将绑定的#bind-address = ...
HTML制作WORD表格
效果图 table属性 align:让内容居中,取值为left.right.center border:设置表格的边框 cellspacing:单元格与单元格之间的距离 bgcolor:表格的背景色 ...

提交第一个spark作业到集群运行

代码，写完之后，就是打包成一个jar文件

我们的架包上传好了之后，我们就可以启动spark集群了

提交第一个spark作业到集群运行的更多相关文章

随机推荐

热门专题