Spark通过打jar包形式提交任务

idea构建项目

创建一个maven项目，配置pom依赖，以及scala编译插件。注意一定要保证，你的scala版本和spark版本和要提交的集群版本一致，要不很多莫名其妙的问题，scala如果你在window安装的版本就是和集群不一样，又懒得重新装，可以看 2 中，通过idea配置版本，并在编译插件里面指定好scala编译版本

<?xml version="1.0" encoding="UTF-8"?>

<project xmlns="http://maven.apache.org/POM/4.0.0"

         xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"

         xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">

    <modelVersion>4.0.0</modelVersion>

    <groupId>org.example</groupId>

    <artifactId>sparkextract</artifactId>

    <version>1.0-SNAPSHOT</version>

    <properties>

        <maven.compiler.source>8</maven.compiler.source>

        <maven.compiler.target>8</maven.compiler.target>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-hive_2.11</artifactId>

            <version>2.4.8</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_2.11</artifactId>

            <version>2.4.8</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.11</artifactId>

            <version>2.4.8</version>

        </dependency>

        <dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-library</artifactId>

            <version>2.11.12</version>

        </dependency>

    </dependencies>

    <build>

        <sourceDirectory>src/main/scala</sourceDirectory>

        <plugins>

            <plugin>

                <groupId>net.alchim31.maven</groupId>

                <artifactId>scala-maven-plugin</artifactId>

                <version>4.7.2</version>

                <configuration>

                    <scalaVersion>2.11.12</scalaVersion>

                </configuration>

            </plugin>

        </plugins>

    </build>

</project>

配置scala的SDK， idea选项栏 File -> Project Structure -> Global Libraries

点击 + 号，选择一致的scala版本
编辑你的代码, 需要注意，SparkConf里，不要配置master的内容，否则在submit提交的时候，指定的master会失效。

import org.apache.spark.rdd.RDD

import org.apache.spark.{SparkConf, SparkContext}

object WordCount{

  def main(args: Array[String]):Unit = {

    // spark配置新建

    val sparkConf = new SparkConf().setAppName("Operator")

    // spark上下文对象

    val spark: SparkContext = SparkContext.getOrCreate(sparkConf)

    // wordcount逻辑开始

    val inPath: String = "hdfs:///user/zhangykun0508/exe.log"

    val outPath: String = "hdfs:///user/zhangykun0508/wc.out"

    val file: RDD[String] = spark.textFile(inPath)

    val result: RDD[(String, Int)] = file.flatMap(a => a.split(" ")).map(a => (a, 1)).reduceByKey(_ + _)

    result.saveAsTextFile(outPath)

  }

}

打jar包，注意先要用 scala插件编译，然后再用maven打包

任务提交

我这边提交的方式为提交到yarn上。将上一步打包好的jar文件，传到hadoop的节点，然后按以下命令执行

spark-submit \

--class WordCount \

--conf inPath=hdfs:///user/zhangykun0508/exe.log outPath=hdfs:///user/zhangykun0508 \

--master yarn \

--deploy-mode cluster \

./sparkextract.jar \

10

-- 命令解析

spark-submit \        # 执行spark-submit应用

--class WordCount \     # 指定本次任务的Main方法所在的类， 如果你的程序比较规范，记得要输入包名，如： com.zyk.sparktest.WordCount

--master yarn \         # 指定任务提交的方式为yarn

--deploy-mode cluster \  # 指定yarn的部署方式为 cluster, 即由yarn创建的 ApplicationMaster来运行创建driver

./sparkextract.jar \     # 指定你要执行的jar包

10                       # 设置默认的任务数量

Spark通过打jar包形式提交任务的更多相关文章

maven项目导出依赖的Jar包以及项目本身以jar包形式导出详细教程
一.maven项目已jar包形式导出 1.首先右键项目,选择Export 2.选择好项目,设置导出路径和jar名字即可: 二.导出maven项目所依赖的所有jar包 1.右键项目,选择Export 2 ...
WebJars简介 —— 前端资源的jar包形式（以后接触到再深入总结）
对于日常的web开发而言,像css.js.images.font等静态资源文件管理是非常的混乱的.比如jQuery.Bootstrap.Vue.js等,可能每个框架使用的版本都不一样.一不注意就会出现 ...
[Spark Core] Spark 使用第三方 Jar 包的方式
0. 说明 Spark 下运行job,使用第三方 Jar 包的 3 种方式. 1. 方式一将第三方 Jar 包分发到所有的 spark/jars 目录下 2. 方式二将第三方 Jar 打散,和我们 ...
spark项目打jar包，不包含依赖包问题的解决方案
mvn clean package打包maven-archetype-webapp项目时,打包后的jar包含项目中引用的jar包(解压后,在WEB-INF有一个lib目录,该目录下有所有依赖包). m ...
Springboot打包成jar包形式发布
1.修改配置文件pom.xml 添加打包形式设置为jar形式 <packaging>jar</packaging> 2.在build标签内添加内容如下 finalname为打包 ...
如何在gradle项目中添加额外非开源jar包并提交代码
前提:项目开发中,遇到一个地方需要用到公司自定义的jar包,然后要放到代码里又不方便提交到私服具体实施: 首先在项目中增加一个 libs目录,然后把这种非开源又不在私服上的jar包扔进去, 然后打开 ...
Flink源码剖析：Jar包任务提交流程
Flink基于用户程序生成JobGraph,提交到集群进行分布式部署运行.本篇从源码角度讲解一下Flink Jar包是如何被提交到集群的.(本文源码基于Flink 1.11.3) 1 Flink ru ...
HDFS的java客户端操作代码(Windows上面打jar包，提交至linux运行)
1.通过java.net.URL实现屏幕显示demo1文件的内容 package Hdfs; import java.io.InputStream; import java.net.URL; impo ...
[Android] Android工程以jar包形式向第三方应用提供服务
参考: http://www.cnblogs.com/0616--ataozhijia/p/4094952.html 以API 19为例: 系统默认提供的 android.jar整体大小为: 21.8 ...
Eclipse中将java类打成jar包形式运行
记录一次帮助小伙伴将java类打成jar包运行 1.创建java project项目 file > new > project > java project 随便起一个项目名称,fi ...

随机推荐

Karmada v1.3：更优雅更精准更高效
摘要:最新发布的1.3版本中,Karmada重新设计了应用跨集群故障迁移功能,实现了基于污点的故障驱逐机制,并提供平滑的故障迁移过程,可以有效保障服务迁移过程的连续性(不断服). 本文分享自华为云社区 ...
[python]-random模块-手动随机数
random模块通常用来生成随机数,结合time模块生成随机数的代码: import time import random random.seed(time.time()) x = random.ra ...
在vm中安装centos7
步骤: 1.打开VMware Worktation,点击"创建新的虚拟机": 2.一般选择"典型(推荐)",之后下一步. 3.选择"稍后安装操作系统& ...
Beats: 使用 Filebeat 进行日志结构化
文章转载自:https://blog.csdn.net/UbuntuTouch/article/details/106688240 生产一个叫做 json_logs 的文件: {"user_ ...
2_爬豆瓣电影_ajax动态加载
爬豆瓣什么是 AJAX ? AJAX 是一种在无需重新加载整个网页的情况下,能够更新部分网页的技术. AJAX = Asynchronous JavaScript and XML(AJAX = 异步 ...
【持久层框架】- SpringData - JPA
SpringData - JPA 生命不息,写作不止继续踏上学习之路,学之分享笔记总有一天我也能像各位大佬一样一个有梦有戏的人 @怒放吧德德分享学习心得,欢迎指正,大家一起学习成长! JPA简 ...
关于docker创建容器报错-docker: Error response from daemon: runtime "io.containerd.runc.v2" binary not installed
今天在对一台服务器(docker相关的业务服务器)进行OS补丁时,默认使用的 yum update -y 对所有的安装包进行了升级升级完成后,让应用方检查确认应用及功能是否一切正常,如果不正常,严重 ...
P1886 滑动窗口 /【模板】单调队列方法记录
原题链接滑动窗口 /[模板]单调队列题目描述有一个长为 \(n\) 的序列 \(a\),以及一个大小为 \(k\) 的窗口.现在这个从左边开始向右滑动,每次滑动一个单位,求出每次滑动后窗口中的最 ...
python基础-较复杂数据类型预览
1.初识列表列表就是队列: 列表是一种有序的,且内容可重复的数据类型: 用list代表列表,也可以用list()定义一个列表,同时定义列表可以直接使用 [ ]: python中列表是 ...
驱动开发：内核枚举ShadowSSDT基址
在笔者上一篇文章<驱动开发:Win10枚举完整SSDT地址表>实现了针对SSDT表的枚举功能,本章继续实现对SSSDT表的枚举,ShadowSSDT中文名影子系统服务描述表,SSSDT其主 ...

Spark通过打jar包形式提交任务

idea构建项目

任务提交

Spark通过打jar包形式提交任务的更多相关文章

随机推荐

热门专题