Spark中的多线程并发处理

Spark中的多任务处理

Spark的一个非常常见的用例是并行运行许多作业。构建作业DAG后，Spark将这些任务分配到多个Executor上并行处理。
但这并不能帮助我们在同一个Spark应用程序中同时运行两个完全独立的作业，例如同时从多个数据源读取数据并将它们写到对应的存储，或同时处理多个文件等。

每个spark应用程序都需要一个SparkSession(Context)来配置和执行操作。 SparkSession对象是线程安全的，可以根据需要传递给你的Spark应用程序。

顺序执行的例子

import org.apache.spark.sql.SparkSession

object FancyApp {

  def def appMain(args: Array[String]) = {

    // configure spark

    val spark = SparkSession

        .builder

        .appName("parjobs")

        .getOrCreate()

    val df = spark.sparkContext.parallelize( to ).toDF

    doFancyDistinct(df, "hdfs:///dis.parquet")

    doFancySum(df, "hdfs:///sum.parquet")

  }

  def doFancyDistinct(df: DataFrame, outPath: String) = df.distinct.write.parquet(outPath)

  def doFancySum(df: DataFrame, outPath: String) = df.agg(sum("value")).write.parquet(outPath)

}

优化后的例子

import org.apache.spark.sql.SparkSession

import import java.util.concurrent.Executors

import scala.concurrent._

import scala.concurrent.duration._

object FancyApp {

  def def appMain(args: Array[String]) = {

    // configure spark

    val spark = SparkSession

        .builder

        .appName("parjobs")

        .getOrCreate()

    // Set number of threads via a configuration property

    val pool = Executors.newFixedThreadPool()

    // create the implicit ExecutionContext based on our thread pool

    implicit val xc = ExecutionContext.fromExecutorService(pool)

    val df = spark.sparkContext.parallelize( to ).toDF

    val taskA = doFancyDistinct(df, "hdfs:///dis.parquet")

    val taskB = doFancySum(df, "hdfs:///sum.parquet")

    // Now wait for the tasks to finish before exiting the app

    Await.result(Future.sequence(Seq(taskA,taskB)), Duration(, MINUTES))

  }

  def doFancyDistinct(df: DataFrame, outPath: String)(implicit xc: ExecutionContext) = Future {

    df.distinct.write.parquet(outPath)

  }

  def doFancySum(df: DataFrame, outPath: String)(implicit xc: ExecutionContext) = Future {

    df.agg(sum("value")).write.parquet(outPath)

  }

}

java 实现例子

    val executors = Executors.newFixedThreadPool(threadPoolNum)

    val completionService = new ExecutorCompletionService[String](executors)

    for ((branch_id, dataList) <- summary) {

      logInfo(s"************** applicationId is ${applicationId} about Multi-threading starting: file is ${branch_id}")

      completionService.submit(new Callable[String] {

        override def call(): String = {

          new VerificationTest(spark, branch_id, dataList, separator).runJob()

          branch_id

        }

      })

    }

Spark中的多线程并发处理的更多相关文章

boost中asio网络库多线程并发处理实现，以及asio在多线程模型中线程的调度情况和线程安全。
1.实现多线程方法: 其实就是多个线程同时调用io_service::run for (int i = 0; i != m_nThreads; ++i) { boo ...
Spark中资源与任务的关系
在介绍Spark中的任务和资源之前先解释几个名词: Dirver Program:运行Application的main函数(用户提交的jar包中的main函数)并新建SparkContext实例的程序 ...
Spark中常用工具类Utils的简明介绍
<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析> ...
细说.NET 中的多线程 (一概念)
为什么使用多线程使用户界面能够随时相应用户输入当某个应用程序在进行大量运算时候,为了保证应用程序能够随时相应客户的输入,这个时候我们往往需要让大量运算和相应用户输入这两个行为在不同的线程中进行. ...
细说.NET中的多线程 (二线程池)
上一章我们了解到,由于线程的创建,销毁都是需要耗费大量资源和时间的,开发者应该非常节约的使用线程资源.最好的办法是使用线程池,线程池能够避免当前进行中大量的线程导致操作系统不停的进行线程切换,当线程数 ...
SPARK 中 DriverMemory和ExecutorMemory
spark中,不论spark-shell还是spark-submit,都可以设置memory大小,但是有的同学会发现有两个memory可以设置.分别是driver memory 和executor m ...
Scala 深入浅出实战经典第65讲：Scala中隐式转换内幕揭秘、最佳实践及其在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
Scala 深入浅出实战经典第61讲：Scala中隐式参数与隐式转换的联合使用实战详解及其在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载: 百度云盘:http://pan.baidu.com/s/1c0noOt ...
Scala 深入浅出实战经典第60讲：Scala中隐式参数实战详解以及在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...

随机推荐

jsp页面间的传值方法
JSP页面间传递参数是经常需要使用到的功能,有时还需要多个JSP页面间传递参数.下面介绍一下实现的方法. (1)直接在URL请求后添加如:< a href="thexuan.jsp? ...
Python2和Python3的安装以及pycharm安装，path环境变量的配置
一:安装python2.7过程步骤 1.官网下载pythonan安装包: ·输入python搜索 ·找到python官网,点击进入 ·鼠标放在Downloads上,在新弹出的选项中选择Windows, ...
maven工程的下载及其环境配置
Maven是一个项目管理工具,它给我们提供了好多有用的组件和工具. Maven下载: Maven下载载地址:http://maven.apache.org/download.cgi (1)进入下载界面 ...
malloc&&fread
const char *wavePath = [_filePath UTF8String]; FILE *fh; int16_t * adbuf; fh = fopen(wavePath, " ...
read -p 命令--shell 脚本
#!/bin/bash #This is a Program.it will show your full name. #2019/07/17 fsq PATH=/bin:/sbin:/usr/bin ...
3、Python 基础类型 -- List 列表类型
2.更新列表:list.append() 3.删除列表元素 del
Shiro学习（13）RememberMe
Shiro提供了记住我(RememberMe)的功能,比如访问如淘宝等一些网站时,关闭了浏览器下次再打开时还是能记住你是谁,下次访问时无需再登录即可访问,基本流程如下: 1.首先在登录页面选中Reme ...
自己写的一些Delphi常用函数
今天在整理以前写过的代码,发现有些函数还是挺实用的,决定将其贴到Blog上,与众多好友一起分享.{*************************************************** ...
python 模块-json
1.JSON(Javascript Object Notation) 是一种轻量级的数据交换格式.易于人阅读和编写.同时也易于机器解析和生成.它基于JavaScript Programming Lan ...
XSS的原理分析与解剖：第四章（编码与绕过）*******************未看**********************
0×01前言很抱歉,这第四章被我推了几个月,今天是元旦难得有空,就把第四章写下.我先把主要使用的编码说下,介绍完会说下绕过. 本文建议与<杂谈如何绕过WAF>一同阅读. 0×02 URL ...