Spark中的多线程并发处理

Spark中的多任务处理

Spark的一个非常常见的用例是并行运行许多作业。构建作业DAG后，Spark将这些任务分配到多个Executor上并行处理。
但这并不能帮助我们在同一个Spark应用程序中同时运行两个完全独立的作业，例如同时从多个数据源读取数据并将它们写到对应的存储，或同时处理多个文件等。

每个spark应用程序都需要一个SparkSession(Context)来配置和执行操作。 SparkSession对象是线程安全的，可以根据需要传递给你的Spark应用程序。

顺序执行的例子

import org.apache.spark.sql.SparkSession

object FancyApp {

  def def appMain(args: Array[String]) = {

    // configure spark

    val spark = SparkSession

        .builder

        .appName("parjobs")

        .getOrCreate()

    val df = spark.sparkContext.parallelize( to ).toDF

    doFancyDistinct(df, "hdfs:///dis.parquet")

    doFancySum(df, "hdfs:///sum.parquet")

  }

  def doFancyDistinct(df: DataFrame, outPath: String) = df.distinct.write.parquet(outPath)

  def doFancySum(df: DataFrame, outPath: String) = df.agg(sum("value")).write.parquet(outPath)

}

优化后的例子

import org.apache.spark.sql.SparkSession

import import java.util.concurrent.Executors

import scala.concurrent._

import scala.concurrent.duration._

object FancyApp {

  def def appMain(args: Array[String]) = {

    // configure spark

    val spark = SparkSession

        .builder

        .appName("parjobs")

        .getOrCreate()

    // Set number of threads via a configuration property

    val pool = Executors.newFixedThreadPool()

    // create the implicit ExecutionContext based on our thread pool

    implicit val xc = ExecutionContext.fromExecutorService(pool)

    val df = spark.sparkContext.parallelize( to ).toDF

    val taskA = doFancyDistinct(df, "hdfs:///dis.parquet")

    val taskB = doFancySum(df, "hdfs:///sum.parquet")

    // Now wait for the tasks to finish before exiting the app

    Await.result(Future.sequence(Seq(taskA,taskB)), Duration(, MINUTES))

  }

  def doFancyDistinct(df: DataFrame, outPath: String)(implicit xc: ExecutionContext) = Future {

    df.distinct.write.parquet(outPath)

  }

  def doFancySum(df: DataFrame, outPath: String)(implicit xc: ExecutionContext) = Future {

    df.agg(sum("value")).write.parquet(outPath)

  }

}

java 实现例子

    val executors = Executors.newFixedThreadPool(threadPoolNum)

    val completionService = new ExecutorCompletionService[String](executors)

    for ((branch_id, dataList) <- summary) {

      logInfo(s"************** applicationId is ${applicationId} about Multi-threading starting: file is ${branch_id}")

      completionService.submit(new Callable[String] {

        override def call(): String = {

          new VerificationTest(spark, branch_id, dataList, separator).runJob()

          branch_id

        }

      })

    }

Spark中的多线程并发处理的更多相关文章

boost中asio网络库多线程并发处理实现，以及asio在多线程模型中线程的调度情况和线程安全。
1.实现多线程方法: 其实就是多个线程同时调用io_service::run for (int i = 0; i != m_nThreads; ++i) { boo ...
Spark中资源与任务的关系
在介绍Spark中的任务和资源之前先解释几个名词: Dirver Program:运行Application的main函数(用户提交的jar包中的main函数)并新建SparkContext实例的程序 ...
Spark中常用工具类Utils的简明介绍
<深入理解Spark:核心思想与源码分析>一书前言的内容请看链接<深入理解SPARK:核心思想与源码分析>一书正式出版上市 <深入理解Spark:核心思想与源码分析> ...
细说.NET 中的多线程 (一概念)
为什么使用多线程使用户界面能够随时相应用户输入当某个应用程序在进行大量运算时候,为了保证应用程序能够随时相应客户的输入,这个时候我们往往需要让大量运算和相应用户输入这两个行为在不同的线程中进行. ...
细说.NET中的多线程 (二线程池)
上一章我们了解到,由于线程的创建,销毁都是需要耗费大量资源和时间的,开发者应该非常节约的使用线程资源.最好的办法是使用线程池,线程池能够避免当前进行中大量的线程导致操作系统不停的进行线程切换,当线程数 ...
SPARK 中 DriverMemory和ExecutorMemory
spark中,不论spark-shell还是spark-submit,都可以设置memory大小,但是有的同学会发现有两个memory可以设置.分别是driver memory 和executor m ...
Scala 深入浅出实战经典第65讲：Scala中隐式转换内幕揭秘、最佳实践及其在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...
Scala 深入浅出实战经典第61讲：Scala中隐式参数与隐式转换的联合使用实战详解及其在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载: 百度云盘:http://pan.baidu.com/s/1c0noOt ...
Scala 深入浅出实战经典第60讲：Scala中隐式参数实战详解以及在Spark中的应用源码解析
王家林亲授<DT大数据梦工厂>大数据实战视频 Scala 深入浅出实战经典(1-87讲)完整视频.PPT.代码下载:百度云盘:http://pan.baidu.com/s/1c0noOt6 ...

随机推荐

（转）GitHub上想下载单个文件方法
找到该文件,单机raw,如下图: 然后会在网页打开该文件,复制URL,下载即可(如果是不可预览文件,会自动下载). 转自: GitHub上想下载单个文件方法 - Smallcaff的博客 - CSDN ...
字符串模式匹配算法系列（三）：Trie树及AC改进算法
Trie树的python实现(leetcode 208) #!/usr/bin/env python #-*- coding: utf-8 -*- import sys import pdb relo ...
css3水平垂直居中（不知道宽高同样适用）
css水平垂直居中第一种方法: 在父div里加: display: table-cell; vertical-align: middle; text-align: center; 内部div设置: ...
力扣算法——138CopyListWithRandomPointer【M】
A linked list is given such that each node contains an additional random pointer which could point t ...
Catch and Buffer
通常人们所说的Cache就是指缓存SRAM. SRAM叫静态内存,“静态”指的是当我们将一笔数据写入SRAM后,除非重新写入新数据或关闭电源,否则写入的数据保持不变. 由于CPU的速度比内存和硬盘的速 ...
spark复习总结01
1.MapReduce和spark的对比 MapReduce Spark 数据存储结构:磁盘hdfs文件系统的split 使用内存构建弹性分布式数据集RDD,对数据进行运算和cache 编程范式:Ma ...
UVALive 4794 Sharing Chocolate
Sharing Chocolate Chocolate in its many forms is enjoyed by millions of people around the world ever ...
java web session共享
一搭建环境操作系统:windows 7 64位 http server:nginx 1.9.7 缓存系统:memcached Servlet容器:apache-tomcat-7.0.65 二搭建 ...
tac - 反转显示文件
总览 (SYNOPSIS) ../src/tac [OPTION]... [FILE]... 描述 (DESCRIPTION) 把每个文件 FILE 显示在标准输出, 后面的行放在前面. ...
Begin at this time
学习了一段时间的Python,今天终于下定决心建立博客来记录自己的机器学习之路了.希望这是一个好的开始,希望自己永远不放弃,坚持努力下去.