Spark之Pipeline处理模式

一.简介

　　Pipeline管道计算模式：只是一种计算思想，在数据处理的整个流程中，就想水从管道流过一下，是顺序执行的。

二.特点

　　1.数据一直在管道中，只有在对RDD进行持久化【cache,persist...】或shuffle write时才会落地。

　　2.管道中的处理也是懒加载的，只有遇到action算子之后才会执行。

三.代码验证

package big.data.analyse.scala.pipeline

import org.apache.log4j.{Level, Logger}

import org.apache.spark.sql.SparkSession

/**

  * Created by zhen on 2019/4/4.

  */

object RDDPipelineAnalyse {

  Logger.getLogger("org").setLevel(Level.INFO) // 设置日志级别

  def main(args: Array[String]) {

    val spark = SparkSession.builder().appName("检测spark数据处理pipeline")

      .master("local[2]").getOrCreate()

    val sc = spark.sparkContext

    val rdd = sc.parallelize(Array(1,2,3,4,5,6))

    println("rdd partition size : " + rdd.partitions.length)

    val rdd1 = rdd.map{ x => {

      println("map--------"+x)

      x * 10

    }}

    val rdd2 = rdd1.filter{ x => {

      println("fliter========"+x)

      true

    } }

    rdd2.collect()

    sc.stop()

  }

}

四.执行结果

五.分析

　　管道处理是先进先出的，也就是先进先执行，这只对具体到每条数据而言，不同条数据的执行先后没有固定的顺序。

因此不能根据原始数据的顺序确定处理的顺序。

Spark之Pipeline处理模式的更多相关文章

大数据学习day34---spark14------1 redis的事务(pipeline)测试，2. 利用redis的pipeline实现数据统计的exactlyonce ，3 SparkStreaming中数据写入Hbase实现ExactlyOnce， 4.Spark StandAlone的执行模式，5 spark on yarn
1 redis的事务(pipeline)测试 Redis本身对数据进行操作,单条命令是原子性的,但事务不保证原子性,且没有回滚.事务中任何命令执行失败,其余的命令仍会被执行,将Redis的多个操作放到 ...
使用spark ml pipeline进行机器学习
一.关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程 1.源数据ETL 2.数据预处理 3.特征选取 4.模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的 ...
Spark新手入门——3.Spark集群(standalone模式)安装
主要包括以下三部分,本文为第三部分: 一. Scala环境准备查看二. Hadoop集群(伪分布模式)安装查看三. Spark集群(standalone模式)安装 Spark集群(standalo ...
laravel5.5源码笔记（五、Pipeline管道模式）
Pipeline管道模式,也有人叫它装饰模式.应该说管道是装饰模式的一个变种,虽然思想都是一样的,但这个是闭包的版本,实现方式与传统装饰模式也不太一样.在laravel的源码中算是一个比较核心的设计模 ...
Spark ML Pipeline简介
Spark ML Pipeline基于DataFrame构建了一套High-level API,我们可以使用MLPipeline构建机器学习应用,它能够将一个机器学习应用的多个处理过程组织起来,通过在 ...
spark ml pipeline构建机器学习任务
一.关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程 1.源数据ETL 2.数据预处理 3.特征选取 4.模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的流 ...
spark集群运行模式
spark的集中运行模式 Local .Standalone.Yarn 关闭防火墙:systemctl stop firewalld.service 重启网络服务:systemctl restart ...
spark ML pipeline 学习
一.pipeline 一个典型的机器学习过程从数据收集开始,要经历多个步骤,才能得到需要的输出.这非常类似于流水线式工作,即通常会包含源数据ETL(抽取.转化.加载),数据预处理,指标提取,模型训练与 ...
Spark之Yarn提交模式
一.Client模式提交命令: ./spark-submit --master yarn --class org.apache.examples.SparkPi ../lib/spark-examp ...

随机推荐

[Swift]LeetCode722. 删除注释 | Remove Comments
Given a C++ program, remove comments from it. The program source is an array where source[i] is the ...
HTML常用特殊字符编码对照表以及其对应英文
符号说明对应编码(使用时去掉空格) 英文 & AND 符号 & amp; ampersand < 小于 & lt; little > 大于 & gt; ...
并发编程（十五）——定时器 ScheduledThreadPoolExecutor 实现原理与源码深度解析
在上一篇线程池的文章<并发编程(十一)—— Java 线程池实现原理与源码深度解析(一)>中从ThreadPoolExecutor源码分析了其运行机制.限于篇幅,留下了Scheduled ...
IdentityServer4之Client Credentials（客户端凭据许可）
IdentityServer4之Client Credentials(客户端凭据许可) 参考项目创建:0_overview,1_client_credentials 概念:客户端凭据许可认证服务端 ...
ASP.NET Core WebAPI中的分析工具MiniProfiler
介绍作为一个开发人员,你知道如何分析自己开发的Api性能么? 在Visual Studio和Azure中, 我们可以使用Application Insight来监控项目.除此之外我们还可以使用一个免 ...
transient和synchronized的使用
transient和synchronized这两个关键字没什么联系,这两天用到了它们,所以总结一下,两个关键字做个伴! transient 持久化时不被存储,当你的对象实现了Serializable接 ...
Python模块查找路径
在编写Python程序时候命名在IDE中运行正常可是到了服务器上就出现各种问题,经常发生的就是如下的错误: ImportError: No module named 'hello' 这个错误我相信大家 ...
如何理解git checkout -- file和git reset HEAD -- file
http://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000/001374831943254ee ...
alibaba / zeus 安装图解
一.首先需要到https://github.com/alibaba/zeus下载相应的安装文件二.解压缩导入到eclipse工程
[八]基础数据类型之Double详解
Double 基本数据类型double 的包装类 Double 类型的对象包含一个 double 类型的字段属性简介用来以二进制补码形式表示 double 值的比特位数 public sta ...

Spark之Pipeline处理模式

Spark之Pipeline处理模式的更多相关文章

随机推荐

热门专题