将代码从 spark 1.x 移植到 spark 2.x

1. SparkSession

sparkSession可以视为sqlContext和hiveContext以及StreamingContext的结合体，这些Context的API都可以通过sparkSession使用。

创建SparkSession

val spark = SparkSession.builder
    .master("local[2]")
    .appName("spark session example")
    .getOrCreate()1234

使用enableHiveSupport就能够支持hive，相当于hiveContext

val spark = SparkSession.builder
    .master("local[2]")
    .appName("spark session example")
    .enableHiveSupport()
    .getOrCreate()12345

API操作，与之前的Context基本一致

//读取csv数据
val df0 = spark.read
.option("header","true")
.csv("src/main/resources/test.csv")

//读取parquet数据
val df1 = spark.read.parquet("...")

//读取json数据
val df2 = spark.read.json("...")

//sql查询
val df3 = spark.sql("xxx")
1234567891011121314

Spark 2.0向后兼容，所以hiveContext以及sqlContext依旧可用，不过官方建议开发者开始使用SparkSession。

2. DataSet,RDD,DataFrame

RDD

类型安全，面向对象编程风格，序列化以及反序列化开销大。
DataFrame

提供了查询优化器，分区剪枝，自动判断是否使用broadcast join等功能，对rdd进行了大量的优化。对spark了解不深的编程/分析人员非常友好。

可以视为Row类型的Dataset (Dataset[Row])，非类型安全，不是面向对象编程风格。
DataSet

继承了RDD和DataFrame的优点。数据以编码的二进制形式存储，将对象的schema映射为SparkSQL类型，不需要反序列化就可以进行shuffle等操作,每条记录存储的则是强类型值，类型安全，面向对象编程风格。

Dataset的创建

dataset可以从rdd,dataFrame转化，也可以从原始数据直接生成。

通过toDS方法创建

val ds1 = Seq("a","b").toDS()
ds1.show

//+-----+
//|value|
//+-----+
//| a|
//| b|
//+-----+123456789

通过createDataSet创建

case class Person(name: String, age: Int)
val data = Seq(Person("lsw", 23), Person("yyy", 22))
val ds2 = spark.createDataset(data)
ds2.show

//+----+---+
//|name|age|
//+----+---+
//| lsw| 23|
//| yyy| 22|
//+----+---+1234567891011

DataSet与RDD使用上的区别

Dataset 结合了 rdd 和 DataFrame 上大多数的API，所以spark 1.x基于 rdd 或 DataFrame 的代码可以很容易的改写成spark 2.x版本

数据读取

RDDs

sparkContext.textFile("/path/to/data.txt")1

Datasets

//返回 DataFrame
val df = spark.read.text("/path/to/data.txt")
//返回 DataSet[String]
val ds1 = spark.read.textFile("/path/to/data.txt")
//或者读取成DataFram再转化成Dataset
val ds2 = spark.read.text("/path/to/data.txt").as[String]123456
常用API

RDDs

//flatMap,filter
val lines = sc.textFile("/path/to/data.txt")
val res = lines
.flatMap(_.split(" "))
.filter(_ != "")

//reduce
val rdd = sc.makeRDD(Seq(1, 2, 3, 4))
rdd.reduce((a, b) => a + b)123456789

Datasets

//flatMap,filter
val lines = spark.read.textFile("/path/to/data.txt")
val res = lines
.flatMap(_.split(" "))
.filter(_ != "")

//reduce
val ds = Seq(1, 2, 3, 4).toDs
ds.reduce((a, b) => a + b)123456789
reduceByKey

RDDs

val reduceCountByRDD = wordsPair
.reduceByKey(_+_)12

Datasets

val reduceCountByDs = wordsPairDs
.mapGroups((key,values) =>(key,values.length))12
RDD，DataFrame，Dataset的相互转化

import spark.implicits._
//Dataset转化为RDD
val ds2rdd = ds.rdd
//Dataset转为DataFrame
val ds2df = ds.toDF

//RDD转化为Dataset
val rdd2ds = rdd.toDS
//RDD转化为DataFrame
val rdd2df = rdd.toDF

//DataFrame转化为RDD
val df2rdd = df.rdd
//DataFrame转化为DataSet
val df2ds = df.as[Type]
12345678910111213141516
wordCount

data.txt

hello world
hello spark12

RDDs

val rdd = sc.textFile("src/main/resources/data.txt")
val wordCount = rdd
.map(word => (word,1))
.reduceByKey(_+_)1234

Datasets

import spark.implicits._
val wordCount1 = lines
.flatMap(r => r.split(" "))
.groupByKey(r => r)
.mapGroups((k, v) => (k, v.length))
wordCount1.show
// +-----+--------+
// |value|count(1)|
// +-----+--------+
// |hello|       2|
// |spark|       1|
// |world|       1|
// +-----+--------+

//也可以直接使用count函数
val wordCount2 = lines
.flatMap(r => r.split(" "))
.groupByKey(v => v)
.count()
wordCount2.show
// +-----+---+
// | _1| _2|
// +-----+---+
// |hello| 2|
// |spark| 1|
// |world| 1|
// +-----+---+123456789101112131415161718192021222324252627

Dataset性能提升(来自官方)

3. Catalog

Spark 2.0中添加了标准的API（称为catalog）来访问Spark SQL中的元数据。这个API既可以操作Spark SQL，也可以操作Hive元数据。

获取catalog

从SparkSession中获取catalog

val catalog = spark.catalog1

查询临时表和元数据中的表

返回Dataset[Table]

创建临时表

使用createTempView和createOrReplaceTempView取代registerTempTable。

例如

df.createTempView("table")
df.createOrReplaceTempView("table")
12

createTempView

创建临时表，如果已存在同名表则报错。
createOrReplaceTempView

创建临时表，如果存在则进行替换，与老版本的registerTempTable功能相同。

销毁临时表

使用dropTempView取代dropTempTable，销毁临时表的同事会清除缓存的数据。

spark.dropTempView("table")
1

缓存表

对数据进行缓存

//缓存表有两种方式
df.cache
catalog.cacheTable("table")

//判断数据是否缓存
catalog.isCached("table")
123456

catalog相较于之前的API，对metadata的操作更加的简单，直观。

将代码从 spark 1.x 移植到 spark 2.x的更多相关文章

（一）Spark简介-Java&Python版Spark
Spark简介视频教程: 1.优酷 2.YouTube 简介: Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架.Spark在2013年6月进入Apache成为孵化项目,8个月 ...
Spark学习（四） -- Spark作业提交
标签(空格分隔): Spark 作业提交先回顾一下WordCount的过程: sc.textFile("README.rd").flatMap(line => line.s ...
Spark入门实战系列--1.Spark及其生态圈简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介年6月进入Apache成为孵化项目,8个月后成为Apache ...
Spark入门实战系列--3.Spark编程模型（上）--编程模型及SparkShell实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...
Spark入门实战系列--4.Spark运行架构
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 1. Spark运行架构 1.1 术语定义 lApplication:Spark Appli ...
Spark入门实战系列--7.Spark Streaming（上）--实时流计算Spark Streaming原理介绍
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...
Spark入门实战系列--7.Spark Streaming（下）--实时流计算Spark Streaming实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .实例演示 1.1 流数据模拟器 1.1.1 流数据说明在实例演示中模拟实际情况,需要源源 ...
Spark入门实战系列--8.Spark MLlib（上）--机器学习及SparkMLlib简介
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .机器学习概念 1.1 机器学习的定义在维基百科上对机器学习提出以下几种定义: l“机器学 ...
Spark入门实战系列--8.Spark MLlib（下）--机器学习库SparkMLlib实战
[注]该系列文章以及使用到安装包/测试数据可以在<倾情大奉送--Spark入门实战系列>获取 .MLlib实例 1.1 聚类实例 1.1.1 算法说明聚类(Cluster analys ...

随机推荐

python基本数据类型之字符串（五）
python基本数据类型之字符串(五) 遍历与查找 python中的字符串属于可迭代对象,通过一些方法可以遍历字符串中的每一个字符.而查找的方法主要有两个:find与index. 1.字符串的遍历字 ...
request接受表单数据中文乱码问题分析
这个问题困扰了我很久,今天就来探索探索. [页面乱码] 浏览器的默认编码格式和你的jsp中的编码格式不统一造成的.假如你的jsp的头编码设置为utf-8,但是浏览器设置的是gbk,就会乱码. [pos ...
C# 多线程举例使用
使用多线程的几种方式 (1)不需要传递参数,也不需要返回参数 ThreadStart是一个委托,这个委托的定义为void ThreadStart(),没有参数与返回值. /// <summa ...
另一个画风的GSS1 - Can you answer these queries I（猫树）
前言其实我觉得你看猫锟的解释也看不懂(主要是还有一些不良心的讲解者不讲清楚,当然这里不是针对了qwq) 猫锟链接 Solution 考虑我们的线段树是个啥玩意? 每一层都是一堆区间叠在一起. 我们在 ...
InnoDB体系架构（一）后台线程
InnoDB体系架构——后台线程上一篇已经了解了MySQL数据库的体系结构这一篇除了介绍InnoDB存储引擎的体系架构外,同时进一步了解InnoDB的后台线程. InnoDB存储引擎是多线程的模型 ...
Servlet案例3：验证码功能
这里介绍简单的验证码功能动态生成图片一个简单的页面: <!DOCTYPE html> <html> <head> <meta charset=" ...
LabVIEW（十二）：VI本地化-控件标题内容的修改
一.对于一般LabVIEW的学习,很少遇到本地化的问题但是我们经常会遇到界面控件标题的显示问题.由于各个技术领域的专业性,往往用户对VI界面的显示有自己的要求,其中就包括控件的标题问题,这可以理解成本 ...
Postgresql日志收集
PG安装完成后默认不会记录日志,必须修改对应的(${PGDATA}/postgresql.conf)配置才可以,这里只介绍常用的日志配置. 1.logging_collector = on/off ...
MySQL：索引
索引的目的在于提高查询效率,它的作用就相当于一本书的目录: 1. 常见的索引模型 1.1 哈希表优点:适用于等值查询的场景: 缺点:范围查询效率较低: 1.2 有序数组优点:范围查询和等值查询效率 ...
[EXP]Drupal < 8.5.11 / < 8.6.10 - RESTful Web Services unserialize() Remote Command Execution (Metasploit)
## # This module requires Metasploit: https://metasploit.com/download # Current source: https://gith ...

将代码从 spark 1.x 移植到 spark 2.x

将代码从 spark 1.x 移植到 spark 2.x的更多相关文章

随机推荐

热门专题