1. SparkSession
sparkSession可以视为sqlContext和hiveContext以及StreamingContext的结合体,这些Context的API都可以通过sparkSession使用。
创建SparkSession
 
val spark = SparkSession.builder
    .master("local[2]")
    .appName("spark session example")
    .getOrCreate()1234
使用enableHiveSupport就能够支持hive,相当于hiveContext
 
val spark = SparkSession.builder
    .master("local[2]")
    .appName("spark session example")
    .enableHiveSupport()
    .getOrCreate()12345
API操作,与之前的Context基本一致
 
//读取csv数据
val df0 = spark.read
  .option("header","true")
  .csv("src/main/resources/test.csv")
//读取parquet数据
val df1 = spark.read.parquet("...")
//读取json数据
val df2 = spark.read.json("...")
//sql查询
val df3 = spark.sql("xxx")
1234567891011121314
Spark 2.0向后兼容,所以hiveContext以及sqlContext依旧可用,不过官方建议开发者开始使用SparkSession。
 
2. DataSet,RDD,DataFrame
RDD
类型安全,面向对象编程风格,序列化以及反序列化开销大。
DataFrame
提供了查询优化器,分区剪枝,自动判断是否使用broadcast join等功能,对rdd进行了大量的优化。对spark了解不深的编程/分析人员非常友好。
可以视为Row类型的Dataset (Dataset[Row]),非类型安全,不是面向对象编程风格。
DataSet
继承了RDD和DataFrame的优点。数据以编码的二进制形式存储,将对象的schema映射为SparkSQL类型,不需要反序列化就可以进行shuffle等操作,每条记录存储的则是强类型值,类型安全,面向对象编程风格。
 
Dataset的创建
dataset可以从rdd,dataFrame转化,也可以从原始数据直接生成。
通过toDS方法创建
 
val ds1 = Seq("a","b").toDS()
ds1.show
//+-----+
//|value|
//+-----+
//|    a|
//|    b|
//+-----+123456789
通过createDataSet创建
 
case class Person(name: String, age: Int)
val data = Seq(Person("lsw", 23), Person("yyy", 22))
val ds2 = spark.createDataset(data)
ds2.show
//+----+---+
//|name|age|
//+----+---+
//| lsw| 23|
//| yyy| 22|
//+----+---+1234567891011
 
DataSet与RDD使用上的区别
Dataset 结合了 rdd 和 DataFrame 上大多数的API,所以spark 1.x基于 rdd 或 DataFrame 的代码可以很容易的改写成spark 2.x版本
数据读取
RDDs
sparkContext.textFile("/path/to/data.txt")1
Datasets
//返回 DataFrame
val df = spark.read.text("/path/to/data.txt")
//返回 DataSet[String]
val ds1 = spark.read.textFile("/path/to/data.txt")
//或者读取成DataFram再转化成Dataset
val ds2 = spark.read.text("/path/to/data.txt").as[String]123456
常用API
RDDs
//flatMap,filter
val lines = sc.textFile("/path/to/data.txt")
val res = lines
  .flatMap(_.split(" "))
  .filter(_ != "")
//reduce
val rdd = sc.makeRDD(Seq(1, 2, 3, 4))
rdd.reduce((a, b) => a + b)123456789
Datasets
//flatMap,filter
val lines = spark.read.textFile("/path/to/data.txt")
val res = lines
  .flatMap(_.split(" "))
  .filter(_ != "")
//reduce
val ds = Seq(1, 2, 3, 4).toDs
ds.reduce((a, b) => a + b)123456789
reduceByKey
RDDs
val reduceCountByRDD = wordsPair
  .reduceByKey(_+_)12
Datasets
val reduceCountByDs = wordsPairDs
  .mapGroups((key,values) =>(key,values.length))12
RDD,DataFrame,Dataset的相互转化
import spark.implicits._
//Dataset转化为RDD
val ds2rdd = ds.rdd
//Dataset转为DataFrame
val ds2df = ds.toDF
//RDD转化为Dataset
val rdd2ds = rdd.toDS
//RDD转化为DataFrame
val rdd2df = rdd.toDF
//DataFrame转化为RDD
val df2rdd = df.rdd
//DataFrame转化为DataSet
val df2ds = df.as[Type]
12345678910111213141516
wordCount
data.txt
hello world
hello spark12
RDDs
val rdd = sc.textFile("src/main/resources/data.txt")
val wordCount = rdd
  .map(word => (word,1))
  .reduceByKey(_+_)1234
Datasets
import spark.implicits._
val wordCount1 = lines
  .flatMap(r => r.split(" "))
  .groupByKey(r => r)
  .mapGroups((k, v) => (k, v.length))
wordCount1.show
//  +-----+--------+
//  |value|count(1)|
//  +-----+--------+
//  |hello|       2|
//  |spark|       1|
//  |world|       1|
//  +-----+--------+
//也可以直接使用count函数
val wordCount2 = lines
  .flatMap(r => r.split(" "))
  .groupByKey(v => v)
  .count()
wordCount2.show
//  +-----+---+
//  |   _1| _2|
//  +-----+---+
//  |hello|  2|
//  |spark|  1|
//  |world|  1|
//  +-----+---+123456789101112131415161718192021222324252627
Dataset性能提升(来自官方)
 
 
 
3. Catalog
Spark 2.0中添加了标准的API(称为catalog)来访问Spark SQL中的元数据。这个API既可以操作Spark SQL,也可以操作Hive元数据。
 
获取catalog
从SparkSession中获取catalog
 
val catalog = spark.catalog1
 
查询临时表和元数据中的表
返回Dataset[Table]
catalog.listTable.show
//  +----+--------+-----------+---------+-----------+
//  |name|database|description|tableType|isTemporary|
//  +----+--------+-----------+---------+-----------+
//  |table|   null|      null|TEMPORARY|        true|
//  |act | default|      null| EXTERNAL|       false|
//  +----+--------+-----------+---------+-----------+
1234567
 
创建临时表
使用createTempView和createOrReplaceTempView取代registerTempTable。
例如   
df.createTempView("table")
df.createOrReplaceTempView("table")
12
createTempView
创建临时表,如果已存在同名表则报错。
createOrReplaceTempView
创建临时表,如果存在则进行替换,与老版本的registerTempTable功能相同。
 
销毁临时表
使用dropTempView取代dropTempTable,销毁临时表的同事会清除缓存的数据。
spark.dropTempView("table")
1
 
缓存表
对数据进行缓存
//缓存表有两种方式
df.cache
catalog.cacheTable("table")
//判断数据是否缓存
catalog.isCached("table")
123456
catalog相较于之前的API,对metadata的操作更加的简单,直观。

将代码从 spark 1.x 移植到 spark 2.x的更多相关文章

  1. (一)Spark简介-Java&Python版Spark

    Spark简介 视频教程: 1.优酷 2.YouTube 简介: Spark是加州大学伯克利分校AMP实验室,开发的通用内存并行计算框架.Spark在2013年6月进入Apache成为孵化项目,8个月 ...

  2. Spark学习(四) -- Spark作业提交

    标签(空格分隔): Spark 作业提交 先回顾一下WordCount的过程: sc.textFile("README.rd").flatMap(line => line.s ...

  3. Spark入门实战系列--1.Spark及其生态圈简介

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .简介 1.1 Spark简介 年6月进入Apache成为孵化项目,8个月后成为Apache ...

  4. Spark入门实战系列--3.Spark编程模型(上)--编程模型及SparkShell实战

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Spark编程模型 1.1 术语定义 l应用程序(Application): 基于Spar ...

  5. Spark入门实战系列--4.Spark运行架构

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 1. Spark运行架构 1.1 术语定义 lApplication:Spark Appli ...

  6. Spark入门实战系列--7.Spark Streaming(上)--实时流计算Spark Streaming原理介绍

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Spark Streaming简介 1.1 概述 Spark Streaming 是Spa ...

  7. Spark入门实战系列--7.Spark Streaming(下)--实时流计算Spark Streaming实战

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .实例演示 1.1 流数据模拟器 1.1.1 流数据说明 在实例演示中模拟实际情况,需要源源 ...

  8. Spark入门实战系列--8.Spark MLlib(上)--机器学习及SparkMLlib简介

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .机器学习概念 1.1 机器学习的定义 在维基百科上对机器学习提出以下几种定义: l“机器学 ...

  9. Spark入门实战系列--8.Spark MLlib(下)--机器学习库SparkMLlib实战

    [注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .MLlib实例 1.1 聚类实例 1.1.1 算法说明 聚类(Cluster analys ...

随机推荐

  1. ABP框架系列之六:(Value-Objects-值对象)

    Introduction "An object that represents a descriptive aspect of the domain with no conceptual i ...

  2. 14. The Realities of Telecommuting 远程办公的现状

    14. The Realities of Telecommuting 远程办公的现状 (1) Telecommuting——substituting the computer for the trip ...

  3. Mysql中比较常用的两种存储引擎和事务

    存储引擎:引擎(类似汽车上的发动机)决定了数据库的快慢,MySql中有20多个引擎,不同的存储引擎提供不同的存储机制.索引技巧.锁定水平.MYISAM存储引擎,INNODB存储引擎最出名.数据库的核心 ...

  4. Vuejs——(13)组件——杂项

    版权声明:出处http://blog.csdn.net/qq20004604   目录(?)[+]   本篇资料来于官方文档: http://cn.vuejs.org/guide/components ...

  5. linux安装nodejs运行vue程序

    linux安装nodejs运行vue程序 1.与node官网下载安装包 https://nodejs.org/zh-cn/download/ 6.上传到服务器,并解压 tar -xvf node-v1 ...

  6. Javascript多线程

    最近项目中要用一个倒计时,但是当弹窗的时候倒计时会被阻塞,所以我想到使用Javascript多线程解决该问题. 虽然JavaScript是单线程的,但是通过worker可以让Javascript另外开 ...

  7. 使用 PLSQL 提示动态执行表不可访问,本会话的自动统计被禁止

    使用PLSQL,第一次执行表的select操作的时候,提示"动态执行表不可访问,本会话的自动统计被禁止",如上图: 这种问题,一看就是当前连接用户没有对sys用户下的表v$sess ...

  8. rabbitmq基础学习+springboot结合rabbitmq实现回调确认confirm

    rabbitmq集群docker快速搭建 https://blog.csdn.net/u011058700/article/details/78708767 rabbitmq原理博客 https:// ...

  9. TI 开发板安装USB转串口驱动

    使用TI开发板的时候,USB转串口驱动没有,显示,无法识别设备.搜了好久才搜到相关驱动. 做个记录. 链接: https://pan.baidu.com/s/1ZT5zzVcU727jrYacKVoT ...

  10. 记Booking.com iOS开发岗位线上笔试

    今晚参加了Booking的iOS职位线上笔试,结束后方能简单归纳一下. 关于测试内容: Booking采用了HackerRank作为测试平台,测试总时长为75分钟,总计4道题. 测试之前我很紧张,因为 ...