Spark(十二)【SparkSql中数据读取和保存】

一. 读取和保存说明

SparkSQL提供了通用的保存数据和数据加载的方式，还提供了专用的方式

读取：通用和专用

保存

保存有四种模式：

  默认： error :  输出目录存在就报错

        append:  向输出目录追加

        overwrite : 覆盖写

        ignore:  忽略，不写

二. 数据格式

1. Parquet

Spark SQL的默认数据源为Parquet格式。Parquet是一种能够有效存储嵌套数据的列式存储格式。

数据源为Parquet文件时，Spark SQL可以方便的执行所有的操作，不需要使用format。修改配置项spark.sql.sources.default，可修改默认数据源格式。

读取

val df = spark.read.load("examples/src/main/resources/users.parquet")

保存

//读取json文件格式

var df = spark.read.json("/opt/module/data/input/people.json")

//保存为parquet格式

df.write.mode("append").save("/opt/module/data/output")

2. Json

Spark SQL 能够自动推测JSON数据集的结构，并将它加载为一个Dataset[Row]. 可以通过SparkSession.read.json()去加载JSON 文件。

注意：Spark读取的JSON文件不是传统的JSON文件，每一行都应该是一个JSON串。

数据格式：employees.json

{"name":"Michael"}

{"name":"Andy"， "age":30}

1）导入隐式转换

import spark.implicits._

2）读取Json文件

//专用的读取

val df1: DataFrame = sparkSession.read.json("input/employees.json")

//通用读取

val df: DataFrame = sparkSession.read.format("json").load("input/employees.json")

3）保存为Json文件

    //导隐式包，转为DataSet

    import sparkSession.implicits.

    val ds: Dataset[Emp] = rdd.toDS()

    ds.write.mode("overwrite")json("output/emp.json")

3. CSV

CSV: 逗号作为字段分割符的文件

tsv: \t,tab作为字段分割符的文件

读取

    // 通用的读取

    val df: DataFrame = sparkSession.read.format("csv").load("input/person.csv")

    // 专用的读

    val df1: DataFrame = sparkSession.read.csv("input/person.csv")

保存

CSV的参数可以到DataFrameReader 609行查看

//DataFrame

df1.write.option("sep",",").mode("overwrite").csv("output/csv")

4. Mysql

读取

    val props = new Properties()

    /*

        JDBC中能写什么参数，参考 JDBCOptions 223行

     */

    props.put("user","root")

    props.put("password","root")

    //库名

    val df: DataFrame = sparkSession.read.jdbc("jdbc:mysql://localhost:3306/spark_test", "tbl_user", props)

    // 全表查询    只显示前N条

    df.show()

    //指定查询

    df.createTempView("user")

    sparkSession.sql("select * from user where id > 5").show()

	 //通用的读

通用的读

读取mysql的数据

/**

 * @description: 测试读取mysql数据

 * @author: HaoWu

 * @create: 2020年09月11日

 */

object ReadMysqlTest {

  def main(args: Array[String]): Unit = {

    val conf = new SparkConf().setMaster("local[*]").setAppName("readMysql")

    val spark = SparkSession

      .builder()

      .config(conf)

      .getOrCreate()

    import spark.implicits._

    val ids = List(1,2,3,4).mkString("'", "','", "'")

    val resutl = spark

      .read

      .format("jdbc")

      .option("url", "jdbc:mysql://hadoop102:3306/gmall0421?useSSL=false")

      .option("user", "root")

      .option("password", "root")

      .option("query", s"select * from user_info where id in (${ids})")

      .load()

      .as[UserInfo] // df -> ds

      .rdd

      .map(userInfo => (userInfo.id, userInfo))

    resutl.collect().foreach(print)

  }

}

保存

    val list = List(Emp("jack", 2222.22), Emp("jack1", 3222.22), Emp("jack2", 4222.22))

    val rdd: RDD[Emp] = sparkSession.sparkContext.makeRDD(list, 1)

    //导入隐式包

    import sparkSession.implicits._

    val ds: Dataset[Emp] = rdd.toDS()

    val props = new Properties()

    props.put("user","root")

    props.put("password","root")

    //  表名可以是已经存在的表t1，也可以是一张新表t1(用的多)  

    //专用的写

    ds.write.jdbc("jdbc:mysql://localhost:3306/0508","t1",props)

    // 通用的写

    ds.write.

      option("url","jdbc:mysql://localhost:3306/库名")

		//表名

      .option("dbtable","t2")

      .option("user","root")

      .option("password","root")

      .mode("append")

      .format("jdbc").save()

Spark(十二)【SparkSql中数据读取和保存】的更多相关文章

Spark学习笔记4：数据读取与保存
Spark对很多种文件格式的读取和保存方式都很简单.Spark会根据文件扩展名选择对应的处理方式. Spark支持的一些常见文件格式如下: 文本文件使用文件路径作为参数调用SparkContext中 ...
【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性
本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =.以后还是要按时完成任务.废话不多说,第四章-第六章主要讲了三个内容:键值对.数据读取与保存与Spark的两个共享特性(累加器和广播变量). ...
Spark学习之数据读取与保存总结(一)
一.动机我们已经学了很多在 Spark 中对已分发的数据执行的操作.到目前为止,所展示的示例都是从本地集合或者普通文件中进行数据读取和保存的.但有时候,数据量可能大到无法放在一台机器中,这时就需要探 ...
MyBatis基础入门《十二》删除数据 - @Param参数
MyBatis基础入门<十二>删除数据 - @Param参数描述: 删除数据,这里使用了@Param这个注解,其实在代码中,不使用这个注解也可以的.只是为了学习这个@Param注解,为此 ...
（转）SpringMVC学习(十二)——SpringMVC中的拦截器
http://blog.csdn.net/yerenyuan_pku/article/details/72567761 SpringMVC的处理器拦截器类似于Servlet开发中的过滤器Filter, ...
Spark学习之数据读取与保存（4）
Spark学习之数据读取与保存(4) 1. 文件格式 Spark对很多种文件格式的读取和保存方式都很简单. 如文本文件的非结构化的文件,如JSON的半结构化文件,如SequenceFile结构化文件. ...
OpenJDK源码研究笔记(十二):JDBC中的元数据,数据库元数据(DatabaseMetaData),参数元数据(ParameterMetaData),结果集元数据(ResultSetMetaDa
元数据最本质.最抽象的定义为:data about data (关于数据的数据).它是一种广泛存在的现象,在许多领域有其具体的定义和应用. JDBC中的元数据,有数据库元数据(DatabaseMeta ...
Spark基础：（四）Spark 数据读取与保存
1.文件格式 Spark对很多种文件格式的读取和保存方式都很简单. (1)文本文件读取: 将一个文本文件读取为一个RDD时,输入的每一行都将成为RDD的一个元素. val input=sc.text ...
FreeSql （十二）更新数据时指定列
var connstr = "Data Source=127.0.0.1;Port=3306;User ID=root;Password=root;" + "Initia ...

随机推荐

Element - 日期禁用集合（持续更新）
当前日期之前的日期禁用 <el-date-picker v-model="form.startTime" type="date" placeholder= ...
Python学习路线【对标大厂Python工程师的招聘要求，并推荐优质免费资源】打卡学习不迷茫
您好,我是码农飞哥,感谢您阅读本文,欢迎一键三连哦. 本文要点:从Python爬虫工程师的招聘要求出发制定学习路线,同时还推荐免费优质的学习资源. 打卡学习不迷茫. 干货满满,建议收藏,需要用到时常看 ...
Linux&C 线程控制课后习题
Q1:多线程与多进程相比有什么优势? 多进程程序耗费的资源大,因为fork()的时候子进程需要继承父进程的几乎所有东西,但是多线程程序线程只继承一部分,即自己的私有数据,例如自己的线程ID,一组寄存器 ...
python3+Robotframework+ride+Selenium2Library+Autoitlibrary环境搭建
1.安装python3.8 第一步是安装Python:https://www.python.org/,RF框架是基于python 的,所以一定要有python环境.将python-3.8.2-amd6 ...
难顶！面试官问我G1垃圾收集器
面试官:要不这次来聊聊G1垃圾收集器? 候选者:嗯嗯,好的呀候选者:上次我记得说过,CMS垃圾收集器的弊端:会产生内存碎片&&空间需要预留候选者:这俩个问题在处理的时候,很有可能会 ...
探究 Go 源码中 panic & recover 有哪些坑？
转载请声明出处哦~,本篇文章发布于luozhiyun的博客: https://www.luozhiyun.com/archives/627 本文使用的go的源码1.17.3 前言写这一篇文章的原因是 ...
Linux——搭建Apache(httpd)服务器
一.基本概念 Apache(或httpd)是Internet上使用最多的Web服务器技术之一,使用的传输协议是http超文本传输协议(一个基于超文本的协议),用于通过网络连接来发送和接受对象. 有两个 ...
[uoj576]服务调度
先考虑一个子问题:仅有一个询问且无修改对每一种颜色的贡献分类讨论,结论:最远的点一定这些点集中(任意一组)最远点对中的两个点(选择较远的一个) 证明:设$dis(x,y)$为$x$到$y$的距离,$ ...
【GitHub】本地代码上传
本地代码上传GitHub 2019-11-18 20:03:45 by冲冲 1.注册GitHub https://github.com/ 2.安装Git工具 https://git-for-win ...
【Java面试】-- 杂题
杂题 2019-11-03 21:09:37 by冲冲 1.类加载器的双亲委派机制类加载器:把类通过类加载器加载到JVM中,然后转换成class对象(通过类的全路径来找到这个类). 双亲委派机制 ...