数据源-基本操作load和save

object BasicTest {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder()

      .appName("BasicTest")

      .master("local")

      .getOrCreate()

    //最基本的读取(load)和保存(write)操作，操作的文件的数据格式默认是parquet

    val sessionDF = spark.read.load(s"${BASE_PATH}/trackerSession")

    sessionDF.show()

    sessionDF.select("ip", "cookie").write.save(s"${BASE_PATH}/trackerSession_ip_cookie")

    //可以读取多个文件目录下的数据文件

    val multiSessionDF = spark.read.load(s"${BASE_PATH}/trackerSession",

      s"${BASE_PATH}/trackerSession_ip_cookie")

    multiSessionDF.show()

    //读取的时候指定schema

    val schema = StructType(StructField("ip", StringType) :: Nil)

    val specSessionDF = spark.read.schema(schema).load(s"${BASE_PATH}/trackerSession")

    specSessionDF.show()

    //指定数据源数据格式

    //读取json文件, 且将读取出来的数据保存为parquet文件

    val deviceInfoDF = spark.read.format("json").load(s"${BASE_PATH}/IoT_device_info.json")

    spark.read.json(s"${BASE_PATH}/IoT_device_info.json").show()

    deviceInfoDF.write.format("orc").save(s"${BASE_PATH}/iot")

    deviceInfoDF.write.orc(s"${BASE_PATH}/iot2")

    //option传递参数，改变读写数据源的行为

    spark.read.option("mergeSchema", "true").parquet(s"${BASE_PATH}/trackerSession")

    deviceInfoDF.write.option("compression", "snappy").parquet(s"${BASE_PATH}/iot2_parquet")

    val optsMap = Map("mergeSchema" -> "mergeSchema")

    spark.read.options(optsMap).parquet("")

    //SaveMode

    //SaveMode.ErrorIfExists(对应着字符串"error"):表示如果目标文件目录中数据已经存在了，则抛异常(这个是默认的配置)

    //SaveMode.Append(对应着字符串"append"):表示如果目标文件目录中数据已经存在了,则将数据追加到目标文件中

    //SaveMode.Overwrite(对应着字符串"overwrite"):表示如果目标文件目录中数据已经存在了，则用需要保存的数据覆盖掉已经存在的数据

    //SaveMode.Ignore(对应着字符串为:"ignore"):表示如果目标文件目录中数据已经存在了,则不做任何操作

    deviceInfoDF.write.option("compression", "snappy").mode(SaveMode.Ignore).parquet(s"${BASE_PATH}/iot/iot2_parquet")

    spark.read.parquet(s"${BASE_PATH}/iot/iot2_parquet").show()

    deviceInfoDF.write.option("compression", "snappy").mode("ignore").parquet(s"${BASE_PATH}/iot/iot2_parquet")

    spark.stop()

  }

}

SparkSQL读写外部数据源-基本操作load和save的更多相关文章

SparkSQL读写外部数据源--csv文件的读写
object CSVFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .ap ...
SparkSQL读写外部数据源-json文件的读写
object JsonFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .m ...
SparkSQL读写外部数据源-jext文件和table数据源的读写
object ParquetFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() ...
SparkSQL读写外部数据源--数据分区
import com.twq.dataset.Utils._ import org.apache.spark.sql.{SaveMode, SparkSession} object FileParti ...
SparkSQL读写外部数据源-通过jdbc读写mysql数据库
object JdbcDatasourceTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builde ...
load、save方法、spark sql的几种数据源
load.save方法的用法 DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.pa ...
37、数据源之通用的load和save操作
一.通用的load和save操作 1.概述对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作. load操作主要用于 ...
Update(Stage4)：sparksql：第1节 SparkSQL_使用场景_优化器_Dataset & 第2节 SparkSQL读写_hive_mysql_案例
目标 SparkSQL 是什么 SparkSQL 如何使用 Table of Contents 1. SparkSQL 是什么 1.1. SparkSQL 的出现契机 1.2. SparkSQL 的适 ...
【转载】Spark SQL之External DataSource外部数据源
http://blog.csdn.net/oopsoom/article/details/42061077 一.Spark SQL External DataSource简介随着Spark1.2的发 ...

随机推荐

SET key value [EX seconds] [PX milliseconds] [NX|XX]
SET key value [EX seconds] [PX milliseconds] [NX|XX] 可用版本: >= 1.0.0 时间复杂度: O(1) 将字符串值 value 关联到 k ...
[转帖]SSD和内存数据库技术
SSD和内存数据库技术自己的理解还是不是很对 SSD 提升的是随机读并没有对顺序写有多大的提升, 因为数据库采用的是redo的模式. 理论上写入时是顺序写所以写并发的提升不会很大但是会很 ...
Java学习之旅（二）：生病的狗1(逻辑推导)
前言:本篇文章属于个人笔记,例化了一些代码,不知是否合理,请指教. 中午看到一位同学的面试题,觉得很烧脑,烧脑不能一个人烧,要大家一起烧. 村子中有50个人,每人有一条狗.在这50条狗中有病狗(这种病 ...
pytest_函数传参和firture传参数request
前言为了提高代码的复用性,我们在写用例的时候,会用到函数,然后不同的用例去调用这个函数. 比如登录操作,大部分的用例都会先登录,那就需要把登录单独抽出来写个函数,其它用例全部的调用这个登陆函数就行. ...
Java核心技术梳理-IO
一.引言 IO(输入/输出),输入是指允许程序读取外部数据(包括来自磁盘.光盘等存储设备的数据).用户输入数据.输出是指允许程序记录运行状态,将程序数据输出到磁盘.光盘等存储设备中. IO的主要内容包 ...
C#泛型集合之——链表
链表基础 1.概述:C#中泛型集合中的链表—LinkedList 是一个双向链表,其结点为LinkedListNode 结构其中,结点结构包含:Next,Previous,Value三部分.且结点中 ...
deppin Linux下安装docker
首先楼主用的是deppin15.11 docker 简介:Docker作为一个软件集装箱化平台,可以让开发者构建应用程序时,将它与其依赖环境一起打包到一个容器中,然后很容易地发布和应用到任意平台中. ...
Hadoop1.X集群完全分布式模式环境部署
Hadoop1.X集群完全分布式模式环境部署 1 Hadoop简介 Hadoop是Apache软件基金会旗下的一个开源分布式计算平台.以Hadoop分布式文件系统(HDFS,Hadoop Distri ...
ServiceStack JWT 准备
ServiceStack JWT设置 ServcieStack 自带的验证授权模块使用 sql server存储,所以我们第一步需要配置数据库的一些选项 container.Register<I ...
win add static arp
win add static arp > arp -s "192.168.0.2" "00-0a-35-01-fe-c0" > arp -a | f ...

SparkSQL读写外部数据源-基本操作load和save

数据源-基本操作load和save

SparkSQL读写外部数据源-基本操作load和save的更多相关文章

随机推荐

热门专题