数据源-基本操作load和save

object BasicTest {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder()

      .appName("BasicTest")

      .master("local")

      .getOrCreate()

    //最基本的读取(load)和保存(write)操作，操作的文件的数据格式默认是parquet

    val sessionDF = spark.read.load(s"${BASE_PATH}/trackerSession")

    sessionDF.show()

    sessionDF.select("ip", "cookie").write.save(s"${BASE_PATH}/trackerSession_ip_cookie")

    //可以读取多个文件目录下的数据文件

    val multiSessionDF = spark.read.load(s"${BASE_PATH}/trackerSession",

      s"${BASE_PATH}/trackerSession_ip_cookie")

    multiSessionDF.show()

    //读取的时候指定schema

    val schema = StructType(StructField("ip", StringType) :: Nil)

    val specSessionDF = spark.read.schema(schema).load(s"${BASE_PATH}/trackerSession")

    specSessionDF.show()

    //指定数据源数据格式

    //读取json文件, 且将读取出来的数据保存为parquet文件

    val deviceInfoDF = spark.read.format("json").load(s"${BASE_PATH}/IoT_device_info.json")

    spark.read.json(s"${BASE_PATH}/IoT_device_info.json").show()

    deviceInfoDF.write.format("orc").save(s"${BASE_PATH}/iot")

    deviceInfoDF.write.orc(s"${BASE_PATH}/iot2")

    //option传递参数，改变读写数据源的行为

    spark.read.option("mergeSchema", "true").parquet(s"${BASE_PATH}/trackerSession")

    deviceInfoDF.write.option("compression", "snappy").parquet(s"${BASE_PATH}/iot2_parquet")

    val optsMap = Map("mergeSchema" -> "mergeSchema")

    spark.read.options(optsMap).parquet("")

    //SaveMode

    //SaveMode.ErrorIfExists(对应着字符串"error"):表示如果目标文件目录中数据已经存在了，则抛异常(这个是默认的配置)

    //SaveMode.Append(对应着字符串"append"):表示如果目标文件目录中数据已经存在了,则将数据追加到目标文件中

    //SaveMode.Overwrite(对应着字符串"overwrite"):表示如果目标文件目录中数据已经存在了，则用需要保存的数据覆盖掉已经存在的数据

    //SaveMode.Ignore(对应着字符串为:"ignore"):表示如果目标文件目录中数据已经存在了,则不做任何操作

    deviceInfoDF.write.option("compression", "snappy").mode(SaveMode.Ignore).parquet(s"${BASE_PATH}/iot/iot2_parquet")

    spark.read.parquet(s"${BASE_PATH}/iot/iot2_parquet").show()

    deviceInfoDF.write.option("compression", "snappy").mode("ignore").parquet(s"${BASE_PATH}/iot/iot2_parquet")

    spark.stop()

  }

}

SparkSQL读写外部数据源-基本操作load和save的更多相关文章

SparkSQL读写外部数据源--csv文件的读写
object CSVFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .ap ...
SparkSQL读写外部数据源-json文件的读写
object JsonFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .m ...
SparkSQL读写外部数据源-jext文件和table数据源的读写
object ParquetFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() ...
SparkSQL读写外部数据源--数据分区
import com.twq.dataset.Utils._ import org.apache.spark.sql.{SaveMode, SparkSession} object FileParti ...
SparkSQL读写外部数据源-通过jdbc读写mysql数据库
object JdbcDatasourceTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builde ...
load、save方法、spark sql的几种数据源
load.save方法的用法 DataFrame usersDF = sqlContext.read().load("hdfs://spark1:9000/users.pa ...
37、数据源之通用的load和save操作
一.通用的load和save操作 1.概述对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作. load操作主要用于 ...
Update(Stage4)：sparksql：第1节 SparkSQL_使用场景_优化器_Dataset & 第2节 SparkSQL读写_hive_mysql_案例
目标 SparkSQL 是什么 SparkSQL 如何使用 Table of Contents 1. SparkSQL 是什么 1.1. SparkSQL 的出现契机 1.2. SparkSQL 的适 ...
【转载】Spark SQL之External DataSource外部数据源
http://blog.csdn.net/oopsoom/article/details/42061077 一.Spark SQL External DataSource简介随着Spark1.2的发 ...

随机推荐

Servlet3.0对异步处理的支持
Servlet工作流程 Servlet 3.0 之前,一个普通 Servlet 的主要工作流程大致如下: Servlet 接收到请求之后,可能需要对请求携带的数据进行一些预处理: 调用业务接口的某些方 ...
【剑指offer】删除链表中重复的结点
题目描述在一个排序的链表中,存在重复的结点,请删除该链表中重复的结点,重复的结点不保留,返回链表头指针.例如,链表1->2->3->3->4->4->5 处理后为 ...
How long does it take to make a context switch?
FROM: http://blog.tsunanet.net/2010/11/how-long-does-it-take-to-make-context.html That's a interesti ...
SGU 128. Snake --- 暴力枚举+并查集+贪心+计算几何
<传送门> 128. Snake time limit per test: 0.25 sec. memory limit per test: 4096 KB There are N poi ...
Django-05-视图函数
http请求中产生两个核心对象: http请求:HttpRequest对象 http响应:HttpResponse对象所在位置:django.http 之前我们用到的参数request就是HttpR ...
Ambari深入学习（III）－开源使用及其改进思考
Ambari采用的不是一个新的思想和架构,也不是完成了软件的新的革命,而是充分利用了一些已有的优秀开源软件,巧妙地把它们结合起来,使其在分布式环境中做到了集群式服务管理能力.监控能力.展示能力.这些优 ...
ssm框架 pom的配置 / 还有里面springMVC.xml的配置 / webapp.xml的配置
首先是pom的配置: <dependencies> <!-- https://mvnrepository.com/artifact/mysql/mysql-connector-jav ...
关于.Net使用企业库访问MySql数据库
关于.Net使用企业库访问MySql数据库在网上看了很多又重写又加WebConfig中的内容,其实不用那么麻烦企业库5.0访问MySql数据库只需要在Web服务器安装mysql-connector ...
jQuery.Form.js使用方法
一.jQuery.Form.js 插件的作用是实现Ajax提交表单. 方法: 1.formSerilize() 用于序列化表单中的数据,并将其自动整理成适合AJAX异步请求的URL地址格式. 2.cl ...
Python进阶(五)----内置函数Ⅱ 和闭包
Python进阶(五)----内置函数Ⅱ 和闭包一丶内置函数Ⅱ ####内置函数#### 特别重要,反复练习 ###print() 打印输入 #sep 设定分隔符 # end 默认是换行可以打印到 ...

SparkSQL读写外部数据源-基本操作load和save

数据源-基本操作load和save

SparkSQL读写外部数据源-基本操作load和save的更多相关文章

随机推荐

热门专题