SparkSQL读写外部数据源-json文件的读写

object JsonFileTest {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder()

      .master("local")

      .appName("JsonFileTest")

      .getOrCreate()

    import spark.implicits._

    //将parquet文件数据转化成json文件数据

    val sessionDf = spark.read.parquet(s"${BASE_PATH}/trackerSession")

    sessionDf.show()

    sessionDf.write.json(s"${BASE_PATH}/json")

    //读取json文件数据

    val jsonDF = spark.read.json(s"${BASE_PATH}/json")

    jsonDF.show()

    //可以从JSON Dataset(类型为String)中创建一个DF

    val jsonDataset = spark.createDataset(

      """{"name":"Yin","address":{"city":"Columbus","state":"Ohio"}}""" :: Nil)

    val otherJsonDF = spark.read.json(jsonDataset)

    otherJsonDF.show()

    //primitivesAsString(默认为false) 表示将基本类型转化为string类型，这里的基本类型包括：boolean、int、long、float、double

    //prefersDecimal(默认是false)表示在primitivesAsString为false的时候，将float，double转成DecimalType

    val jsonDataset_1 = spark.createDataset(

      """{"name":"Yin","address":{"is_old":true,"area":23000.34}}""" :: Nil)

    var otherJsonDF_1 = spark.read.json(jsonDataset_1)

    otherJsonDF_1.printSchema()

    /*

    root

     |-- address: struct (nullable = true)

     |    |-- area: double (nullable = true)

     |    |-- is_old: boolean (nullable = true)

     |-- name: string (nullable = true)

     */

    var optsMap = Map("primitivesAsString" -> "true", "prefersDecimal" -> "true")

    otherJsonDF_1 = spark.read.options(optsMap).json(jsonDataset_1)

    otherJsonDF_1.printSchema()

    /*

    root

     |-- address: struct (nullable = true)

     |    |-- area: string (nullable = true)

     |    |-- is_old: string (nullable = true)

     |-- name: string (nullable = true)

     */

    optsMap = Map("primitivesAsString" -> "false", "prefersDecimal" -> "true")

    otherJsonDF_1 = spark.read.options(optsMap).json(jsonDataset_1)

    otherJsonDF_1.printSchema()

    /*

    root

     |-- address: struct (nullable = true)

     |    |-- area: decimal(7,2) (nullable = true)

     |    |-- is_old: boolean (nullable = true)

     |-- name: string (nullable = true)

     */

    //allowComments(默认是false)，表示是否支持json中含有java/c格式的注释

    spark.read.option("allowComments", "true").json(Seq("""{"name":/* hello */"Yin","address":{"is_old":true,"area":23000.34}}""").toDS()).show()

    //allowUnquotedFieldNames(默认是false)，表示是否支持json中含有没有引号的域名

    spark.read.option("allowUnquotedFieldNames", "true").json(Seq("""{name:"Yin","address":{"is_old":true,"area":23000.34}}""").toDS()).show()

    //allowSingleQuotes(默认是true)，表示是否支持json中含有单引号的域名或者值

    spark.read.option("allowSingleQuotes", "true").json(Seq("""{'name':'Yin',"address":{"is_old":true,"area":23000.34}}""").toDS()).show()

    //allowNumericLeadingZeros(默认是false)，表示是否支持json中含有以0开头的数值

    spark.read.option("allowNumericLeadingZeros", "true").json(Seq("""{'name':'Yin',"address":{"is_old":true,"area":0023000.34}}""").toDS()).show()

    //allowNonNumericNumbers(默认是false)，表示是否支持json中含有NaN(not a number)

    spark.read.option("allowNonNumericNumbers", "true").json(Seq("""{'name':'Yin',"address":{"is_old":true,"area":NaN}}""").toDS()).show()

    //allowBackslashEscapingAnyCharacter(默认是false)，表示是否支持json中含有反斜杠，且将反斜杠忽略掉

    spark.read.option("allowBackslashEscapingAnyCharacter", "true").json(Seq("""{'name':'Yin',"address":{"is_old":true,"area":"\$23000"}}""").toDS()).show()

    //mode(默认是PERMISSIVE)，表是碰到格式解析错误的json的处理行为是：

    //PERMISSIVE 表示比较宽容的。如果某条格式错误，则新增一个字段，字段名为columnNameOfCorruptRecord的值，字段的值是错误格式的json字符串，其他的是null

    spark.read.option("mode", "PERMISSIVE").json(Seq("""{'name':'Yin',"address":{"is_old":true,"area":3000}}""",

      """{'name':'Yin',"address":{"is_old":true,"area":\3000}}""").toDS()).show()

    /*

    +--------------------+-----------+----+

    |     _corrupt_record|    address|name|

    +--------------------+-----------+----+

    |                null|[3000,true]| Yin|

    |{'name':'Yin',"ad...|       null|null|

    +--------------------+-----------+----+

     */

    spark.read.option("mode", "PERMISSIVE").option("columnNameOfCorruptRecord", "customer_column").json(

      Seq("""{'name':'Yin',"address":{"is_old":true,"area":3000}}""",

      """{'name':'Yin',"address":{"is_old":true,"area":\3000}}""").toDS()).show()

    /*

    +-----------+--------------------+----+

    |    address|     customer_column|name|

    +-----------+--------------------+----+

    |[3000,true]|                null| Yin|

    |       null|{'name':'Yin',"ad...|null|

    +-----------+--------------------+----+

     */

    //DROPMALFORMED 表示丢掉错误格式的那条记录

    spark.read.option("mode", "DROPMALFORMED").json(Seq("""{'name':'Yin',"address":{"is_old":true,"area":3000}}""",

      """{'name':'Yin',"address":{"is_old":true,"area":\3000}}""").toDS()).show()

    /*

    +-----------+----+

    |    address|name|

    +-----------+----+

    |[3000,true]| Yin|

    +-----------+----+

     */

    //FAILFAST 碰到解析错误的记录直接报错

    spark.read.option("mode", "FAILFAST").json(Seq("""{'name':'Yin',"address":{"is_old":true,"area":3000}}""",

      """{'name':'Yin',"address":{"is_old":true,"area":\3000}}""").toDS()).show()

    //dateFormat(默认值为yyyy-MM-dd) 表示json中时间的字符串格式(对应着DataType)

    val customSchema = new StructType(Array(StructField("name", StringType, true),

      StructField("date", DateType, true)))

    val dataFormatDF =

      spark.read.schema(customSchema).option("dateFormat", "dd/MM/yyyy HH:mm").json(Seq(

        """{'name':'Yin',"date":"26/08/2015 18:00"}""").toDS())

    dataFormatDF.write.mode(SaveMode.Overwrite).option("dateFormat", "yyyy/MM/dd").json("testjson")

    spark.read.json("testjson").show()

    //timestampFormat(默认值为yyyy-MM-dd'T'HH:mm:ss.SSSZZ) 表示json中时间的字符串格式(对应着TimestampType)

    val customSchema_1 = new StructType(Array(StructField("name", StringType, true),

      StructField("date", TimestampType, true)))

    val timestampFormatDf =

      spark.read.schema(customSchema_1).option("timestampFormat", "dd/MM/yyyy HH:mm").json(Seq(

        """{'name':'Yin',"date":"26/08/2015 18:00"}""").toDS())

    val optMap = Map("timestampFormat" -> "yyyy/MM/dd HH:mm", DateTimeUtils.TIMEZONE_OPTION -> "GMT")

    timestampFormatDf.write.mode(SaveMode.Overwrite).format("json").options(optMap).save("test.json")

    spark.read.json("test.json").show()

    //compression 压缩格式，支持的压缩格式有：

    //none 和 uncompressed表示不压缩

    //bzip2、deflate、gzip、lz4、snappy

    timestampFormatDf.write.mode(SaveMode.Overwrite).option("compression", "gzip").json("test.json")

    //multiLine 表示是否支持一条json记录拆分成多行

    val primitiveFieldAndType: Dataset[String] = spark.createDataset(spark.sparkContext.parallelize(

      """{"string":"this is a simple string.",

          "integer":10,

          "long":21474836470,

          "bigInteger":92233720368547758070,

          "double":1.7976931348623157E308,

          "boolean":true,

          "null":null

      }""" ::

        """{"string":"this is a simple string.",

 |          "integer":10,

 |          "long":21474836470,

 |          "bigInteger":92233720368547758070,

 |          "double":1.7976931348623157E308,

 |          "boolean":true,

 |          "null":null

 |      }""" :: Nil))(Encoders.STRING)

    primitiveFieldAndType.toDF("value").write.mode(SaveMode.Overwrite).option("compression", "GzIp").text(s"${BASE_PATH}/primitiveFieldAndType")

    val multiLineDF = spark.read.option("multiLine", false).json(s"${BASE_PATH}/primitiveFieldAndType")

    multiLineDF.show()

    spark.stop()

  }

}

SparkSQL读写外部数据源-json文件的读写的更多相关文章

SparkSQL读写外部数据源--csv文件的读写
object CSVFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .ap ...
SparkSQL读写外部数据源-jext文件和table数据源的读写
object ParquetFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() ...
SparkSQL读写外部数据源-基本操作load和save
数据源-基本操作load和save object BasicTest { def main(args: Array[String]): Unit = { val spark = SparkSessio ...
NetCore 对Json文件的读写操作
nuget Microsoft.Extensions.Configuration; Microsoft.Extensions.Configuration.Json; Newtonsoft.Json; ...
一文综述python读写csv xml json文件各种骚操作
Python优越的灵活性和易用性使其成为最受欢迎的编程语言之一,尤其是对数据科学家而言.这在很大程度上是因为使用Python处理大型数据集是很简单的一件事情. 如今,每家科技公司都在制定数据战略. ...
HTML5实现本地JSON文件的读写
参考: 使用HTML5来实现本地文件读取和写入 (FileReader读取json文件,FileSaver.js保存json文件) w3school <input>标签 FileRead ...
SparkSQL读写外部数据源--数据分区
import com.twq.dataset.Utils._ import org.apache.spark.sql.{SaveMode, SparkSession} object FileParti ...
SparkSQL读写外部数据源-通过jdbc读写mysql数据库
object JdbcDatasourceTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builde ...
pyspark 读写csv、json文件
from pyspark import SparkContext,SparkConf import os from pyspark.sql.session import SparkSession de ...

随机推荐

Centos 7搭建Gitlab服务器超详细
一. 安装并配置必要的依赖关系在CentOS系统上安装所需的依赖:ssh,防火墙,postfix(用于邮件通知) ,wget,以下这些命令也会打开系统防火墙中的HTTP和SSH端口访问. 1.安装ss ...
Java的含义
Java是一种广泛使用的计算机编程语言,拥有跨平台.面向对象.泛型编程的特性,广泛应用于企业级Web应用开发和移动应用开发. Java语言它不是软件,这里给各位初学者们详细解释一下.简单来说计算机语言 ...
STM32串口复用关系&printf重定义
串口复用什么是普通功能输入输出?普通功能输入输出类似于:大厅<—>门<—>室外的关系,大厅只需要经过大门即可到室外,从室外经过门也可以到达大厅. 什么是复用工功能输入输出?复 ...
Html设置问题（设置浏览器上面的图标，移动设备上面页面保存为图标）
最近开发了一个新的项目,项目完成之后:要求把页面在移动设备上面保存为图标,通过图标直接进入系统入口(这样看着就想APP一样):刚开始通过百度直接设置了,发现有两个问题,第一.图标直接是页面的截图:第二 ...
MNIST机器学习入门(二)
在前一个博客中,我们已经对MNIST 数据集和TensorFlow 中MNIST 数据集的载入有了基本的了解.本节将真正以TensorFlow 为工具,写一个手写体数字识别程序,使用的机器学习方法是S ...
golang ---cron
package main import ( l4g "github.com/alecthomas/log4go" "github.com/robfig/cron" ...
使用JDK的zip编写打包工具类
JDK自带的zip AIP在java.util.zip包下面,主要有以下几个类: java.util.zip.ZipEntryjava.util.zip.ZipInputStreamjava.util ...
Privoxy搭建代理服务器
Privoxy搭建代理服务器 Docker Hub镜像地址 Dockerfile FROM alpine EXPOSE 8118 RUN apk --no-cache --update add pri ...
vue-router中的router-view的困扰
刚开始接触vue的时候有很长一段时间被router-view的渲染困扰着,不知道为什么明明有很多router-link和不同的router-view,但是为什么渲染的时候不会出现错乱呢这是我自己写的 ...
物料管理混乱怎么办？APS系统帮你实现高效运输
APS系统可以高效地管理.控制分销中心并保证产品可订货.可盈利.能力可用.分销计划帮助企业分析原始信息,然后企业能够确定如何优化分销成本或者根据生产能力和成本提高客户服务水平. 今天成功的企业为了取得 ...

SparkSQL读写外部数据源-json文件的读写

SparkSQL读写外部数据源-json文件的读写的更多相关文章

随机推荐

热门专题