spark 读写text,csv,json,parquet

以下代码演示的是spark读取 text，csv，json，parquet格式的file 为dataframe，

将dataframe保存为对应格式的文件

package com.jason.spark23

import org.apache.spark.sql.types.{StringType, StructField, StructType}

import org.apache.spark.sql.{Row, SaveMode, SparkSession}

object ReadTest {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder()

      .appName("readtest")

      .master("local")

      .getOrCreate()

    val pathjson = "C:\\notos\\code\\sparktest\\src\\main\\resources\\employees.json"

    val pathavsc = "C:\\notos\\code\\sparktest\\src\\main\\resources\\full_user.avsc"

    val pathtxt = "C:\\notos\\code\\sparktest\\src\\main\\resources\\people.txt"

    val pathcsv = "C:\\notos\\code\\sparktest\\src\\main\\resources\\people.csv"

    val pathparquet = "C:\\notos\\code\\sparktest\\src\\main\\resources\\users.parquet"

    val sc = spark.sparkContext

    println(s"-----------------read--------------------------")

    println("====txt df")

    val txtrdd = sc.textFile(pathtxt).map(_.split(",")).map(arr => Row.fromSeq(arr))

    val schemaString = "name age"

    val fields = schemaString.split(" ")

      .map(fieldName => StructField(fieldName, StringType, nullable = true))

    val schema = StructType(fields)

    val txtDf = spark.createDataFrame(txtrdd, schema)

    txtDf.show()

    println("====json df") //jsondf 会自动给schema设置类型

    val jsonDf = spark.read.json(pathjson)

    jsonDf.show()

    println("==== csvdf")

    //会根据值自动生成类型

    val csvdf = spark.read.format("csv")

      .option("sep", ";")

      .option("inferSchema", "true")

      .option("header", "true")

      .load(pathcsv)

    csvdf.show()

    println("====parquet df")

    val usersDF = spark.read.load(pathparquet)

    usersDF.show()

    println("----------------------------------write-------------------------------")

    val path = "C:\\notos\\code\\sparktest\\src\\main\\"

    println(s"====txt output")

    implicit val mapEncoder = org.apache.spark.sql.Encoders.kryo[String]

    csvdf

      .write

      .format("csv")

      .mode(SaveMode.Append)

      .options(Map("compression" -> "bzip2", "sep" -> "\t", "header" -> "false"))

      .save(path + "\\text")

    println(s"====csv output")

    csvdf.write.mode(SaveMode.Ignore)

      .format("csv")

      .option("sep", "|")

      .option("header", "true")

      .save(s"$path\\csv")

    println(s"====json output")

    csvdf.write.mode(SaveMode.Append)

      .format("json")

      .save(path + "\\json")

    println(s"====parquet output")

    csvdf.write.mode(SaveMode.Append)

      .format("parquet")

      .save(s"$path\\parquet")

    spark.stop()

  }

}

上述将dataframe保存为text为也采取了csv格式，若要保存为text，dataframe中只能有一个String类型的字段，但是一般dataframe都不止一个字段，保存为text时也要指定字段分隔符，正好与csv的要求一致，而且csv格式的文件也可以用 sc.textFile 方法来读取

spark 读写text,csv,json,parquet的更多相关文章

使用Spark读写CSV格式文件（转）
原文链接:使用Spark读写CSV格式文件 CSV格式的文件也称为逗号分隔值(Comma-Separated Values,CSV,有时也称为字符分隔值,因为分隔字符也可以不是逗号.在本文中的CSV格 ...
solr File Upload "Unsupported ContentType: application/vnd.ms-excel Not in: [application/xml, application/csv, application/json, text/json, text/csv, text/xml, application/javabin]",
今天在用solr管理界面导入文件时报错:"Unsupported ContentType: application/vnd.ms-excel Not in: [application/xm ...
SparkSQL读写外部数据源-json文件的读写
object JsonFileTest { def main(args: Array[String]): Unit = { val spark = SparkSession .builder() .m ...
Spark 读写hive 表
spark 读写hive表主要是通过sparkssSession 读表的时候,很简单,直接像写sql一样sparkSession.sql("select * from xx") 就 ...
Data_r_and_w(csv,json,xlsx)
import osimport sysimport argparsetry: import cStringIO as StringIOexcept: import StringIOimpo ...
Spark读写HBase
Spark读写HBase示例 1.HBase shell查看表结构 hbase(main)::> desc 'SDAS_Person' Table SDAS_Person is ENABLED ...
spark读写mysql
spark读写mysql除官网例子外还要指定驱动名称 travels.write .mode(SaveMode.Overwrite) .format("jdbc") .option ...
Spark读写ES
本文主要介绍spark sql读写es.structured streaming写入es以及一些参数的配置 ES官方提供了对spark的支持,可以直接通过spark读写es,具体可以参考ES Spar ...
text to JSON
text to JSON GeoLocaltion API https://www.cnblogs.com/xgqfrms/p/13283680.html https://repl.it/@xgqfr ...

随机推荐

hdu1010-Tempter of the Bone-（dfs+奇偶剪枝）
http://acm.hdu.edu.cn/showproblem.php?pid=1010 翻译:有只狗被困了,S是起点,D是门,W是墙不能走,‘ . ’是可以走的路,走一次就会在1秒内坍塌,也就是 ...
Event 事件(最简单实用)
public partial class Form1 : Form { /// <summary> /// 定义事件 /// </summary> public event E ...
Python 弹出框代码
from ctypes import * user32 = windll.LoadLibrary('user32.dll')#调用dll文件 #a是得到弹出框的选择按钮的值 user32.Mess ...
VirtualBox support USB3.0 funciton
首先确认Oracle VM VirtualBox 的版本然后通过如下链接下载对应的扩展增强包: http://download.virtualbox.org/virtualbox 再则,通过管理-& ...
class-transformer 方便的json 对象转class
在我们日常web开发中经常碰到需要json 到类的处理,因为json 就是普通的数据,没有处理能力,class 具有业务处理能力, 但是需要数据的支持,class-transformer 刚好做为了一 ...
Xml与Map之间的相互转换
一.(单层)xml转换为map /** * XML格式字符串转换为Map * * @param xml XML字符串 * @return XML数据转换后的Map * @throws Exceptio ...
Vue中的native修饰符解析
native修饰符一般来说,vue本身提供了v-on:eventName这个语法来提供vue的时事件绑定,通常使用@eventName这个语法糖代替上述语法. 使用过程中没有考虑@eventName ...
Flume 实战，将多台机器日志直接收集到 Kafka
目前我们使用的一个 b 端软件的报错日志分散在集群各处,现在想把它收集到一个地方然后统一丢进 Kafka 提供给下游业务进行消费. 我想到了 flume,之前让同事搭建的这次自己想多了解一些细节于是就 ...
Java8中HashMap扩容算法小计
Java8的HashMap扩容过程主要就是集中在resize()方法中 final Node<K,V>[] resize() { // ...省略不重要的 } 其中,当HashMap扩容完 ...
微服务看门神-Zuul
Zuul网关和基本应用场景构建微服务时,常见的问题是为系统的客户端应用程序提供唯一的网关. 事实上,您的服务被拆分为小型微服务应用程序,这些应用程序应该对用户不可见,否则可能会导致大量的开发/维护工 ...

spark 读写text,csv,json,parquet

spark 读写text,csv,json,parquet的更多相关文章

随机推荐

热门专题