【sparkSQL】创建DataFrame及保存

首先我们要创建SparkSession

val spark = SparkSession.builder()

                        .appName("test")

                        .master("local")

                        .getOrCreate()

import spark.implicits._ //将RDD转化成为DataFrame并支持SQL操作

然后我们通过SparkSession来创建DataFrame

1.使用toDF函数创建DataFrame

　通过导入(importing)spark.implicits, 就可以将本地序列(seq), 数组或者RDD转为DataFrame。

　只要这些数据的内容能指定数据类型即可。

import spark.implicits._

val df = Seq(

  (1, "zhangyuhang", java.sql.Date.valueOf("2018-05-15")),

  (2, "zhangqiuyue", java.sql.Date.valueOf("2018-05-15"))

).toDF("id", "name", "created_time")

注意：如果直接用toDF()而不指定列名字，那么默认列名为"_1", "_2"

可以通过df.withColumnRenamed("_1", "newName1").withColumnRenamed("_2", "newName2")进行修改列名

2.使用createDataFrame函数创建DataFrame

通过schema + row 来创建

我们可以通俗的理解为schema为表的表头，row为表的数据记录

import org.apache.spark.sql.types._

//定义dataframe的结构的schema

val schema = StructType(List(

    StructField("id", IntegerType, nullable = false),

    StructField("name", StringType, nullable = true),

    StructField("create_time", DateType, nullable = true)

))

//定义dataframe内容的rdd

val rdd = sc.parallelize(Seq(

  Row(1, "zhangyuhang", java.sql.Date.valueOf("2018-05-15")),

  Row(2, "zhangqiuyue", java.sql.Date.valueOf("2018-05-15"))

))

//创建dataframe

val df = spark.createDataFrame(rdd, schema)

不过，我们可以把文件结构当做参数来使用，通过rdd自动产生schema和row，不用自己手动生成。

import org.apache.spark.sql.types._

//传入属性参数

val schemaString = " id name create_time"

//解析参数变成StructField

val fields = schemaString.split(" ")

                         .map(fieldName => StructField(fieldname, StringType, nullable = true))

//定义dataframe的结构的schema

val schema = StructType(fields)

//定义dataframe内容的rdd

val lines = sc.textFile("file:///people.txt")

val rdd = lines.spilt(_.split(","))

               .map(attributes=>ROW(attributes(0),attributes(1).trim) )

//创建dataframe

val df = spark.createDataFrame(rdd, schema)

3.通过反射机制创建DataFrame

首先要定义一个case class，因为只有case class才能被Spark隐式转化为DataFrame

import org.apache.spark.sql.catalyst.encoders.ExpressionEncoder

import org.apache.spark.sql.Encoder

import spark.implicits._

//创建匹配类

case class Person(id:Int,name:String,age:Long)

//读取文件生成rdd

val rdd = sc.textFile("file:///")

//通过匹配类把rdd转化成dataframe

val df = rdd.map(_.split(","))

            .map(attributes => Person(attributes(0),attributes(1),attributes(2).trim.toInt)) .toDF()

4.通过文件直接创建DataFrame

　(1)使用parquet文件read创建　　

val df = spark.read.parquet("hdfs:/path/to/file")

　(2)使用json文件read创建

val df = spark.read.json("examples/src/main/resources/people.json")

　(3)使用csv文件load创建

val df = spark.read

        .format("com.databricks.spark.csv")

        .option("header", "true") //reading the headers

        .option("mode", "DROPMALFORMED")

        .load("csv/file/path")

　(4)使用Hive表创建

spark.table("test.person") // 库名.表名 的格式

     .registerTempTable("person")  // 注册成临时表

spark.sql(

      """

        | select *

        | from person

        | limit 10

      """.stripMargin).show()

记得，最后我们要调用spark.stop()来关闭SparkSession。　　

5.保存

（1）通过df.write.format().save("file:///")保存

　　write.format()支持输出的格式有 JSON、parquet、JDBC、orc、csv、text等文件格式

　　,save()定义保存的位置

　　当我们保存成功后可以在保存位置的目录下看到文件，但是这个文件并不是一个文件而是一个目录。

　　里面的内容一般为

　　不用担心，这是没错的。

　　我们读取的时候，并不需要使用文件夹里面的part-xxxx文件，直接读取目录即可。

（2）通过df.rdd.saveAsTextFile("file:///")转化成rdd再保存

我们对于不同格式的文件读写来说，我们一般使用两套对应方式

val df = spark.read.格式("file:///")//读取文件

df.write.格式("file:///")//保存文件

val df = spark.read.format("").load("file:///")//读取文件

df.write.save("file:///")//保存文件

具体read和load方法有什么不同，我还不是很清楚，弄明白了回来补充。

6.通过JDBC创建DataFrame

我们在启动Spark-shell或者提交任务的时候需要添加相应的jar包

spark-shell（spark-submit）

--jars /usr/local/spark/mysql-connector-java-5.1.40/mysql-connector-java-5.1.40-bin.jar \

--driver-class-path /usr/local/spark/mysql-connector-java-5.1.40-bin.jar

val jdbcDf = spark.read.format("jdbc")

    .option("driver", "com.mysql.jdbc.Driver")   //驱动

    .option("url", "jdbc:mysql://ip:3306")  //数据库地址

    .option("dbtable", "db.user_test") //表名:数据库名.表名

    .option("user", "test") //用户名

    .option("password", "123456")  //密码

    .load()

jdbcDf.show()

【sparkSQL】创建DataFrame及保存的更多相关文章

【Spark篇】---SparkSQL初始和创建DataFrame的几种方式
一.前述 1.SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制. SparkSQL支持查询原 ...
JAVA SparkSQL初始和创建DataFrame的几种方式
建议参考SparkSQL官方文档:http://spark.apache.org/docs/latest/sql-programming-guide.html 一.前述 1.SparkSQ ...
大数据学习day24-------spark07-----1. sortBy是Transformation算子，为什么会触发Action 2. SparkSQL 3. DataFrame的创建 4. DSL风格API语法 5 两种风格（SQL、DSL）计算workcount案例
1. sortBy是Transformation算子,为什么会触发Action sortBy需要对数据进行全局排序,其需要用到RangePartitioner,而在创建RangePartitioner ...
Spark SQL初始化和创建DataFrame的几种方式
一.前述 1.SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制. SparkSQL支持查询原 ...
SparkSQL和DataFrame
SparkSQL和DataFrame SparkSQL简介 Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame并且作为分布式SQL查询引擎的作用.它 ...
Spark之 SparkSql、DataFrame、DataSet介绍
SparkSql SparkSql是专门为spark设计的一个大数据仓库工具,就好比hive是专门为hadoop设计的一个大数据仓库工具一样. 特性: .易整合可以将sql查询与spark应用程序进 ...
小记--------sparksql和DataFrame的小小案例java、scala版本
sparksql是spark中的一个模块,主要用于进行结构化数据的处理,他提供的最核心的编程抽象,就是DataFrame.同时,sparksql还可以作为分布式的sql查询引擎. 最最重要的功能就是从 ...
Spark Java创建DataFrame
以前用Python和Scala操作Spark的时候比较多,毕竟Python和Scala代码写起来要简洁很多. 今天一起来看看Java版本怎么创建DataFrame,代码写起来其实差不多,毕竟公用同一套 ...
大数据学习day25------spark08-----1. 读取数据库的形式创建DataFrame 2. Parquet格式的数据源 3. Orc格式的数据源 4.spark_sql整合hive 5.在IDEA中编写spark程序（用来操作hive） 6. SQL风格和DSL风格以及RDD的形式计算连续登陆三天的用户
1. 读取数据库的形式创建DataFrame DataFrameFromJDBC object DataFrameFromJDBC { def main(args: Array[String]): U ...

随机推荐

Linux网络调试工具资料链接
Dropbox: https://huoding.com/2016/12/15/574 Tcpdump: http://roclinux.cn/?p=2474
在Docker上安装配置Oracle教程
地址:https://github.com/wnameless/docker-oracle-xe-11g Docker shell 下: docker pull wnameless/oracle-xe ...
005-Symbol、Proxy、Reflect
1.Symbol:http://es6.ruanyifeng.com/#docs/symbol 2.Proxy:http://es6.ruanyifeng.com/#docs/proxy Proxy ...
python全栈开发从入门到放弃之网络基础
一.操作系统基础操作系统:(Operating System,简称OS)是管理和控制计算机硬件与软件资源的计算机程序,是直接运行在“裸机”上的最基本的系统软件,任何其他软件都必须在操作系统的支持下才 ...
python2 跟3的区别
1----python2:1 臃肿 , 源码的重复量很多2:语法不清晰,掺杂着 c,pyp,java,的一些陋习 python3: 几乎是重构后的源码,规范清晰优美 2.python的分类分为编 ...
LeetCode：组合总数II【40】
LeetCode:组合总数II[40] 题目描述给定一个数组 candidates 和一个目标数 target ,找出 candidates 中所有可以使数字和为 target 的组合. candi ...
springmvc ModelAndView
/** * 目标方法的返回值可以是 ModelAndView 类型. * 其中可以包含视图和模型信息 * SpringMVC 会把 ModelAndView 的 model 中数据放入到 reques ...
centos6.5系统python2.6升级到python3.6
1.安装必备的工具 wget:yum install wget gcc:yum install gcc zlib zlib-devel: yum install zlib zlib-devel -y ...
curl类封装
<?php /** * @author askwei **/ class CURL { private $ch; private $url = "htt ...
再来一道测半平面交模板题 Poj1279 Art Gallery
地址:http://poj.org/problem?id=1279 题目: Art Gallery Time Limit: 1000MS Memory Limit: 10000K Total Su ...

【sparkSQL】创建DataFrame及保存

【sparkSQL】创建DataFrame及保存的更多相关文章

随机推荐

热门专题