Spark笔记-DataSet，DataFrame

DataSet：面向对象的，从JVM进行构建，或从其它格式进行转化

DataFrame：面向SQL查询，从多种数据源进行构建，或从其它格式进行转化

RDD DataSet DataFrame互转

1.RDD -> Dataset

val ds = rdd.toDS()

2.RDD -> DataFrame

val df = spark.read.json(rdd)

3.Dataset -> RDD

val rdd = ds.rdd

4.Dataset -> DataFrame

val df = ds.toDF()

5.DataFrame -> RDD

val rdd = df.toJSON.rdd

6.DataFrame -> Dataset

val ds = df.toJSON

DataFrameTest1.scala

package com.spark.dataframe

import org.apache.spark.{SparkConf, SparkContext}

class DataFrameTest1 {

}

object DataFrameTest1{

  def main(args : Array[String]): Unit ={

    System.setProperty("hadoop.home.dir", "E:\\spark\\hadoophome\\hadoop-common-2.2.0-bin");

    val logFile = "e://temp.txt"

    val conf = new SparkConf().setAppName("test").setMaster("local[4]")

    val sc = new SparkContext(conf)

    val logData = sc.textFile(logFile,2).cache()

    val numAs = logData.filter(line => line.contains("a")).count()

    val numBs = logData.filter(line => line.contains("b")).count()

    println(s"Lines with a: $numAs , Line with b : $numBs")

    sc.stop()

  }

}

DataFrameTest2.scala

package com.spark.dataframe

import org.apache.spark.sql.SparkSession

class DataFrameTest2 {

}

object DataFrameTest2{

  def main(args : Array[String]): Unit ={

    System.setProperty("hadoop.home.dir", "E:\\spark\\hadoophome\\hadoop-common-2.2.0-bin")

    val spark = SparkSession

      .builder()

      .appName("Spark SQL basic example")

      .master("local[4]")

      .getOrCreate()

    val df = spark.read.json("E:\\spark\\datatemp\\people.json")

    df.show()

    // This import is needed to use the $-notation

    import spark.implicits._

    df.printSchema()

    df.select("name").show()

    df.filter("age>21").show()

    df.select($"name",$"age"+1).show()

    df.groupBy("age").count().show()

  }

}

DataFrameTest3.scala

package com.spark.dataframe

import org.apache.spark.sql.SparkSession

class DataFrameTest3 {

}

object DataFrameTest3{

  def main(args : Array[String]): Unit ={

      System.setProperty("hadoop.home.dir", "E:\\spark\\hadoophome\\hadoop-common-2.2.0-bin")

      val spark = SparkSession

        .builder()

        .appName("Spark SQL basic example")

        .master("local[4]")

        .getOrCreate()

      val df = spark.read.json("E:\\spark\\datatemp\\people.json")

      // 将DataFrame注册为sql temporary view

      df.createOrReplaceTempView("people")

      val sqlDF = spark.sql("select * from people")

      sqlDF.show()

      //spark.sql("select * from global_temp.people").show()

    }

}

DataSetTest1.scala

package com.spark.dataframe

import org.apache.spark.sql.SparkSession

class DataSetTest1 {

}

case class Person(name: String, age: Long)

object DataSetTest1 {

  def main(args : Array[String]): Unit ={

    System.setProperty("hadoop.home.dir", "E:\\spark\\hadoophome\\hadoop-common-2.2.0-bin")

    val spark = SparkSession

      .builder()

      .appName("Spark SQL basic example")

      .master("local[4]")

      .getOrCreate()

    // This import is needed to use the $-notation

    import spark.implicits._

    val caseClassDS = Seq(Person("Andy", 32)).toDS()

    caseClassDS.show()

    val ds = spark.read.json("E:\\spark\\datatemp\\people.json").as[Person]

    ds.show()

  }

}

RDDToDataFrame.scala

package com.spark.dataframe

import org.apache.spark.sql.{Row, SparkSession}

class RDDToDataFrame {

}

//介绍两种将RDD转换为DataFrame的方式

object RDDToDataFrame{

  def main(args : Array[String]): Unit ={

    System.setProperty("hadoop.home.dir", "E:\\spark\\hadoophome\\hadoop-common-2.2.0-bin")

    val spark = SparkSession

      .builder()

      .appName("Rdd to DataFrame")

      .master("local[4]")

      .getOrCreate()

    // This import is needed to use the $-notation

    import spark.implicits._

    // 数据读取类可以提前定义，Person

    val peopleDF =spark.sparkContext

      .textFile("E:\\spark\\datatemp\\people.txt")

      .map(_.split(","))

      .map(attribute => Person(attribute(0),attribute(1).trim.toInt))

      .toDF()

    peopleDF.createOrReplaceTempView("people")

    val teenagerDF = spark.sql("select name, age from people where age between 13 and 19")

    teenagerDF.map(teenager=> "name:"+teenager(0)).show()

    teenagerDF.map(teenager => "Name: "+teenager.getAs[String]("name")).show()

    // No pre-defined encoders for Dataset[Map[K,V]], define explicitly

    //隐式参数，后面需要Encoder类型的参数时时候则自动调用

    implicit val mapEncoder = org.apache.spark.sql.Encoders.kryo[Map[String,Any]]

    // Primitive types and case classes can be also defined as

    // implicit val stringIntMapEncoder: Encoder[Map[String, Any]] = ExpressionEncoder()

    // row.getValuesMap[T] retrieves multiple columns at once into a Map[String, T]

    teenagerDF.map(teenager => teenager.getValuesMap[Any](List("name","age"))).collect().foreach(println(_))

    // Array(Map("name" -> "Justin", "age" -> 19))

    //////////////////////////////////////////

    //case classes 不能提前定义

    /*

    * When case classes cannot be defined ahead of time

    * (for example, the structure of records is encoded in a string,

    * or a text dataset will be parsed and fields will be projected differently for different users),

    * a DataFrame can be created programmatically with three steps.

    * 1. Create an RDD of Rows from the original RDD;

    * 2. Create the schema represented by a StructType matching the structure of Rows in the RDD created in Step 1.

    * 3. Apply the schema to the RDD of Rows via createDataFrame method provided by SparkSession.

    * */

    import org.apache.spark.sql.types._

    //1. 创建RDD

    val peopleRDD = spark.sparkContext.textFile("e:\\spark\\datatemp\\people.txt")

    //2.1 创建和RDD相匹配的schema

    val schemaString = "name age"

    val fields = schemaString.split(" ")

      .map(fieldName => StructField(fieldName, StringType, nullable = true))

    val schema = StructType(fields)

    //2.2. 将RDD进行格式化

    val rowRDD = peopleRDD

      .map(_.split(","))

      .map(attributes => Row(attributes(0),attributes(1).trim))

    //3. 将RDD转换为DF

    val peopleDF2 = spark.createDataFrame(rowRDD, schema)

    peopleDF2.createOrReplaceTempView("people")

    val results = spark.sql("select name from people")

    results.show()

  }

}

GenericLoadAndSave.scala

package com.spark.dataframe

import org.apache.spark.sql.{SaveMode, SparkSession}

class GenericLoadAndSave {

}

object GenericLoadAndSave{

  def main(args: Array[String]): Unit ={

    System.setProperty("hadoop.home.dir", "E:\\spark\\hadoophome\\hadoop-common-2.2.0-bin")

    val spark = SparkSession

      .builder()

      .appName("Rdd to DataFrame")

      .master("local[4]")

      .getOrCreate()

    // This import is needed to use the $-notation

    import spark.implicits._

    //保存为parquet格式的数据

    val userDF = spark.read.json("e:\\spark\\datatemp\\people.json")

    //userDF.select("name","age").write.save("e:\\spark\\datasave\\nameAndAge.parquet")

    //数据保存时的模式设置为append

    userDF.select("name","age").write.mode(SaveMode.Overwrite).save("e:\\spark\\datasave\\nameAndAge.parquet")

    //数据源的格式可以指定为 (json, parquet, jdbc, orc, libsvm, csv, text)

    val peopleDF = spark.read.format("json").load("e:\\spark\\datatemp\\people.json")

    //peopleDF.select("name","age").write.format("json").save("e:\\spark\\datasave\\peopleNameAndAge.json")

    //数据保存时的模式设置为overwrite

    peopleDF.select("name","age").write.mode(SaveMode.Overwrite).format("json").save("e:\\spark\\datasave\\peopleNameAndAge.json")

    //从parquet格式的数据源中读取数据构建DataFrame

    val peopleDF2 = spark.read.format("parquet").load("E:\\spark\\datasave\\nameAndAge.parquet\\")

      //+"part-00000-*.snappy.parquet") //这行加上便于精准定位。事实上parquet可以根据文件路径自行发现和推断分区信息

    System.out.println("------------------")

    peopleDF2.select("name","age").show()

    //userDF.select("name","age").write.saveAsTable("e:\\spark\\datasave\\peopleSaveAsTable")

    //代码有错误，原因暂时未知

    //val sqlDF = spark.sql("SELECT * FROM parquet.'E:\\spark\\datasave\\nameAndAge.parquet\\part-00000-c8740fc5-cba8-4ebe-a7a8-9cec3da7dfa2.snappy.parquet'")

    //sqlDF.show()

  }

}

ReadFromParquet.scala

package com.spark.dataframe

import org.apache.spark.sql.{SaveMode, SparkSession}

class ReadFromParquet {

}

object  ReadFromParquet{

  def main(args: Array[String]): Unit ={

    System.setProperty("hadoop.home.dir", "E:\\spark\\hadoophome\\hadoop-common-2.2.0-bin")

    val spark = SparkSession

      .builder()

      .appName("Rdd to DataFrame")

      .master("local[4]")

      .getOrCreate()

    // This import is needed to use the $-notation

    import spark.implicits._

    //从parquet格式的数据源中读取数据构建DataFrame

    val peopleDF2 = spark.read.format("parquet").load("E:\\spark\\datasave\\people")

    /*

    * 目录结构为：

    * people

    *   |- country=china

    *           |-data.parquet

    *   |- country=us

    *           |-data.parquet

    *

    * data.parquet内包含people的name和age。加上文件路径中的country信息，最终得到的表结构为：

    * +-------+----+-------+

    * |   name| age|country|

    * +-------+----+-------+

    * */

    peopleDF2.show()

  }

}

SchemaMerge.scala

package com.spark.dataframe

import org.apache.spark.sql.{SaveMode, SparkSession}

class SchemaMerge {

}

object SchemaMerge{

  def main(args: Array[String]) {

    System.setProperty("hadoop.home.dir", "E:\\spark\\hadoophome\\hadoop-common-2.2.0-bin")

    val spark = SparkSession

      .builder()

      .appName("Rdd to DataFrame")

      .master("local[4]")

      .getOrCreate()

    // This import is needed to use the $-notation

    import spark.implicits._

    val squaresDF = spark.sparkContext.makeRDD(1 to 5)

      .map(i=>(i,i*i))

      .toDF("value","square")

    squaresDF.write.mode(SaveMode.Overwrite).parquet("E:\\spark\\datasave\\schemamerge\\test_table\\key=1")

    val cubesDF = spark.sparkContext.makeRDD(1 to 5)

      .map(i => (i,i*i*i))

      .toDF("value","cube")

    cubesDF.write.mode(SaveMode.Overwrite).parquet("E:\\spark\\datasave\\schemamerge\\test_table\\key=2")

    val mergedDF = spark.read.option("mergeSchema","true")

      .parquet("E:\\spark\\datasave\\schemamerge\\test_table\\")

    mergedDF.printSchema()

    mergedDF.show()

  }

}

结果：

Spark笔记-DataSet，DataFrame的更多相关文章

Spark提高篇——RDD/DataSet/DataFrame（一）
该部分分为两篇,分别介绍RDD与Dataset/DataFrame: 一.RDD 二.DataSet/DataFrame 先来看下官网对RDD.DataSet.DataFrame的解释: 1.RDD ...
Spark提高篇——RDD/DataSet/DataFrame（二）
该部分分为两篇,分别介绍RDD与Dataset/DataFrame: 一.RDD 二.DataSet/DataFrame 该篇主要介绍DataSet与DataFrame. 一.生成DataFrame ...
spark算子之DataFrame和DataSet
前言传统的RDD相对于mapreduce和storm提供了丰富强大的算子.在spark慢慢步入DataFrame到DataSet的今天,在算子的类型基本不变的情况下,这两个数据集提供了更为强大的的功 ...
spark结构化数据处理：Spark SQL、DataFrame和Dataset
本文讲解Spark的结构化数据处理,主要包括:Spark SQL.DataFrame.Dataset以及Spark SQL服务等相关内容.本文主要讲解Spark 1.6.x的结构化数据处理相关东东,但 ...
spark RDD、DataFrame、DataSet之间的相互转化
这三个数据集看似经常用,但是真正归纳总结的时候,很容易说不出来三个之间的关系与区别参考我的另一篇blog http://www.cnblogs.com/xjh713/p/7309507.html ...
Spark Dataset DataFrame空值null,NaN判断和处理
Spark Dataset DataFrame空值null,NaN判断和处理 import org.apache.spark.sql.SparkSession import org.apache.sp ...
Spark Dataset DataFrame 操作
Spark Dataset DataFrame 操作相关博文参考 sparksql中dataframe的用法一.Spark2 Dataset DataFrame空值null,NaN判断和处理 1. ...
Spark SQL、DataFrame和Dataset——转载
转载自: Spark SQL.DataFrame和Datase
RDD/Dataset/DataFrame互转
1.RDD -> Dataset val ds = rdd.toDS() 2.RDD -> DataFrame val df = spark.read.json(rdd) 3.Datase ...

随机推荐

Python全栈学习_day006作业
Day6作业及默写 ,使用循环打印以下效果: : * ** *** **** ***** : ***** **** *** ** * : * *** ***** ******* ********* . ...
Callable接口--有返回值的线程
Callable java5之前是没有返回值的,Java5新增了Callable接口获得线程的返回值,可返回值的任务必须实现Callable接口,类似的,无返回值的任务必须Runnable接口.Cal ...
HTML5实现video标签的自定义播放进度条
现在随着html5的渐热,越来越多的web开发者都开始选择使用html5写出一些比较好的web应用. html代码: <!DOCTYPE html> <html lang=" ...
2017 SCNUCPC 解题报告
校内赛题目.解题思路.参考代码一览 A. Blackstorm's Blackstore Problem Description Blackstorm is going to open a black ...
【读书笔记】iOS-手势识别
一,事件处理机制事件是当用户手指触及屏幕,或地屏幕上滑动,或摇晃设备等时候,系统不断地把这些事件通过消息发送给应用程序对象.在iOS设备中能够捕获的事件有3种:触摸事件,移动事件和多媒体远程控制事件 ...
【读书笔记】iOS-优化iOS Web应用
一,代码优化: 代码优化是任何优化技术的第一步,因为归根结底网页上的一切都是构建在代码之上的.优秀的代码可以节省宽带,减少渲染延迟,以及提高页面的可读性和长远的可维护性.下面列出了一些在Web应用中编 ...
web全栈架构师[笔记] — 03 html5新特性
HTML5新特性一.geolocation PC端精度比较低通过IP库定位移动端通过GPS window.navigator.geolocation 单次 getCurrentPositio ...
安卓开发_深入理解Content Provider
一.Content Provider概述 Content Provider用于保存和获取数据,并使其对所有应用程序可见,这是不同应用程序之间共享数据的唯一方式,因为在Android中没有提供所有应用可 ...
使Volley完美支持自定义证书的Https
其实在最早的版本里,Volley甚至是不支持https协议的,只能跑http,当然你也可以自己修改他的源码让他支持,如今volley的代码经过一些改进以后, 已经可以完美支持https协议了,无论是在 ...
【Java入门提高篇】Day27 Java容器类详解（九）LinkedList详解
这次介绍一下List接口的另一个践行者——LinkedList,这是一位集诸多技能于一身的List接口践行者,可谓十八般武艺,样样精通,栈.队列.双端队列.链表.双向链表都可以用它来模拟,话不多说,赶 ...

Spark笔记-DataSet，DataFrame

Spark笔记-DataSet，DataFrame的更多相关文章

随机推荐

热门专题