RDD转换成为DataFrame

方式一：通过case class创建DataFrames（反射）

TestDataFrame1.scala

package com.bky

// 隐式类的导入

// 定义case class，相当于表结构

case class Dept(var id:Int, var position:String, var location:String)

// 需要导入SparkSession这个包

import org.apache.spark.sql.SparkSession

/**

  * 方式一： 通过case class创建DataFrames（反射）

  */

object TestDataFrame1 {

  def main(args: Array[String]): Unit = {

    /**

      * 直接使用SparkSession进行文件的创建。

      * 封装了SparkContext，SparkConf，SQLContext，

      * 为了向后兼容，SQLContext和HiveContext也被保存了下来

      */

    val spark = SparkSession

      .builder()  //构建sql

      .appName("TestDataFrame1") // 设置文件名

      .master("local[2]") // 设置executor

      .getOrCreate() //获取或创建

    import spark.implicits._  // 隐式转换

    // 将本地的数据读入RDD，将RDD与case class关联

    val deptRDD = spark.read.textFile("/Users/hadoop/data/dept.txt")

      .map(line => Dept(line.split("\t")(0).toInt,

        line.split("\t")(1),

        line.split("\t")(2).trim))

    // 将RDD转换成DataFrames（反射）

    val df = deptRDD.toDF()

    // 将DataFrames创建成一个临时的视图

    df.createOrReplaceTempView("dept")

    // 使用SQL语句进行查询

    spark.sql("select * from dept").show()

  }

}

精简版
TestDataFrame1.scala

package com.bky

import org.apache.spark.sql.SparkSession

object TestDataFrame1 extends App {

    val spark = SparkSession

      .builder()  //构建sql

      .appName("TestDataFrame1")

      .master("local[2]")

      .getOrCreate() 

    import spark.implicits._

    val deptRDD = spark.read.textFile("/Users/hadoop/data/dept.txt")

      .map(line => Dept(line.split("\t")(0).toInt,

        line.split("\t")(1),

        line.split("\t")(2).trim))

    val df = deptRDD.toDF()

    df.createOrReplaceTempView("dept")

    spark.sql("select * from dept").show()

}

case class Dept(var id:Int, var position:String, var location:String)

方式二：通过创建structType创建DataFrames（编程接口)

TestDataFrame2.scala

package com.bky

import org.apache.spark.sql.types._

import org.apache.spark.sql.{Row, SparkSession}

/**

  *

  * 方式二：通过创建structType创建DataFrames（编程接口）

  */

object TestDataFrame2 extends App {

  val spark = SparkSession

    .builder()

    .appName("TestDataFrame2")

    .master("local[2]")

    .getOrCreate()

  /**

    * 将RDD数据映射成Row，需要导入import org.apache.spark.sql.Row

    */

  import spark.implicits._

  val path = "/Users/hadoop/data/dept.txt"

  val fileRDD = spark.read.textFile(path)

  val rowRDD= fileRDD.map(line => {

    val fields = line.split("\t")

    Row(fields(0).toInt, fields(1), fields(2).trim)

  })

  // 创建StructType来定义结构

  val innerStruct = StructType(

    // 字段名，字段类型，是否可以为空

      StructField("id", IntegerType, true) ::

        StructField("position", StringType, true) ::

        StructField("location", StringType, true) :: Nil

  )

  val df = spark.createDataFrame(innerStruct)

  df.createOrReplaceTempView("dept")

  spark.sql("select * from dept").show()

}

方式三：通过json文件创建DataFrames

TestDataFrame3.scala

package com.bky

import org.apache.spark.sql.SparkSession

/**

  * 方式三：通过json文件创建DataFrames

  */

object TestDataFrame3 extends App {

  val spark = SparkSession

    .builder()

    .master("local[2]")

    .appName("TestDataFrame3")

    .getOrCreate()

  val path = "/Users/hadoop/data/test.json"

  val fileRDD = spark.read.json(path)

  fileRDD.createOrReplaceTempView("test")

  spark.sql("select * from test").show()

}

RDD转换成为DataFrame的更多相关文章

Spark之 RDD转换成DataFrame的Scala实现
依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2. ...
Spark SQL中 RDD 转换到 DataFrame (方法二）
强调它与方法一的区别:当DataFrame的数据结构不能够被提前定义.例如:(1)记录结构已经被编码成字符串 (2) 结构在文本文件中,可能需要为不同场景分别设计属性等以上情况出现适用于以下方法.1. ...
Spark SQL中 RDD 转换到 DataFrame
1.people.txtsoyo8, 35小周, 30小华, 19soyo,882./** * Created by soyo on 17-10-10. * 利用反射机制推断RDD模式 */impor ...
Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）
一:准备数据源在项目下新建一个student.txt文件,里面的内容为: ,zhangsan, ,lisi, ,wanger, ,fangliu, 二:实现 Java版: 1.首先新建一个s ...
RDD转换成DataFrames
官方提供了2种方法 1.利用反射来推断包含特定类型对象的RDD的schema.这种方法会简化代码并且在你已经知道schema的时候非常适用. 先创建一个bean类 case class Person( ...
RDD转换DataFrame
Spark SQL有两种方法将RDD转为DataFrame. 1. 使用反射机制,推导包含指定类型对象RDD的schema.这种基于反射机制的方法使代码更简洁,而且如果你事先知道数据schema,推荐 ...
sparksql 动态设置schema将rdd转换成dataset/dataframe
java public class DynamicDemo { private static SparkConf conf = new SparkConf().setAppName("dyn ...
如何使用隐式转换扩展DataFrame和RDD以及其他的对象
目的 DataFrame可以点出来很多方法,都是DF内置的. 比如说:df.withColumn(),df.printSchema(). 但是如果你想打印df中的分区位置信息,以及每个key有多少记录 ...
spark的RDD如何转换为DataFrame
1.Dataset与RDD之间的交互 Spark仅支持两种方式来将RDD转成Dataset.第一种方式是使用反射来推断一个RDD所包含的对象的特定类型.这种基于反射的方式会让代码更加地简洁,当你在编写 ...

随机推荐

yii 关于如何改变默认访问的控制器(site)
以前Yii1学了个皮毛就没去管了,现在想重新捡起来Yii2.0.2却出来了,于是搭建好环境来学习. 安装好Yii2后第一个想到的问题就是修改默认的控制器了. 按照网上所说,终于在/vendor/yii ...
在Linux下访问Windows共享文件夹
说明以下操作以Ubuntu为例,大家可以参考. 我在Ubuntu 14.04和16.04都试过了. Windows共享文件夹如果局域网内有一台Windows主机,将指定文件夹设为共享,就可以在局域 ...
jdbc和Java中的日期问题
JDBC中的日期Java.sql.Date 是继承自Java中的Java.util.Date,在实现插入的时候可以将Java.util.Date类型的时间转换成毫秒数,date.getTime(), ...
前端福利之HTML5 UTF-8 中文乱码（转）
<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title> ...
Plupload 多实例上传测试可用
<style type="text/css"> .btn{-webkit-border-radius:3px;-moz-border-radius:3px;-ms-bo ...
Java异常封装
转载: Java异常封装 Java里面的异常在真正工作中使用还是十分普遍的.什么时候该抛出什么异常,这个是必须知道的. 当然真正工作里面主动抛出的异常都是经过分装过的,自己可以定义错误码和异常描述. ...
[label][转载][JavaSript]querySelectorAll 方法相比 getElementsBy 系列方法有什么区别？
轉載出處: http://www.zhihu.com/question/24702250 querySelectorAll 相比下面这些方法有什么区别? getElementsByTagName g ...
Last-Modified Header in Asp.net Core MVC
public class YourController : Controller { public ActionResult MyPage(string id) { var entity = _db. ...
Tomcat启动报错Invalid character found in method name. HTTP method names must be tokens
1.tomcat服务器需配置三个端口才能启动,安装时默认启用了这三个端口,当要运行多个tomcat服务时需要修改这三个端口,不能相同. 端口一: 修改http访问端口(默认为8080端口),配置文件为 ...
asp.net 类头部描述
这里教大家怎么在新建类的时候默认有头部描述,先看效果: 像这样的内容我们要怎么进行添加呢? 前方高能...... 找到VS的安装目录-->比如我自己的安装目录D:\VS2013\Common7\ ...

RDD转换成为DataFrame

方式一： 通过case class创建DataFrames（反射）

方式二：通过创建structType创建DataFrames（编程接口)

方式三：通过json文件创建DataFrames

RDD转换成为DataFrame的更多相关文章

随机推荐

热门专题

方式一：通过case class创建DataFrames（反射）