RDD转换为DataFrame【反射/编程】

写在前面

主要是加载文件为RDD，再把RDD转换为DataFrame,进而使用DataFrame的API或Sql进行数据的方便操作

简单理解：DataFrame=RDD+Schema

贴代码

package february.sql

import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}

import org.apache.spark.sql.{Row, SparkSession}

/**

  * Description:  ============Spark SQL支持两种不同的方法将现有RDD转换为Datasets数据集==============

  *

  *

  * (1) 反射 case class   前提：事先需要知道你的字段，字段类型

  * (2) 编程              事先不知道有哪几列

  *   ****  优先选择第一种 ****

  *

  * @Author: 留歌36

  * @Date: 2019/2/25 18:41

  */

object DataFrameRDDApp {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder()

                            .appName(this.getClass.getSimpleName)

                            .master("local[2]")

                            .getOrCreate()

    // 方法一：反射

//    inferReflection(spark)

    // 方法二：编程

    program(spark)

    spark.stop()

  }

  /**

    * 编程的方式

    * @param spark

    */

  private def program(spark: SparkSession) = {

    val textFile = spark.sparkContext.textFile("f:\\infos.txt")

    val infoRdd = textFile.map(_.split(",")).map(line => Row(line(0).toInt, line(1), line(2).toInt))

    val structType = StructType(Array(

      StructField("id", IntegerType, true),

      StructField("name", StringType, true),

      StructField("age", IntegerType, true)))

    val DF =spark.createDataFrame(infoRdd, structType)

    DF.printSchema()

    DF.show()

  }

  /**

    * 反射的方式

    * @param spark

    */

  private def inferReflection(spark: SparkSession) = {

    // RDD ==> DataFrame  rdd.toDF()

    val textFile = spark.sparkContext.textFile("f:\\infos.txt")

    // split()返回 String[]

    // 注意：需要导入隐式转换

    import spark.implicits._

    val infoDF = textFile.map(_.split(",")).map(line => Info(line(0).toInt, line(1), line(2).toInt)).toDF()

    // =====基于dataframe的API=======之后的就都是DataFrame 的操作了==============

    infoDF.show()

    infoDF.filter(infoDF.col("age") > 30).show()

    // ======基于SQL的API===========DataFrame 创建为一张表================

    infoDF.createOrReplaceTempView("infos")

    spark.sql("select * from infos where age > 30").show()

  }

  //类似java bean实体类

  // 反射的方式，将RDD的 每个字段 与 这里的实体类 进行一一映射

  case class Info(id: Int, name: String, age: Int)

}

更多相关小demo：每天一个程序：https://blog.csdn.net/liuge36/column/info/34094

RDD转换为DataFrame【反射/编程】的更多相关文章

36、将RDD转换为DataFrame
一.概述为什么要将RDD转换为DataFrame? 因为这样的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用Spark SQL进行SQL查询了.这个功能是无比强大的. 想象一下,针 ...
spark-sql将Rdd转换为DataFrame进行操作的两种方法
SparkConf sparkConf = new SparkConf() .setMaster("local").setAppName("ClzMap"); ...
Spark RDD转换为DataFrame
#构造case class,利用反射机制隐式转换 scala> import spark.implicits._ scala> val rdd= sc.textFile("inp ...
spark-DataFrame之RDD和DataFrame之间的转换
package cn.spark.study.core.mycode_dataFrame; import java.io.Serializable;import java.util.List; imp ...
045 RDD与DataFrame互相转换
一:RDD与DataFrame互相转换 1.总纲二:DataFrame转换为RDD 1.rdd 使用schema可以获取DataFrame的schema 使用rdd可以获取DataFrame的数据 ...
Spark提高篇——RDD/DataSet/DataFrame（二）
该部分分为两篇,分别介绍RDD与Dataset/DataFrame: 一.RDD 二.DataSet/DataFrame 该篇主要介绍DataSet与DataFrame. 一.生成DataFrame ...
RDD、DataFrame和DataSet的区别
原文链接:http://www.jianshu.com/p/c0181667daa0 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同. RDD ...
RDD转换DataFrame
Spark SQL有两种方法将RDD转为DataFrame. 1. 使用反射机制,推导包含指定类型对象RDD的schema.这种基于反射机制的方法使代码更简洁,而且如果你事先知道数据schema,推荐 ...
RDD、DataFrame和DataSet
简述 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同:DataFrame多了数据的结构信息,即schema.RDD是分布式的 Java对象的集 ...

随机推荐

springboot报 org.thymeleaf.exceptions.TemplateInputException: Error resolving template "succeed"；
--------------------- 本文转自林晓风的CSDN 博客 ,全文地址请点击:https://blog.csdn.net/Lin_xiaofeng/article/details/ ...
数据库回滚（rollback）和撤销（undo）的区别
数据库回滚(rollback)和撤销(undo)的区别就是把某一个数据库操作恢复到该操作之前的状态,下面结合自己理解总结一下区别,如有错误,欢迎各路大佬斧正: 数据库事务过程:执行SQL——提交 ...
MSIL实用指南-struct的生成和操作
struct(结构)是一种值类型,用于将一组相关的信息变量组织为一个单一的变量实体.所有的结构都继承自System.ValueType类,因此是一种值类型,也就是说,struct实例分配在线程的堆栈( ...
sql建表经验总结——主要是建表现象
在建表方面你都有哪些感悟? 见过的建表的一些现象: 1,一对多业务,有时候在主表见一个字段xxIds,然后存多表的id,多个英文逗号隔开,不知道这样好不好? 2,大部分字段建成varchar(50), ...
Asp.net MVC 集成AD域认证
1.首先WebApi 应用下Web.config要配置域认证服务器节点,如下  <!--0:关闭域认证:1:开启域认证--&g ...
python 冷知识（装13 指南）
python 冷知识(装13 指南) list1 += list2 和 list1 = list1 + list2 的区别 alpha = [1, 2, 3] beta = alpha # alpha ...
Python AttributeError: 'Module' object has no attribute 'STARTF_USESHOWINDOW'
夫学须志也,才须学也,非学无以广才,非志无以成学.--诸葛亮生活有度,自得慈铭 --杜锦阳今天新来的同事安装环境遇到个莫名其妙的问题: AttributeError: 'Module' objec ...
FZU - 2150-Fire Game BFS-枚举
Fire Game 题意: 两个小朋友可以任选一块草地点火,草地可以不同,也可以相同,问最少的烧光草地的时间. 思路: 一开始看到这个以为是联通块计数,没想到这道题通过枚举两个起始点作为队列的初始点, ...
CF915C Permute Digits 字符串贪心
You are given two positive integer numbers a and b. Permute (change order) of the digits of a to con ...
cesium中json，geojson,stk,影像切片等数据的加载
cesium中json.topojson.geojson.stk,影像切片等数据的加载一.geojson.topojson,json数据的加载不管是哪种json,都可以通过GeoJsonDataS ...

RDD转换为DataFrame【反射/编程】

RDD转换为DataFrame【反射/编程】的更多相关文章

随机推荐

热门专题