Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）

一：准备数据源

在项目下新建一个student.txt文件，里面的内容为：

,zhangsan,

,lisi,

,wanger,

,fangliu,

二：实现

Java版：

1.首先新建一个student的Bean对象，实现序列化和toString()方法，具体代码如下：

import java.io.Serializable;  

@SuppressWarnings("serial")

public class Student implements Serializable {  

    String sid;

    String sname;

    int sage;

    public String getSid() {

        return sid;

    }

    public void setSid(String sid) {

        this.sid = sid;

    }

    public String getSname() {

        return sname;

    }

    public void setSname(String sname) {

        this.sname = sname;

    }

    public int getSage() {

        return sage;

    }

    public void setSage(int sage) {

        this.sage = sage;

    }

    @Override

    public String toString() {

        return "Student [sid=" + sid + ", sname=" + sname + ", sage=" + sage + "]";

    }

}

2.转换，具体代码如下

import java.util.ArrayList;  

import org.apache.spark.SparkConf;

import org.apache.spark.api.java.JavaRDD;

import org.apache.spark.sql.Dataset;

import org.apache.spark.sql.Row;

import org.apache.spark.sql.RowFactory;

import org.apache.spark.sql.SaveMode;

import org.apache.spark.sql.SparkSession;

import org.apache.spark.sql.types.DataTypes;

import org.apache.spark.sql.types.StructField;

import org.apache.spark.sql.types.StructType;  

public class TxtToParquetDemo {  

    public static void main(String[] args) {  

        SparkConf conf = new SparkConf().setAppName("TxtToParquet").setMaster("local");

        SparkSession spark = SparkSession.builder().config(conf).getOrCreate();  

        reflectTransform(spark);//Java反射

        dynamicTransform(spark);//动态转换

    }  

    /**

     * 通过Java反射转换

     * @param spark

     */

    private static void reflectTransform(SparkSession spark)

    {

        JavaRDD<String> source = spark.read().textFile("stuInfo.txt").javaRDD();  

        JavaRDD<Student> rowRDD = source.map(line -> {

            String parts[] = line.split(",");  

            Student stu = new Student();

            stu.setSid(parts[]);

            stu.setSname(parts[]);

            stu.setSage(Integer.valueOf(parts[]));

            return stu;

        });  

        Dataset<Row> df = spark.createDataFrame(rowRDD, Student.class);

        df.select("sid", "sname", "sage").

        coalesce().write().mode(SaveMode.Append).parquet("parquet.res");

    }

    /**

     * 动态转换

     * @param spark

     */

    private static void dynamicTransform(SparkSession spark)

    {

        JavaRDD<String> source = spark.read().textFile("stuInfo.txt").javaRDD();  

        JavaRDD<Row> rowRDD = source.map( line -> {

            String[] parts = line.split(",");

            String sid = parts[];

            String sname = parts[];

            int sage = Integer.parseInt(parts[]);  

            return RowFactory.create(

                    sid,

                    sname,

                    sage

                    );

        });  

        ArrayList<StructField> fields = new ArrayList<StructField>();

        StructField field = null;

        field = DataTypes.createStructField("sid", DataTypes.StringType, true);

        fields.add(field);

        field = DataTypes.createStructField("sname", DataTypes.StringType, true);

        fields.add(field);

        field = DataTypes.createStructField("sage", DataTypes.IntegerType, true);

        fields.add(field);  

        StructType schema = DataTypes.createStructType(fields);  

        Dataset<Row> df = spark.createDataFrame(rowRDD, schema);

        df.coalesce().write().mode(SaveMode.Append).parquet("parquet.res1");

    }

}

scala版本：

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.types.StringType

import org.apache.spark.sql.types.StructField

import org.apache.spark.sql.types.StructType

import org.apache.spark.sql.Row

import org.apache.spark.sql.types.IntegerType  

object RDD2Dataset {  

  case class Student(id:Int,name:String,age:Int)

  def main(args:Array[String])

  {  

    val spark=SparkSession.builder().master("local").appName("RDD2Dataset").getOrCreate()

    import spark.implicits._

    reflectCreate(spark)

    dynamicCreate(spark)

  }  

 /**

     * 通过Java反射转换

     * @param spark

     */

  private def reflectCreate(spark:SparkSession):Unit={

    import spark.implicits._

    val stuRDD=spark.sparkContext.textFile("student2.txt")

    //toDF()为隐式转换

    val stuDf=stuRDD.map(_.split(",")).map(parts⇒Student(parts().trim.toInt,parts(),parts().trim.toInt)).toDF()

    //stuDf.select("id","name","age").write.text("result") //对写入文件指定列名

    stuDf.printSchema()

    stuDf.createOrReplaceTempView("student")

    val nameDf=spark.sql("select name from student where age<20")

    //nameDf.write.text("result") //将查询结果写入一个文件

    nameDf.show()

  }  

  /**

     * 动态转换

     * @param spark

     */

  private def dynamicCreate(spark:SparkSession):Unit={

    val stuRDD=spark.sparkContext.textFile("student.txt")

    import spark.implicits._

    val schemaString="id,name,age"

    val fields=schemaString.split(",").map(fieldName => StructField(fieldName, StringType, nullable = true))

    val schema=StructType(fields)

    val rowRDD=stuRDD.map(_.split(",")).map(parts⇒Row(parts(),parts(),parts()))

    val stuDf=spark.createDataFrame(rowRDD, schema)

        stuDf.printSchema()

    val tmpView=stuDf.createOrReplaceTempView("student")

    val nameDf=spark.sql("select name from student where age<20")

    //nameDf.write.text("result") //将查询结果写入一个文件

    nameDf.show()

  }

}

注：1.上面代码全都已经测试通过，测试的环境为spark2.1.0，jdk1.8。

2.此代码不适用于spark2.0以前的版本。

Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）的更多相关文章

Spark之 RDD转换成DataFrame的Scala实现
依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2. ...
[Java] 遍历HashMap和HashMap转换成List的两种方式
遍历HashMap和HashMap转换成List /** * convert the map to the list(1) */ public static void main(String[] ...
Spark SQL初始化和创建DataFrame的几种方式
一.前述 1.SparkSQL介绍 Hive是Shark的前身,Shark是SparkSQL的前身,SparkSQL产生的根本原因是其完全脱离了Hive的限制. SparkSQL支持查询原 ...
将html页改成jsp的两种方式
将html页改成jsp的两种方式作者: 字体:[增加减小] 类型:转载时间:2013-08-13 将html页改成jsp有两种方法,第一种是直接修改html文件,另一种是新建jsp文件.下面为大 ...
python中字典的循环遍历的两种方式
开发中经常会用到对于字典.列表等数据的循环遍历,但是python中对于字典的遍历对于很多初学者来讲非常陌生,今天就来讲一下python中字典的循环遍历的两种方式. 注意: python2和python ...
Android中H5和Native交互的两种方式
Android中H5和Native交互的两种方式:http://www.jianshu.com/p/bcb5d8582d92 注意事项: 1.android给h5页面注入一个对象(WZApp),这个对 ...
C语言中存储多个字符串的两种方式
C语言中存储多个字符串的两种方式方式一二维字符串数组声明: char name[][] = { "Justinian", "Momo", " ...
在基于MVC的Web项目中使用Web API和直接连接两种方式混合式接入
在我之前介绍的混合式开发框架中,其界面是基于Winform的实现方式,后台使用Web API.WCF服务以及直接连接数据库的几种方式混合式接入,在Web项目中我们也可以采用这种方式实现混合式的接入方式 ...
字符串转换成JSON的三种方式
采用Ajax的项目开发过程中,经常需要将JSON格式的字符串返回到前端,前端解析成JS对象(JSON ).ECMA-262(E3) 中没有将JSON概念写到标准中,但在 ECMA-262(E5) 中J ...

随机推荐

Invalidate()函数
Invalidate( ) :使整个窗口客户区无效, 并进行更新显示的函数介绍 void Invalidate( BOOL bErase = TRUE ); 参数: bErase 决定了是否要在WM ...
cesium可视化空间数据1
---恢复内容开始--- 1.多边形我们要从经度和纬度列表中为美国怀俄明州添加一个多边形.(怀俄明被选中是因为它是一个简单的多边形.)我们可以复制并粘贴以下代码到Sandcastle中: < ...
work,i/o最小线程设置
设置work i/o最小线程有两种方式1.通过配置文件设置,影响所有iis部署程序(待验证)2.通过程序代码设置,iis上部署的程序互不影响int minWorker, minIOC; //Get t ...
file.wirtelines()方法【python】
转自:http://www.jb51.net/article/66643.htm
面试题思考：Servlet 生命周期、工作原理
Servlet 生命周期:Servlet 加载--->实例化--->服务--->销毁. init():在Servlet的生命周期中,仅执行一次init()方法.它是在服务器装入Ser ...
通过WireShark抓取iOS联网数据实例分析
本文转载至http://blog.csdn.net/lixing333/article/details/7782539 iosiphone网络filter工具我在另外一篇博客里,介绍了一款比Wire ...
【jdk源码学习】HashMap
package com.emsn.crazyjdk.java.util; /** * “人”类,重写了equals和hashcode方法...,以id来区分不同的人,你懂的... * * @autho ...
R中的各种概率统计分布
名称名称 R对应的名字附加参数 β分布 beta beta shape1, shape2, ncp 二项式分布 binomial binom size, prob 柯西分布 Cauchy cauc ...
AVG
AVG([ DISTINCT | ALL ] expr) [ OVER(analytic_clause) ] SELECT MANAGER_ID, LAST_NAME, ...
160225、解决纯js文件国际化的问题
1.js中国际化 function test(){ alert("<s:text name='jsp.loading'/>"); } 2.最近在做strut ...

Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）

Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）的更多相关文章

随机推荐

热门专题