045 RDD与DataFrame互相转换

一：RDD与DataFrame互相转换

1.总纲

二：DataFrame转换为RDD

1.rdd

　　使用schema可以获取DataFrame的schema

　　使用rdd可以获取DataFrame的数据

三：RDD转换为DataFrame

1.第一种方式

　　使用反射，

　　RDD的数据类型必须是case class。

     import sqlContext.implicits._                //如果不写，下面的转换不成功

     //transform

     val path="/spark/logs/input"

     val rdd=sc.textFile(path)

     val apacheAccessDataFrame=rdd

       .filter(line=>ApacheAccessLog.isValidateLogLine(line))

       .map(line => {

         ApacheAccessLog.parseLogLine(line)

     }).toDF()                                    //rdd转换为DataFrame

　　其中，ApacheAccessLog.parseLogLine(line)是case class类型。

2：第二种方式

 package com.scala.it

 import org.apache.spark.rdd.RDD

 import org.apache.spark.sql.types._

 import org.apache.spark.sql.{Row, SQLContext}

 import org.apache.spark.{SparkConf, SparkContext}

 object CreateDataFrameDemo {

   def main(args: Array[String]): Unit = {

     val conf = new SparkConf()

       .setMaster("local[*]")

       .setAppName("hive-join-mysql")

     // 使用kryo序列化机制

     conf.registerKryoClasses(Array(classOf[Row], classOf[Tuple3[Int, String, Double]]))

     val sc = SparkContext.getOrCreate(conf)

     val sqlContext = new SQLContext(sc)

     // ===================================

     // RDD中Row中的各个列的类型必须是一致的(不能有歧义)

     val rdd: RDD[Row] = sc.parallelize(Array(

       (1, "Tom", 1234.1),

       (2, "Lili", 12532.2),

       (3, "Gerry", 123.0)

     )).map {

       case (id, name, salary) => {

         Row(id, name, salary)

       }

     }

     val schema: StructType = StructType(Array(

       StructField("id", IntegerType),

       StructField("name", StringType),

       StructField("salary", DoubleType)

     ))

     val df = sqlContext.createDataFrame(rdd, schema)

     df.show()

   }

 }

3.解释上面的程序

　　产生RDD有两种方式，读取数据源，或者序列化

　　这里使用序列化产生RDD。

　　-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

　　关于rdd中为什么要使用Row：

　　------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

　　关于StructType：

　　-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------

　　关于StructField：

　　　　其中，后两个是默认参数，可以不给。

045 RDD与DataFrame互相转换的更多相关文章

RDD与DataFrame的转换
RDD与DataFrame转换1. 通过反射的方式来推断RDD元素中的元数据.因为RDD本身一条数据本身是没有元数据的,例如Person,而Person有name,id等,而record是不知道这些的 ...
转】RDD与DataFrame的转换
原博文出自于: http://www.cnblogs.com/namhwik/p/5967910.html RDD与DataFrame转换1. 通过反射的方式来推断RDD元素中的元数据.因为RDD本身 ...
RDD&Dataset&DataFrame
Dataset创建 object DatasetCreation { def main(args: Array[String]): Unit = { val spark = SparkSession ...
36、将RDD转换为DataFrame
一.概述为什么要将RDD转换为DataFrame? 因为这样的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用Spark SQL进行SQL查询了.这个功能是无比强大的. 想象一下,针 ...
spark-DataFrame之RDD和DataFrame之间的转换
package cn.spark.study.core.mycode_dataFrame; import java.io.Serializable;import java.util.List; imp ...
RDD、DataFrame、Dataset三者三者之间转换
转化: RDD.DataFrame.Dataset三者有许多共性,有各自适用的场景常常需要在三者之间转换 DataFrame/Dataset转RDD: 这个转换很简单 val rdd1=testDF. ...
RDD、DataFrame和DataSet的区别
原文链接:http://www.jianshu.com/p/c0181667daa0 RDD.DataFrame和DataSet是容易产生混淆的概念,必须对其相互之间对比,才可以知道其中异同. RDD ...
谈谈RDD、DataFrame、Dataset的区别和各自的优势
在spark中,RDD.DataFrame.Dataset是最常用的数据类型,本博文给出笔者在使用的过程中体会到的区别和各自的优势共性: 1.RDD.DataFrame.Dataset全都是spar ...
spark RDD，DataFrame,DataSet 介绍
弹性分布式数据集(Resilient Distributed Dataset,RDD) RDD是Spark一开始就提供的主要API,从根本上来说,一个RDD就是你的数据的一个不可变的分布式元素集合,在 ...

随机推荐

04 if条件判断流程控制
条件判断 if 语法一: if 条件: # 条件成立时执行的子代码块代码1 代码2 代码3 示例: sex='female' age=18 is_beautiful=True if sex == ' ...
Python-数据类型主键auto_increment
MySQL数据操作: DML========================================================在MySQL管理软件中,可以通过SQL语句中的DML语言来实 ...
一切皆Socket
“一切皆Socket!” 话虽些许夸张,但是事实也是,现在的网络编程几乎都是用的socket. ——有感于实际编程和开源项目研究. socket()函数介绍 socket函数介绍函数原型 domai ...
destoon使用
使用小计 1.判断是否是手机端 {$DT_TOUCH}模板中使用 2.判断句 {if} {/if} 3.表单管理扩展功能-----表单管理:添加表单---->管理表单选项------> ...
Struts2中类数据封装的方式
第一种方式:属性驱动提供对应属性的set方法进行数据的封装.表单的哪些属性需要封装数据,那么在对应的Action类中提供该属性的set方法即可.表单中的数据提交,最终找到Action类中的setXxx ...
Java的家庭记账本程序（B）
日期:2019.2.3 博客期:029 星期日看看今天想先完成jsp的连接操作,所以首先意识到自己的程序中,管理员可以对成员进行冻结.解封操作,所以先回去补了一下数据库的内容!成员的内容里多了一项i ...
大明A+B
大明A+B 时间限制: 1 Sec 内存限制: 32 MB 以内加法的那个"小明"了,现在他甚至会任意长度的正小数的加法.现在,给你两个正的小数A和B,你的任务是代表大明计算出A ...
DIY电源拓扑线
记一些小事. 一.材料及工具:电源座DC-005.热熔胶.废弃PCB.锡线.导线.电烙铁.热风枪(或打火机.热熔胶枪) 二.使用热熔胶将电源座粘在一起.两个电源座之间垫一块废弃的PCB,防止两者距离过 ...
linux 将自己的服务添加到系统service服务
前言我们在linux上要启动一个程序得时候, 往往都是要写一堆路径, 找到要启动得服务程序, 再用 ./*** 启动服务. 那么我们有没有快速启动方法吗, 答案是肯定得 service 介绍官方介 ...
AI-认证
AI-认证做登录验证 #models.py class Users(models.Model): user=models.CharField(max_length=32) pwd=models.Ch ...

045 RDD与DataFrame互相转换

045 RDD与DataFrame互相转换的更多相关文章

随机推荐

热门专题