Spark RDD转换为DataFrame

#构造case class，利用反射机制隐式转换

scala> import spark.implicits._

scala> val rdd= sc.textFile("input/textdata.txt")

scala> case class Person(id:Int,name:String)

scala> val df = rdd.map(_.split(",")).map(x=>Person(x(0).toInt,x(1))).toDF

scala> df.show

+---+--------+

| id| name|

+---+--------+

| 1|zhangsan|

| 2| lisi|

| 3| wangwu|

| 4| zhaoliu|

+---+--------+

#通过schema，Row构造dataframe

scala> import org.apache.spark.sql.types._

scala> import org.apache.spark.sql.Row

scala> val structFields = Array(StructField("id",IntegerType,true),StructField("name",StringType,true))

scala> val structType = StructType(structFields) #创建schema结构

scala> val lines= sc.textFile("input/textdata.txt")

scala> val rdd = lines.map(_.split(",")).map(x=>Row(x(0).toInt,x(1))) #创建RDD[Row]

scala> val df = spark.createDataFrame(rdd,structType) #通过RDD[Row],schema构建DataFrame

scala> df.show

+---+--------+

| id| name|

+---+--------+

| 1|zhangsan|

| 2| lisi|

| 3| wangwu|

| 4| zhaoliu|

+---+--------+

cat textdata.txt

1,zhangsan

2,lisi

3,wangwu

4,zhaoliu

Spark RDD转换为DataFrame的更多相关文章

RDD转换为DataFrame【反射/编程】
写在前面主要是加载文件为RDD,再把RDD转换为DataFrame,进而使用DataFrame的API或Sql进行数据的方便操作简单理解:DataFrame=RDD+Schema 贴代码 pack ...
36、将RDD转换为DataFrame
一.概述为什么要将RDD转换为DataFrame? 因为这样的话,我们就可以直接针对HDFS等任何可以构建为RDD的数据,使用Spark SQL进行SQL查询了.这个功能是无比强大的. 想象一下,针 ...
spark RDD，DataFrame,DataSet 介绍
弹性分布式数据集(Resilient Distributed Dataset,RDD) RDD是Spark一开始就提供的主要API,从根本上来说,一个RDD就是你的数据的一个不可变的分布式元素集合,在 ...
Spark RDD、DataFrame原理及操作详解
RDD是什么? RDD (resilientdistributed dataset),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计算间重用. RDD内部可以 ...
Spark RDD、DataFrame和DataSet的区别
版权声明:本文为博主原创文章,未经博主允许不得转载. 目录(?)[+] 转载请标明出处:小帆的帆的专栏 RDD 优点: 编译时类型安全编译时就能检查出类型错误面向对象的编程风格直接通过类 ...
spark RDD、DataFrame、DataSet之间的相互转化
这三个数据集看似经常用,但是真正归纳总结的时候,很容易说不出来三个之间的关系与区别参考我的另一篇blog http://www.cnblogs.com/xjh713/p/7309507.html ...
spark-sql将Rdd转换为DataFrame进行操作的两种方法
SparkConf sparkConf = new SparkConf() .setMaster("local").setAppName("ClzMap"); ...
Spark提高篇——RDD/DataSet/DataFrame（二）
该部分分为两篇,分别介绍RDD与Dataset/DataFrame: 一.RDD 二.DataSet/DataFrame 该篇主要介绍DataSet与DataFrame. 一.生成DataFrame ...
spark-DataFrame之RDD和DataFrame之间的转换
package cn.spark.study.core.mycode_dataFrame; import java.io.Serializable;import java.util.List; imp ...

随机推荐

基于ASP.NET高职学生工作管理系统--文献随笔（八）
一.基本信息标题:基于ASP.NET高职学生工作管理系统时间:2015 出版源:电子科技大学关键词:高职; 学生管理; ASP.NET; 系统; 二.研究背景问题定义:随着社会的发展,我国经济 ...
Java 8 Lambda 表达式及 Stream 在集合中的用法
简介虽然 Java 8 已经发布有一段时间了,但是关于 Java 8 中的 Lambda 表达式最近才开始系统的学习,刚开始就被 Stream 的各种骚操作深深的吸引住了,简直漂亮的不像 Java. ...
2019.03.01 bzoj3075: [Usaco2013]Necklace（kmp+dp）
传送门题意简述:给出S,TS,TS,T两个字串,∣S∣≤10000,∣T∣≤1000|S|\le10000,|T|\le1000∣S∣≤10000,∣T∣≤1000,问至少从SSS中删去几个字符能够 ...
ABP框架系列之十四：(Background-Jobs-And-Workers-背景工作和工人)
Introduction ASP.NET Boilerplate provides background jobs and workers those are used to execute some ...
hive、sqoop、MySQL间的数据传递
hdfs到MySQL csv/txt文件到hdfs MySQL到hdfs hive与hdfs的映射: drop table if exists emp;create table emp ( id i ...
PCL-Kinfu编译手册
1:配置要求硬件 Win7-62bit 显卡需要compute Capability >=2.0 可以从https://developer.nvidia.com/cuda-gpus 中查找实 ...
Paper/ Overview | CNN（未完待续）
目录 I. 基础知识 II. 早期尝试 1. Neocognitron, 1980 2. LeCun, 1989 A. 概况 B. Feature maps & Weight sharing ...
561.数组拆分I
题目:给定长度为 2n 的数组, 你的任务是将这些数分成 n 对, 例如 (a1, b1), (a2, b2), ..., (an, bn) ,使得从1 到 n 的 min(ai, bi) 总和最大. ...
给uniGUI的表格控件uniDBGrid加上记录序号的列
uniDBGrid使用起来还是很方便的,但就是没有显示记录序号的功能,必须自己加,参照老外给的解决方案如下: 方案1: 1- 在UniDBGrid建一个第一列 (列的名字起“NO”) 2- 在 Uni ...
微服务日志之Spring Boot Kafka实现日志收集
前言承接上文( 微服务日志之.NET Core使用NLog通过Kafka实现日志收集 https://www.cnblogs.com/maxzhang1985/p/9522017.html ).NE ...

Spark RDD转换为DataFrame

Spark RDD转换为DataFrame的更多相关文章

随机推荐

热门专题