Spark SQL中 RDD 转换到 DataFrame (方法二）

强调它与方法一的区别：当DataFrame的数据结构不能够被提前定义。例如：（1)记录结构已经被编码成字符串 (2) 结构在文本文件中，可能需要为不同场景分别设计属性等
以上情况出现适用于以下方法。
1.people.txt:
soyo8, 35
小周, 30
小华, 19
soyo,88

/**

  * Created by soyo on 17-10-10.

  * 使用编程方式定义RDD模式

  */

import org.apache.spark.sql.types._

import org.apache.spark.sql.{Row, SparkSession}

object RDD_To_DataFrame2 {

  def main(args: Array[String]): Unit = {

    val spark=SparkSession.builder().getOrCreate()

    val peopleRDD=spark.sparkContext.textFile("file:///home/soyo/桌面/spark编程测试数据/people.txt")

    val schema_S="name age"

    val fields=schema_S.split(" ").map(x=>StructField(x,StringType,nullable = true))

    //生成模式

    val schema=StructType(fields)

    val rowRDD=peopleRDD.map(_.split(",")).map(x=>Row(x(),x().trim))

    val peopleDF=spark.createDataFrame(rowRDD,schema)

    peopleDF.createOrReplaceTempView("people2")

    val results=spark.sql("select * from people2")

    results.show()

    results.groupBy("age").count().show()

  }

}

结果：
+-----+---+
| name|age|
+-----+---+
|soyo8| 35|
|   小周| 30|
|   小华| 19|
| soyo| 88|
+-----+---+

+---+-----+
|age|count|
+---+-----+
| 30|    1|
| 35|    1|
| 19|    1|
| 88|    1|
+---+-----+

Spark SQL中 RDD 转换到 DataFrame (方法二）的更多相关文章

Spark SQL中 RDD 转换到 DataFrame
1.people.txtsoyo8, 35小周, 30小华, 19soyo,882./** * Created by soyo on 17-10-10. * 利用反射机制推断RDD模式 */impor ...
Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）
一:准备数据源在项目下新建一个student.txt文件,里面的内容为: ,zhangsan, ,lisi, ,wanger, ,fangliu, 二:实现 Java版: 1.首先新建一个s ...
Spark SQL中列转行（UNPIVOT）的两种方法
行列之间的互相转换是ETL中的常见需求,在Spark SQL中,行转列有内建的PIVOT函数可用,没什么特别之处.而列转行要稍微麻烦点.本文整理了2种可行的列转行方法,供参考. 本文链接:https: ...
Spark之 RDD转换成DataFrame的Scala实现
依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2. ...
spark sql中进行sechema合并
spark sql中支持sechema合并的操作. 直接上官方的代码吧. val sqlContext = new org.apache.spark.sql.SQLContext(sc) // sql ...
Spark SQL怎么创建编程创建DataFrame
创建DataFrame在Spark SQL中,开发者可以非常便捷地将各种内.外部的单机.分布式数据转换为DataFrame.以下Python示例代码充分体现了Spark SQL 1.3.0中DataF ...
Spark SQL中UDF和UDAF
转载自:https://blog.csdn.net/u012297062/article/details/52227909 UDF: User Defined Function,用户自定义的函数,函数 ...
Spark SQL中的Catalyst 的工作机制
Spark SQL中的Catalyst 的工作机制答:不管是SQL.Hive SQL还是DataFrame.Dataset触发Action Job的时候,都会经过解析变成unresolved的逻 ...
Spark sql -- Spark sql中的窗口函数和对应的api
一.窗口函数种类 ranking 排名类 analytic 分析类 aggregate 聚合类 Function Type SQL DataFrame API Description Ranking ...

随机推荐

12Oracle Database SQL程序
Oracle Databse SQL 程序程序块在这之前,我们所有的sql语句都是一句一句执行的,如果我们把很多事情看作一个整体提交执行的话,必须使用程序块. 声明部分:声名变量及初始化关键字: ...
Getting start with dbus in systemd (03) - sd-bus.h 使用例子（systemd version>=221）
sd-bus.h 例子注意: sd-dbus 是systemd提供的lib,但是这个lib,只有在systemd>v221版本后才可以使用,centos 219版本太低,所以不能使用. 参考: ...
Vscode下调试基于Homestead环境的Laravel框架
PS:最近在学Laravel框架,本机IDE是Vscode,因为Vscode是真的好用!今天突然想调试php代码了,于是疯狂地在网上查资料,经过一上午的不懈努力,终于成功了! 准备工作首先环境要保证 ...
[Luogu] P4626 一道水题 II
---恢复内容开始--- 题目描述一天,szb 在上学的路上遇到了灰太狼. 灰太狼:帮我们做出这道题就放了你. szb:什么题? 灰太狼:求一个能被 [1,n] 内所有数整除的最小数字,并对 100 ...
ssc项目Python爬虫心得
###今日心得 ####time.datetime 1.字符串格式到标准化格式:time.strptime(str, "%Y%m%d") 2.今天的标准化格式:today = da ...
jQuery WeUI 组件下拉刷新和滚动加载的实现
最近在做手机版使用到了下拉刷新和滚动加载,记录一下实现过程: 一.引入文件 ? 1 2 3 4 <link rel="stylesheet" href="Conte ...
（13）Corner Detection角点检测
import cv2 import numpy as np img=cv2.imread('opencv-corner-detection-sample.jpg') gray = cv2.cvtCol ...
NOIP2005 树网的核
题目描述 Description [问题描述]设 T=(V, E, W) 是一个无圈且连通的无向图(也称为无根树),每条边带有正整数的权,我们称T 为树网(treenetwork),其中V, E分别表 ...
kendo Cannot read property 'call' of undefined
造成这个错误的原因是在必须有id的定义
初识iBatis
在JAVA EE应用程序中,持久层框架常用的有:Hibernate和IBATIS(或MyBatis),Hibernate是全自动的,IBatis是半自动的. IBatis的主要的作用是把SQL语句从我 ...

Spark SQL中 RDD 转换到 DataFrame (方法二）

Spark SQL中 RDD 转换到 DataFrame (方法二）的更多相关文章

随机推荐

热门专题