Spark SQL中 RDD 转换到 DataFrame

1.people.txt
soyo8, 35
小周, 30
小华, 19
soyo,88
2.
/**
  * Created by soyo on 17-10-10.
  * 利用反射机制推断RDD模式
  */
import org.apache.spark.sql.catalyst.encoders.ExpressionEncoder
import org.apache.spark.sql.{Encoder, SparkSession}
import org.apache.spark.sql.SparkSession
case class  Person(name:String,age:Int)
object RDD_To_DataFrame {
  val spark=SparkSession.builder().getOrCreate()
  import spark.implicits._    //支持把一个RDD隐式转换为一个DataFrame

  def main(args: Array[String]): Unit = {
    val df =spark.sparkContext.textFile("file:///home/soyo/桌面/spark编程测试数据/people.txt")
      .map(_.split(",")).map(x=>Person(x(0),x(1).trim.toInt)).toDF()

      df.createOrReplaceTempView("people")   //定制people表
     val personDF=spark.sql("select * from people where age >=30")
    personDF.map(x=>"姓名="+x(0)+","+"年龄="+x(1)).show()
     //转换为表的形式
    personDF.select(personDF("name").as("姓名"),personDF("age").as("年龄")).show()
    personDF.rdd.saveAsTextFile("file:///home/soyo/桌面/spark编程测试数据/新数据.txt")
  }

}
结果：
+--------------+
|         value|
+--------------+
|姓名=soyo8,年龄=35|
|   姓名=小周,年龄=30|
| 姓名=soyo,年龄=88|
+--------------+

+-----+---+
|   姓名| 年龄|
+-----+---+
|soyo8| 35|
|   小周| 30|
| soyo| 88|
+-----+---+

Spark SQL中 RDD 转换到 DataFrame的更多相关文章

Spark SQL中 RDD 转换到 DataFrame (方法二）
强调它与方法一的区别:当DataFrame的数据结构不能够被提前定义.例如:(1)记录结构已经被编码成字符串 (2) 结构在文本文件中,可能需要为不同场景分别设计属性等以上情况出现适用于以下方法.1. ...
Spark中RDD转换成DataFrame的两种方式（分别用Java和Scala实现）
一:准备数据源在项目下新建一个student.txt文件,里面的内容为: ,zhangsan, ,lisi, ,wanger, ,fangliu, 二:实现 Java版: 1.首先新建一个s ...
Spark之 RDD转换成DataFrame的Scala实现
依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-sql_2. ...
spark sql中进行sechema合并
spark sql中支持sechema合并的操作. 直接上官方的代码吧. val sqlContext = new org.apache.spark.sql.SQLContext(sc) // sql ...
Spark SQL怎么创建编程创建DataFrame
创建DataFrame在Spark SQL中,开发者可以非常便捷地将各种内.外部的单机.分布式数据转换为DataFrame.以下Python示例代码充分体现了Spark SQL 1.3.0中DataF ...
Spark SQL中的Catalyst 的工作机制
Spark SQL中的Catalyst 的工作机制答:不管是SQL.Hive SQL还是DataFrame.Dataset触发Action Job的时候,都会经过解析变成unresolved的逻 ...
Spark SQL中列转行（UNPIVOT）的两种方法
行列之间的互相转换是ETL中的常见需求,在Spark SQL中,行转列有内建的PIVOT函数可用,没什么特别之处.而列转行要稍微麻烦点.本文整理了2种可行的列转行方法,供参考. 本文链接:https: ...
Spark SQL中UDF和UDAF
转载自:https://blog.csdn.net/u012297062/article/details/52227909 UDF: User Defined Function,用户自定义的函数,函数 ...
Spark sql -- Spark sql中的窗口函数和对应的api
一.窗口函数种类 ranking 排名类 analytic 分析类 aggregate 聚合类 Function Type SQL DataFrame API Description Ranking ...

随机推荐

Linux kernel memory-faq.txt
## Linux kernel memory-faq.txt What is some existing documentation on Linux memory management? Ulric ...
JAVA基础——集合浅析
Java 集合数组是一种很常见的数据结构,开始接触编程的时候多数程序都和数组相关.刚开始接触Java时也是一直使用数组写一些程序,后来越来越觉得数组这东西没法满足需求了,这时一位“前辈” ...
ionic3视频播放功能
因为项目的需要,需要使用视频播放的功能,使用的是videogular2插件,但是报了一个无法识别video-player 这个标签,百度了很多,发现原来是版本不对,ionic3是以来angular5 ...
安装ubuntu系统空间分配问题
以下是我安装linux系统(ubuntu)时的系统空间配置,以50G为例: 挂载点大小格式分区类型 / 15G Ext4 主分区 /home 30G Ext4 逻辑分区 /boot 1G Ext ...
python_ 学习笔记（运算符）
python的运算符基本和C语言一致,以下说一些不一样的! 算术运算符 **:代表乘方,对应也有**=: //:代表商向下取整,对应也有//=: 逻辑运算符 and or not 位运算符 :& ...
String类的判断功能
/* * Object:是类层级结构中的根类,所有的类都直接或间接的继承自该类. * 如果一个方法的形式参数是Object,那么这里我们就可以传递它的任意的子类对象. * * String类的判断功能 ...
UVALive 6510 Stickers
Stickers Time Limit: 3000ms Memory Limit: 131072KB This problem will be judged on UVALive. Original ...
HDU 3784 继续xxx定律 & HDU 2578 Dating with girls(1)
HDU 3784 继续xxx定律 HDU 2578 Dating with girls(1) 做3748之前要先做xxx定律对于一个数n,如果是偶数,就把n砍掉一半:如果是奇数,把n变成 3*n+ ...
TCP/IP协议1
1.分层应用层 telent 远程登录,ftp 文件传输协议,smtp 简单邮件传送协议 snmp 简单网络管理协议 email 运输层 tcp(提供可靠的数据通信)和udp(数据报的分组从一台主 ...
poj——1330 Nearest Common Ancestors
Nearest Common Ancestors Time Limit: 1000MS Memory Limit: 10000K Total Submissions: 30082 Accept ...

Spark SQL中 RDD 转换到 DataFrame

Spark SQL中 RDD 转换到 DataFrame的更多相关文章

随机推荐

热门专题