基于API和SQL的基本操作【DataFrame】

写在前面：

当得到一个DataFrame对象之后，可以使用对象提供的各种API方法进行直接调用，进行数据的处理。

  // =====基于dataframe的API=======之后的就都是DataFrame 的操作了==============

    infoDF.show()

    infoDF.filter(infoDF.col("age") > 30).show()

另，也可以将DataFrame对象通过createOrReplaceTempView()方法，将其转为一张表，从而使用SQL来进行数据处理。

    // ======基于SQL的API===========DataFrame 创建为一张表================

    infoDF.createOrReplaceTempView("infos")

    spark.sql("select * from infos where age > 30").show()

主要介绍一下API的基本操作，因为SQL的话，写法和传统的基本没差。

DEMO1

package february.sql

import org.apache.spark.sql.SparkSession

/**

  * Description: DataFrame API基本操作  直接读取Json文件为DataFrame对象

  *

  * @Author: 留歌36

  * @Date: 2019/2/24 17:54

  */

object DataFrameApp {

  def main(args: Array[String]): Unit = {

    // Spark SQL的入口点是：SparkSession

   val spark = SparkSession.builder()

                            .appName(this.getClass.getSimpleName)

                            .master("local[2]")

                            .getOrCreate()

    // 将json文件加载成一个DataFrame

   val DF = spark.read.format("json").load("f:\\user.json")

    // 输出dataframe对应的schema的信息

    DF.printSchema()

    // 输出数据集的前20条数据

    DF.show()

    // 查询某几列所有的数据：select name from table

    DF.select("name").show()

    // 查询某几列的所有数据，并对列进行计算：select name, age+10 from table;

    DF.select(DF.col("name"), (DF.col("age")+10).as("age2")).show()

    // 根据某一列的值，进行过滤。select * from table where age > 21

    DF.filter(DF.col("age") > 21).show()

    // 根据某一列进行分组，然后再进行聚合 select age,count(1) from table group by age

    DF.groupBy("age").count().show()

    spark.stop()

  }

}

DEMO2

package february.sql

import february.sql.DataFrameRDDApp.Info

import org.apache.spark.sql.SparkSession

/**

  * Description: DataFrame中的其他操作  读取TXT文件为RDD，再反射隐式转换为DataFrame对象

  *

  * @Author: 留歌36

  * @Date: 2019/2/25 19:31

  */

object DataFrameCase {

  def main(args: Array[String]): Unit = {

    val spark = SparkSession.builder().appName(this.getClass.getSimpleName).master("local[2]").getOrCreate()

    // RDD => DataFrame

    val textFile = spark.sparkContext.textFile("f:\\users.txt")

    textFile.foreach(println)

    // 注意这里的隐私转换,split("\\|") 竖线需要转义

    import spark.implicits._

    val DF = textFile.map(_.split("\\|")).map(line => Student(line(0).toInt, line(1), line(2), line(3))).toDF()

    DF.show()

    // show 方法默认只显示前20条记录，show()在这里被重载了很多次

    DF.show(30)

    DF.show(30,false) //不隐藏其余的

    // 返回前10条记录

    DF.take(10).foreach(println)

    DF.first()

    DF.head(5)

    DF.select("name","phone").show(30,false)

    //name字段为空或NULL的过滤出来

    DF.filter("name='' OR name='NULL'").show()

    // name 以M开头的

    DF.filter("SUBSTR(name,0,1)='留'").show()

    // 排序的使用,几种传递参数的方式

    DF.sort(DF.col("name").desc).show() //降序

    DF.sort(DF("name")).show()

    DF.sort("name").show()

    // 排序升级操作

    DF.sort("name", "id").show()

    DF.sort(DF("name").asc, DF("id").desc).show() //name的升序，id的降序

    // 修改查询的列名(别名的使用)

    DF.select(DF("name").as("stuent_name")).show()

   // join 操作

    val DF2 = textFile.map(_.split("\\|")).map(line => Student(line(0).toInt, line(1), line(2), line(3))).toDF()

   // 默认内连接

    val joinDF = DF.join(DF2, DF("id") === DF2("id"))

    joinDF.show()

   //查看所有的内置函数

//    spark.sql("show functions").show(1000)

    spark.stop()

  }

  case class Student(id: Int, name: String, phone: String,email: String)

}

更多相关小demo：每天一个程序：https://blog.csdn.net/liuge36/column/info/34094

基于API和SQL的基本操作【DataFrame】的更多相关文章

且谈 Apache Spark 的 API 三剑客：RDD、DataFrame 和 Dataset
作者:Jules S. Damji 译者:足下本文翻译自 A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets ,翻译已 ...
MySQL（一） -- MySQL学习路线、数据库的基础、关系型数据库、关键字说明、SQL、MySQL数据库、MySQL服务器对象、SQL的基本操作、库操作、表操作、数据操作、中文数据问题、校对集问题、web乱码问题
1 MySQL学习路线基础阶段:MySQL数据库的基本操作(增删改查),以及一些高级操作(视图.触发器.函数.存储过程等). 优化阶段:如何提高数据库的效率,如索引,分表等. 部署阶段:如何搭建真实 ...
基于Oracle的SQL优化（社区万众期待数据库优化扛鼎巨著）
基于Oracle的SQL优化(社区万众期待数据库优化扛鼎巨著) 崔华编 ISBN 978-7-121-21758-6 2014年1月出版定价:128.00元 856页 16开编辑推荐本土O ...
基于iSCSI的SQL Server 2012群集测试(四)--模拟群集故障转移
6.模拟群集故障转移 6.1 模拟手动故障转移(1+1) 模拟手动故障转移的目的有以下几点: 测试群集是否能正常故障转移测试修改端口是否能同步到备节点测试禁用full-text和Browser服务 ...
数据库基于索引的SQL语句优化之降龙十八掌（转）
一篇挺不错的关于SQL语句优化的文章,因不知原始出处,故未作引用说明! 1 前言客服业务受到SQL语句的影响非常大,在规模比较大的局点,往往因为一个小的SQL语句不够优化,导致数据库性能急 ...
基于oracle的sql优化
[基于oracle的sql优化] 基于oracle的sql优化 [博主]高瑞林 [博客地址]http://www.cnblogs.com/grl214 一．编写初衷描述在应有系统开发初期,由于数据库 ...
转://从一条巨慢SQL看基于Oracle的SQL优化
http://mp.weixin.qq.com/s/DkIPwbDKIjH2FMN13GkT4w 本次分享的内容是基于Oracle的SQL优化,以一条巨慢的SQL为例,从快速解读SQL执行计划.如何从 ...
2019年5月1日起安卓应用应基于API 26开发，那么API等级是啥？
2019年5月1日起安卓应用应基于API 26开发,那么API等级是啥? 转 https://www.ithome.com/html/android/372234.htm 据泰尔终端实验室公众微信 ...
基于时间的 SQL注入研究
SQL注入攻击是业界一种非常流行的攻击方式,是由rfp在1998年<Phrack>杂志第54期上的“NT Web Technology Vulnerabilities”文章中首次提出的.时 ...

随机推荐

cf 1102 B
题意:求字符串中任意相邻两位是否可以可以由前一个加上任意个x或y屏蔽十位与后一位相等,如果可以需要添加的最少数字是多少,x值为0-9,y值也为0-9,求出任意x,y对应情形下字符串需要添加的最少数字, ...
通过sql命令建表和主外键约束以及其他约束
create table命令 create table dept ( dept_id int primary key, dept_name ) not null, dept_address ) ) c ...
前端项目升级到React-router5中遇到的问题解决方案以及思路
我胡汉三有日子没回来写写文章了,最近一直再忙着将老项目升级,所以没时间来搞文章,今天突然感觉开了挂一样,爱因斯坦附体,把之前的bug都搞定了,在这里特意把升级中遇到的问题,记录下来,算是把这个坑填上. ...
Oracle - Tables
创建表 a: Sql语句创建 -- Create table create table Table_Name ( 字段1 VARCHAR2(50), 字段2 VARCHAR2(50) not null ...
Windows平台python验证码识别
参考: http://oatest.dragonbravo.com/Authenticate/SignIn?returnUrl=%2f http://drops.wooyun.org/tips/631 ...
POJ-1984-Navigation Nightmare+带权并查集（中级
传送门:Navigation Nightmare 参考:1:https://www.cnblogs.com/huangfeihome/archive/2012/09/07/2675123.html 参 ...
百度之星资格赛调查问卷 bitset模板（直接将字符串转化成二进制数组并可以计算出十进制值）
Problem Description 度度熊为了完成毕业论文,需要收集一些数据来支撑他的论据,于是设计了一份包含 mm 个问题的调查问卷,每个问题只有 'A' 和 'B' 两种选项. 将问卷散发出去 ...
Error executing DDL via JDBC Statement 导致原因之一:列名使用了sql关键字
WARN: GenerationTarget encountered exception accepting command : Error executing DDL via JDBC Statem ...
JS千分位格式化方法,以及多种方法性能比较
方法一字符串版 function toThousands(num) { var result = '', counter = 0; num = (num || 0).toString(); for ( ...
Java复习笔记(二)：数据类型以及逻辑结构
一.数据类型 1.数据类型又分为基本数据类型和引用数据类型,而他们的区别在于,引用数据类型需要开辟内存空间来进行分配,什么意思呢?先来看看他们有哪些. 整数型:byte,short,int,long ...

基于API和SQL的基本操作【DataFrame】

写在前面：

DEMO1

DEMO2

基于API和SQL的基本操作【DataFrame】的更多相关文章

随机推荐

热门专题