import org.apache.spark.sql.SQLContext
import org.apache.spark.sql.expressions.Window
import org.apache.spark.sql.hive.HiveContext
import org.apache.spark.{SparkConf, SparkContext}

case class Person2(name: String, age: Int, sex: String, salary: Int, deptNo: Int)

case class Dept(deptNo: Int, deptName: String)

object SparkSQLDSLDemo {
def main(args: Array[String]): Unit = {
// 1. 上下文创建
val conf = new SparkConf()
.setAppName("demo")
.setMaster("local[*]")
val sc = SparkContext.getOrCreate(conf)
// 当使用HiveContext的时候需要给定jvm的参数:-XX:PermSize=128M -XX:MaxPermSize=256M
val sqlContext = new HiveContext(sc)
import sqlContext.implicits._
import org.apache.spark.sql.functions._

sqlContext.udf.register("sexToNum", (sex: String) => {
sex.toUpperCase match {
case "M" => 0
case "F" => 1
case _ => -1
}
})
sqlContext.udf.register("self_avg", SelfAvgUDAF)

// 2. 直接创建模拟数据
val rdd1 = sc.parallelize(Array(
Person2("张三", 21, "M", 1235, 1),
Person2("李四", 20, "F", 1235, 1),
Person2("王五", 26, "M", 1235, 1),
Person2("小明", 25, "F", 1225, 1),
Person2("小花", 24, "F", 1425, 1),
Person2("小华", 23, "M", 1215, 1),
Person2("gerry", 22, "F", 1415, 2),
Person2("tom", 21, "F", 1855, 2),
Person2("lili", 20, "F", 1455, 2),
Person2("莉莉", 18, "M", 1635, 2)
))
val rdd2 = sc.parallelize(Array(
Dept(1, "部门1"),
Dept(2, "部门2")
))

val personDataFrame = rdd1.toDF()
val deptDataFrame = rdd2.toDF()

// ====DSL==================================
// cache 多次使用的DataFrame
personDataFrame.cache()
deptDataFrame.cache()

// select语法
println("----select-----")
personDataFrame.select("name", "age", "sex").show()
personDataFrame.select($"name", $"age", $"sex".as("sex1")).show()
personDataFrame.select(col("name").as("name1"), col("age").as("age1"), col("sex")).show()
personDataFrame.selectExpr("name", "age", "sex", "sexToNum(sex) as sex_num").show()

// where/filter
println("------where/filter-------")
personDataFrame.where("age > 22").where("sex = 'M'").where("deptNo = 1").show()
personDataFrame.where("age > 20 AND sex='M' AND deptNo = 1").show()
personDataFrame.where($"age" > 20 && $"sex" === "M" && $"deptNo" === 1).show()
personDataFrame.where($"age" > 20 && $"deptNo" === 1 && ($"sex" !== "F")).show()

// sort
println("-----------sort--------------")
// 全局排序
personDataFrame.sort("salary").select("name", "salary").show()
personDataFrame.sort($"salary".desc).select("name", "salary", "age").show()
personDataFrame.sort($"salary".desc, $"age".asc).select("name", "salary", "age").show()
personDataFrame.orderBy($"salary".desc, $"age".asc).select("name", "salary", "age").show()
personDataFrame
.repartition(5)
.orderBy($"salary".desc, $"age")
.select("name", "salary", "age").show()
// 局部排序(按照分区进行排序)
personDataFrame
.repartition(5)
.sortWithinPartitions($"salary".desc, $"age".asc)
.select("name", "salary", "age")
.show()

// group by
personDataFrame
.groupBy("sex")
.agg(
"salary" -> "avg",
"salary" -> "sum"
)
.show()
personDataFrame
.groupBy("sex")
.agg(
avg("salary").as("avg_salary"),
min("salary").as("min_salary"),
count(lit(1)).as("cnt")
)
.show()
personDataFrame
.groupBy("sex")
.agg(
"salary" -> "self_avg"
)
.show()

// limit
personDataFrame.limit(2).show()

// ==join===============
println("----------join--------------------")
personDataFrame.join(deptDataFrame).show()
// 无法判断deptNo属于哪个DataFrame的会报错
// personDataFrame.join(deptDataFrame, $"deptNo" === $"deptNo")
personDataFrame.join(deptDataFrame.toDF("col1", "deptName"), $"deptNo" === $"col1", "inner").show()
personDataFrame.join(deptDataFrame, "deptNo").show()
personDataFrame
.join(deptDataFrame.toDF("deptNo", "name"), Seq("deptNo"), "left_outer")
.toDF("no", "name", "age", "sex", "sal", "dname")
.show()

// ===窗口分析函数=======必须要是是使用HiveContext对象
/** *
* 按照deptNo分组,组内按照salary进行排序,获取每个部门前3个销售额的用户信息
* select *
* from
* (select *, ROW_NUMBER() OVER (Partition by deptNo Order by salary desc) as rnk
* from person) as tmp
* where tmp.rnk <= 3
*/
val w = Window.partitionBy("deptNo").orderBy($"salary".desc, $"age".asc)
personDataFrame
.select(
$"name", $"age", $"deptNo", $"salary",
row_number().over(w).as("rnk")
)
.where("rnk <= 3")
.show()

// 清除缓存
personDataFrame.unpersist()
personDataFrame.unpersist()
}
}
————————————————
版权声明:本文为CSDN博主「weixin_40652340」的原创文章,遵循CC 4.0 by-sa版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_40652340/article/details/79207455

SparkSQL DSL开发(Old)的更多相关文章

  1. 手把手教你 在IDEA搭建 SparkSQL的开发环境

    1. 创建maven项目 在IDEA中添加scala插件 并添加scala的sdk https://www.cnblogs.com/bajiaotai/p/15381309.html 2. 相关依赖j ...

  2. SparkSQL DSL 随便写写

    @Testdef functionTest() = { Logger.getLogger("org").setLevel(Level.WARN) val spark = getSp ...

  3. 简述 Ruby 与 DSL 在 iOS 开发中的运用

    阅读本文不需要预先掌握 Ruby 与 DSL 相关的知识 何为 DSL DSL(Domain Specific Language) 翻译成中文就是:"领域特定语言".首先,从定义就 ...

  4. 在Visual Studio 2010中使用DSL Tool特定领域开发 开篇

    本来是很想写关于VS的DSL的文章的,有点小忙,就一直在拖延,忽然有看见了"<在Visual Studio 2012中使用VMSDK开发特定领域语言>",又有写的欲望了 ...

  5. 白话 Ruby 与 DSL 以及在 iOS 开发中的运用

    每日一篇优秀博文 2017年10月7日 周六 白话 Ruby 与 DSL 以及在 iOS 开发中的运用 阅读本文不需要预先掌握 Ruby 与 DSL 相关的知识 何为 DSL DSL(Domain S ...

  6. 在Visual Studio 2012中使用VMSDK开发领域特定语言(二)

    本文为<在Visual Studio 2012中使用VMSDK开发领域特定语言>专题文章的第二部分,在这部分内容中,将以实际应用为例,介绍开发DSL的主要步骤,包括设计.定制.调试.发布以 ...

  7. 在Visual Studio 2012中使用VMSDK开发领域特定语言(一)

    前言 本专题主要介绍在Visual Studio 2012中使用Visualization & Modeling SDK进行领域特定语言(DSL)的开发,包括两个部分的内容.在第一部分中,将对 ...

  8. 在Visual Studio 2012中使用VMSDK开发领域特定语言1

    在Visual Studio 2012中使用VMSDK开发领域特定语言(一)   前言 本专题主要介绍在Visual Studio 2012中使用Visualization & Modelin ...

  9. Spring Webflux: Kotlin DSL [片断]

    原文链接:https://dzone.com/articles/spring-webflux-kotlin-dsl-snippets 作者:Biju Kunjummen 译者:Jackie Tang ...

随机推荐

  1. Thinkphp5-0-X远程代码执行漏洞分析(2019-1-11)

    周五下午爆洞能不能让人们好好休个周末! 分析过程 本次漏洞关键位置:/thinkphp/library/think/Request.php,lines:501由图可以看到在method函数中引入了可控 ...

  2. 详解 awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}每个字段的意思

    用这个列子说好了如果NF代表字段 那最后应该是7 才对啊 还有最后怎么都是1呢?END前面的是查看并发吧 后面是查看 tcp连接数 是这样吗?       awk下标采用字符串来表示可能你在其它语言见 ...

  3. MongoDB副本集部署

    mongodb 副本集搭建 环境192.168.1.191   master192.168.1.192   slave,arbiterOS: ubuntu14.04mongodb: mongodb-l ...

  4. python自带函数

    callable() #是否可以被执行,是否可以被调用 chr() #返回整数i对应的ASCII字符.与ord()作用相反.参数x:取值范围[0, 255]之间的正数. ord() #参数是一个asc ...

  5. C#中使用ajax请求

    ajax简介 Ajax 即“Asynchronous Javascript And XML”(异步 JavaScript 和 XML),是指一种创建交互式.快速动态网页应用的网页开发技术,无需重新加载 ...

  6. python学习笔记1 -- 函数式编程之高阶函数 map 和reduce

    我用我自己,就是高阶函数,直接表现就是函数可以作为另一个函数的参数,也可以作为返回值 首先一个知识点是 函数的表现形式,印象中的是def  fw(参数)这种方式定义一个函数 python有很多的内置函 ...

  7. PHP xml_get_current_column_number() 函数

    定义和用法 xml_get_current_column_number() 函数获取 XML 解析器的当前列号. 如果成功,该函数则返回当前列号.如果失败,则返回 FALSE.高佣联盟 www.cge ...

  8. C语言中的数据转换和定义常量

    一.数据转换 1.数据类型转换:C 语言中如果一个表达式中含有不同类型的常量和变量,在计算时,会将它们自动转换为同一种类型:在 C 语言中也可以对数据类型进行强制转换: 2.自动转换规则: a)浮点数 ...

  9. Spring学习总结(4)-Spring生命周期的回调

    参考文档:https://docs.spring.io/spring-framework/docs/current/spring-framework-reference/core.html#beans ...

  10. What is 测试金字塔?

    我的女朋友是一名测试工程师,但她之前却不知道测试金字塔的概念,为此我曾经在家里的白板上画了一个图一层一层给她讲解过.我和同事在给团队面试测试和开发岗位时,也会必问到这个问题,想到可能有很多开发童鞋都不 ...