spark2.1：使用df.select(when(a===b,1).otherwise(0))替换(case when a==b then 1 else 0 end)

最近工作中把一些sql.sh脚本执行hive的语句升级为spark2.1版本，其中遇到将case when 替换为scala操作df的方式实现的问题：

代码数据：

scala>     import org.apache.spark.sql.functions._

import org.apache.spark.sql.functions._

scala>     import spark.implicits._

import spark.implicits._

scala>     case class fpb_servercls(gridid: String, height: Int, objectid: Int, rsrp: Double, calibrategridid: Int, calibartetype: String)

defined class fpb_servercls

scala>

     |     val fpb_server_test = List(

     |       fpb_servercls("grid1", 0, 888888, -88, 53, null),

     |       fpb_servercls("grid1", 5, 888888, -99, 53, null),

     |       fpb_servercls("grid2", 0, 333333, -78, 53, null),

     |       fpb_servercls("grid4", 0, 444444, -78, 53, null)

     |     ).toDF

fpb_server_test: org.apache.spark.sql.DataFrame = [gridid: string, height: int ... 4 more fields]

scala>     val sampe_data_test = List(

     |       fpb_servercls("grid1", 0, 888888, -78, 53, "HOMEWIFI"),

     |       fpb_servercls("grid1", 5, 999999, -89, 53, null),

     |       fpb_servercls("grid2", 0, 333333, -87, 53, null)

     |     ).toDF

sampe_data_test: org.apache.spark.sql.DataFrame = [gridid: string, height: int ... 4 more fields]

错误代码：

scala>         val temp_result = fpb_server_test.alias("fpb").join(sampe_data_test.alias("sample"),

     |           fpb_server_test("gridid") === sampe_data_test("gridid")

     |             && fpb_server_test("height") === sampe_data_test("height")

     |             && fpb_server_test("objectid") === sampe_data_test("objectid"), "left_outer")
     |          .select(

     |             fpb_server_test("gridid"),

     |             fpb_server_test("height"),

     |             fpb_server_test("objectid"),

     |             when(sampe_data_test("gridid") === lit(null), fpb_server_test("rsrp")).otherwise(sampe_data_test("rsrp")).alias("rsrp"),

     |             fpb_server_test("calibrategridid"),

     |             when(sampe_data_test("gridid") === lit(null), fpb_server_test("calibartetype")).otherwise(sampe_data_test("calibartetype")).alias("f_calibartetype")

     |           )

temp_result: org.apache.spark.sql.DataFrame = [gridid: string, height: int ... 4 more fields]

scala> temp_result.show

+------+------+--------+-----+---------------+---------------+

|gridid|height|objectid| rsrp|calibrategridid|f_calibartetype|

+------+------+--------+-----+---------------+---------------+

| grid1|     0|  888888|-78.0|             53|       HOMEWIFI|

| grid1|     5|  888888| null|             53|           null|

| grid2|     0|  333333|-87.0|             53|           null|

| grid4|     0|  444444| null|             53|           null|

+------+------+--------+-----+---------------+---------------+

错误的愿意就是这里的判定是否为空的地方。

正确用法：

scala>  val temp_result = fpb_server_test.alias("fpb").join(sampe_data_test.alias("sample"),

     |       fpb_server_test("gridid") === sampe_data_test("gridid")

     |         && fpb_server_test("height") === sampe_data_test("height")

     |         && fpb_server_test("objectid") === sampe_data_test("objectid"), "left_outer")
     |    .select(

     |       fpb_server_test("gridid"),

     |       fpb_server_test("height"),

     |       fpb_server_test("objectid"),

     |       when(sampe_data_test("gridid").isNull, fpb_server_test("rsrp")).otherwise(sampe_data_test("rsrp")).alias("rsrp"),

     |       fpb_server_test("calibrategridid"),

     |       when(sampe_data_test("gridid").isNull, fpb_server_test("calibartetype")).otherwise(sampe_data_test("calibartetype")).alias("f_calibartetype")

     |     )

temp_result: org.apache.spark.sql.DataFrame = [gridid: string, height: int ... 4 more fields]

scala> temp_result.show

+------+------+--------+-----+---------------+---------------+

|gridid|height|objectid| rsrp|calibrategridid|f_calibartetype|

+------+------+--------+-----+---------------+---------------+

| grid1|     0|  888888|-78.0|             53|       HOMEWIFI|

| grid1|     5|  888888|-99.0|             53|           null|

| grid2|     0|  333333|-87.0|             53|           null|

| grid4|     0|  444444|-78.0|             53|           null|

+------+------+--------+-----+---------------+---------------+

疑问代码，如下代码在spark-shell中执行没有问题，但是使用spark-submit提交脚本后就提示错误：

scala>   val temp_result = fpb_server_test.alias("fpb").join(sampe_data_test.alias("sample"),

     |       fpb_server_test("gridid") === sampe_data_test("gridid")

     |         && fpb_server_test("height") === sampe_data_test("height")

     |         && fpb_server_test("objectid") === sampe_data_test("objectid"), "left_outer")
     |       .selectExpr("fpb.gridid", "fpb.height", "fpb.objectid",

     |         "(case when sample.gridid is null then fpb.rsrp else sample.rsrp end) as rsrp",

     |         "fpb.calibrategridid",

     |         "(case when sample.gridid is null then fpb.calibartetype else sample.calibartetype end) as calibartetype")

temp_result: org.apache.spark.sql.DataFrame = [gridid: string, height: int ... 4 more fields]

scala> temp_result.show

+------+------+--------+-----+---------------+-------------+

|gridid|height|objectid| rsrp|calibrategridid|calibartetype|

+------+------+--------+-----+---------------+-------------+

| grid1|     0|  888888|-78.0|             53|     HOMEWIFI|

| grid1|     5|  888888|-99.0|             53|         null|

| grid2|     0|  333333|-87.0|             53|         null|

| grid4|     0|  444444|-78.0|             53|         null|

+------+------+--------+-----+---------------+-------------+

spark2.1：使用df.select(when(a===b,1).otherwise(0))替换(case when a==b then 1 else 0 end)的更多相关文章

SQL case when else 语句：选出年份等于1970的，选出的结果用科目和获奖者排序，同时把经济和化学2科放到最后：SELECT * FROM nobel_win WHERE year=1970 ORDER BY CASE WHEN subject IN ('Economics','Chemistry') THEN 1 ELSE 0 END ASC, subject, winner;
SELECT * FROM nobel_win WHERE year=1970 ORDER BY CASE WHEN subject IN ('Economics','Chemistry') THE ...
Oracle select 中case 的使用以及使用decode替换case
表结构如下: 将money<50的显示为贫农,money<80的显示为中农,其他的显示为富农,sql 语句如下 select name, case then '贫农' then '中农' ...
滚动条--nicescroll插件（兼容各种浏览器，低至IE5）
<!DOCTYPE html> <html> <head lang="en"> <meta charset="UTF-8&quo ...
jquery.nicescroll.min.js滚动条插件的用法
1.jquery.nicescroll.min.js源码 /* jquery.nicescroll 3.6.8 InuYaksa*2015 MIT http://nicescroll.areaaper ...
深入理解SQL注入绕过WAF和过滤机制
知己知彼,百战不殆 --孙子兵法 [目录] 0x0 前言 0x1 WAF的常见特征 0x2 绕过WAF的方法 0x3 SQLi Filter的实现及Evasion 0x4 延伸及测试向量示例 0x5 ...
《Entity Framework 6 Recipes》中文翻译系列 (14) -----第三章查询之查询中设置默认值和存储过程返回多结果集
翻译的初衷以及为什么选择<Entity Framework 6 Recipes>来学习,请看本系列开篇 3-6在查询中设置默认值问题你有这样一个用例,当查询返回null值时,给相应属性 ...
深入了解SQL注入绕过waf和过滤机制
知己知彼百战不殆 --孙子兵法 [目录] 0x00 前言 0x01 WAF的常见特征 0x02 绕过WAF的方法 0x03 SQLi Filter的实现及Evasion 0x04 延伸及测试向量示例 ...
ACM: Gym 100935G Board Game - DFS暴力搜索
Board Game Time Limit:2000MS Memory Limit:65536KB 64bit IO Format:%I64d & %I64u Gym 100 ...
学生各门课程成绩统计SQL语句大全
学生成绩表(stuscore): 姓名:name 课程:subject 分数:score 学号:stuid 张三数学 89 1 张三语文 80 1 张三英语 70 1 李四数学 90 2 李四 ...

随机推荐

智能合约语言 Solidity 教程系列2 - 地址类型介绍
Solidity教程系列第二篇 - Solidity地址类型介绍. 写在前面 Solidity是以太坊智能合约编程语言,阅读本文前,你应该对以太坊.智能合约有所了解,如果你还不了解,建议你先看以太坊是 ...
神奇的Python
不断学习新的知识,不断掌新的技能是一件非常有趣的事情,其实Python在我学习这门课之前从没听过,刚上第一节课老师给我们讲了一个它的应用比如可以筛选单词,定时放歌等,虽然感觉自己还没有真正理解这门课程 ...
poj-3185-开关问题
描述牛一行20他们喝的水碗.碗可以那么(面向正确的为清凉水)或颠倒的(一个位置而没有水).他们希望所有20个水碗那么,因此用宽鼻子翻碗. 嘴太宽,他们不仅翻转一碗还碗的碗两侧(总共三个或三个——在两 ...
Algorithm --> 字母重排
字母重排输入一个字典(用***结尾),然后再输入若干单词.没输入一个单词w,都需要在字典中找出所有可以用w的字幕重排后得到的单词,并按照字典序从小到大的顺序在一行中输出,如果不存在,输出“:(”.单 ...
Myeclipse快速补充返回值快捷键
比如 image.getGraphics(); 按ALT+Shift+L键,弹出一个确认变量名称框,确认之后会补全语句Graphics graphics = image.getGraphics();
一、Python安装与Pycharm使用入门
一.安装Python 1.Linux下安装一般系统默认已安装2.6.6版本,升级成2.7版本, 但 2.6 不能删除,因为系统对它有依赖,epel源里最新的也是2.6版本,所以以源代码的方式安装2. ...
react native 增量升级方案（转）
前言 facebook的react-native给我们带来了用js写出原生应用的同时,也使得使用RN编写的代码的在线升级变得可能,终于可以不通过应用市场来进行升级,极大的提升了app修bug和赋予新功 ...
IntelliJIDEA中如何使用JavaDoc
IntelliJ IDEA 12.1.6,本身提供了很好的 JavaDoc 生成功能,以及标准 JavaDoc 注释转换功能,其实质是在代码编写过程中,按照标准 JavaDoc 的注释要求,为需要暴露 ...
如何从RxJava升级到RxJava2
如何从RxJava升级到RxJava2. RxJava2已经推出有一年半的时间,由于之前RxJava已经在现有项目中广泛使用,而RxJava2在除了很多命名外并没有太多革新,所以相信有很多人跟我一样都 ...
软件工程网络15团队作业1——团队组队&展示
Deadline: 2018-3-25 10:00PM,以提交至班级博客时间为准. 申请开通团队博客,并将团队博客地址发表在本次随笔的评论中团队展示根据5-6人的组队要求,每个队伍创建团队博客并发 ...

spark2.1：使用df.select(when(a===b,1).otherwise(0))替换(case when a==b then 1 else 0 end)

spark2.1：使用df.select(when(a===b,1).otherwise(0))替换(case when a==b then 1 else 0 end)的更多相关文章

随机推荐

热门专题