Pyspark 最近使用的一些有趣姿势的梳理

之前对 SQL 还是不是非常熟悉的，但是现在或多或少还是会写一些计算任务。比如最近在推送将所有天级的耗时任务都从传统关系型数据库迁移至 Spark 集群当中进行计算，中间遇到一些有趣的小问题在这里记录一下。

Q: 我想按照某个字段分组并且把一组查询字段连起来得到一个 json 然后把结果作为一个字段应该怎么弄？

A: 这里我的思路是将我们需要 dumps 的字段给拼接起来，然后使用列表将同一个分组里面的是数据组合起来。然后过一个 udf 把列表中的记录处理成数组最后 json.dumps 一下即可。来看个栗子

# 先查询出要操作的目标信息 这一步可以和下面的操作合并，我这里为了方便看拆开了

df = ss.sql("""

                        SELECT

                            t1.pay_id,

                            t1.pay_money,

                            t1.user_id

                        FROM

                            analytics_db.hd_day_order_record t1

                    """)

# 拼接目标字符串并且组合

df = df.select(

               df.pay_id,

               df.pay_money,

               df.pay_user_id,

               f.concat_ws('\001', df.pay_id,  df.pay_user_id, df.pay_money).alias('sku_buys'))

)

# 拼接一个重复 user_id 的 list

df = df.groupBy(df.pay_user_id).agg(f.collect_list('sku_buys').alias('sku_buys'))

# 将 sku_buys 丢给一个 jsondump 的 udf 就可以得到结果了
df = df.select(df.pay_user_id, sb_json(df.sku_buys).alias('sku_buys'))

Q: 如果我想对目标进行分组，并且让他在组内有序应该怎么做？

A: 这通常被称为进行组内排序。其实我之前一直尝试用类似的语法来达到这种效果

df = ss.sql("""

        SELECT

            first(t1.sku_mode) AS sku_mode,

            first(t1.exchange_type_t01) AS exchange_type_t01,

            first(t1.user_id) AS user_id,

            first(t1.pay_id) AS pay_id,

            first(t1.charge_time) AS charge_time,

            first(t2.has_yxs_payment) AS has_yxs_payment,

            first(t2.has_sxy_payment) AS has_sxy_payment,

            first(t2.has_cxy_payment) AS has_cxy_payment,

            first(t2.has_sxy19_payment) AS has_sxy19_payment,

            first(t2.sxy19_join_time) AS sxy19_join_time,

            first(t2.yxs_join_time) AS yxs_join_time

        FROM

            d_exchange_info t1

        JOIN

            analytics_db.md_day_dump_users t2

        ON

            t2.the_day = '{}'

            AND t1.user_id = t2.user_id

        GROUP BY

            t1.user_id

        ORDER BY

            charge_time

""".format(st))

其实这是错的，这里的 order by 并不能达到一个组内排序的效果，而是一个外部排序。所以这里取 first 是一个不稳定的结果。有时候你拿到的是一个结果，也许有时候你拿到的是另外一个结果。要进行组内排序，我们可以先用这样的思路，先对需要 order by 字段的表进行组内排序，然后再让他与其他表 join 获得更多的信息，这样就能保证是有序的。

这里我引用一个窗口函数来达到这样的效果。

        _df = ss.sql("""

                        SELECT

                            t1.user_id,

                            t1.pay_id,

                            t1.sku_mode,

                            t1.charge_time,

                            t1.exchange_type_t01,

                            ROW_NUMBER() OVER(PARTITION BY t1.user_id ORDER BY t1.charge_time) as rid

                        FROM

                            {} t1

                        WHERE

                            t1.refund_state =

                    """.format(exchange_info_table))
　　　　_df = _df.filter(_df.rid==1)

我先使用窗口函数 ROW_NUMBER 以 user_id 分组并且根据 charge_time 对表一进行组内排序。得到结果之后，使用 filter 过滤一下 rid =1 的结果。再与另外一张表 join 得到补充信息就能达到想要的效果。

Q: 我想对结果进行转列应该怎么做？

A: 行转列列转行可能是 SQL 计算里面会经常使用到的方法，但是对于 SQL 并不熟悉的同学（比如我）就不知道该怎么整来看个例子

df = ss.sql("""

    SELECT

        user_id,

        sku_mode,

        credit_score

    FROM

        analytics_db.hd_day_user_credit

    WHERE

        gain_time >= '{}'

        AND gain_time < '{}'

        AND the_day = '{}'

""".format(start_time, end_time, st))

# df.show()

展示的数据类似于

+--------------------+--------+------------+

|             user_id|sku_mode|credit_score|

+--------------------+--------+------------+

|d394899919216bc10...|     yxs|           |

|625002ad625bc9a69...|     yxs|           |

|8dd11e29bf50cb8c8...|     cxy|           |

|0f0b88ff589cb46cd...|     yxs|           |

|eeb8e839139876971...|     yxs|           |

|f63b2b9c8340d3c80...|     cxy|           |

|806c9f0349e7e8389...|     cxy|           |

|bf312181eaaa0ec9e...|     yxs|           |

|ee4a7984dc40cabbf...|     yxs|           |

|7a6b15f16c1f782de...|   sxy19|           |

+--------------------+--------+------------+

only showing top  rows

我们可以基于此将 sku_mode 一样的类型合并进行行转列变换

df = df.groupby('user_id').pivot(

    'sku_mode', ['yxs', 'cxy', 'sxy', 'sxy19']

).agg(

    f.sum('credit_score')

).fillna()

这句话的意思是根据 user_id 进行分组，并且将 sku_mode 的行转列，需要转列的类型需要在后面的 list 中添加，并且列里记录各sku_mode credit_score 汇总的量。

+--------------------+---+---+---+-----+

|             user_id|yxs|cxy|sxy|sxy19|

+--------------------+---+---+---+-----+

|5ec336994e7b5d73f...|  |  |  |    |

|06b1120a4544b1b8a...|  |  |  |    |

|6fe19e193ad43bafc...|  |  |  |    |

|3e5f9fc4550ae7cba...|  |  |  |    |

|b1d1d856e28908f5a...|  |  |  |    |

|7a065e02ed1693cf4...|  |  |  |    |

|651f9f0b11de08003...|  |  |  |    |

|d02491502946aba2f...|  |  |  |    |

|e24b58cb87762b2da...|  |  |  |   |

|925f6a832b1a95c45...|  |  |  |    |

+--------------------+---+---+---+-----+

only showing top  rows

Q: 我想对结果进行列转行应该怎么做？

A: 我们接着上面的例子来讲 unpivot 行转列的逆操作。还是接着刚才那个栗子。

df2 = df

df2 = df2.selectExpr("user_id",

                     "stack(4, 'yxs', yxs, 'cxy', cxy, 'sxy', sxy, 'sxy19', sxy19) AS (sku_mode, credit_score)")

df.where(df.user_id=='e24b58cb87762b2da9fa118316e9c91a').show(, False)

df2.filter(df2.user_id=='e24b58cb87762b2da9fa118316e9c91a').show(, False)

+--------------------------------+---+---+---+-----+

|user_id                         |yxs|cxy|sxy|sxy19|

+--------------------------------+---+---+---+-----+

|e24b58cb87762b2da9fa118316e9c91a|  |  |  |

+--------------------------------+---+---+---+-----+

+--------------------------------+--------+------------+

|user_id                         |sku_mode|credit_score|

+--------------------------------+--------+------------+

|e24b58cb87762b2da9fa118316e9c91a|yxs     |           |

|e24b58cb87762b2da9fa118316e9c91a|cxy     |           |

|e24b58cb87762b2da9fa118316e9c91a|sxy     |           |

|e24b58cb87762b2da9fa118316e9c91a|sxy19   |          |

+--------------------------------+--------+------------+

可以看到我们通过这种办法将列重新组合成行记录。这里需要多延伸一下，这里使用的 selectExpr 语句的语意是将里面的参数直接解析成 select 里面的内容。

stack 函数是 spark 中的 func.他接收无数个参数，第一个参数 n 的意义是转换的行数，对二个开始到后面的参数都是内容。

stack 的作用是将第二个开始的到后面的参数塞进 n 行中。

举个栗子来说哦，就是上文使用的

stack(, 'yxs', yxs, 'cxy', cxy, 'sxy', sxy, 'sxy19', sxy19) AS (sku_mode, credit_score)

这里的语意就是切分成 4 行。从第二个字段开始字符串部分表达的是匹配的 sku_mode 分辨是（'yxs', 'cxy', 'sxy', 'sxy19'）然后跟在他们后面的分别是credit_score 的值然后展现成两列两个字段。有点绕需要多理解一下。最好是在 spark 终端中试一试比较有感觉。

之后还有有意思的姿势会继续补充在这里。

Reference:

https://sparkbyexamples.com/how-to-pivot-table-and-unpivot-a-spark-dataframe/ How to Pivot and Unpivot a Spark SQL DataFrame

https://stackoverflow.com/questions/56371391/in-group-sort-table-join-a-another-table-use-first-func/56371513#56371513

Pyspark 最近使用的一些有趣姿势的梳理的更多相关文章

【洛谷】P2000 拯救世界
题解小迪的blog : https://www.cnblogs.com/RabbitHu/p/9178645.html 请大家点推荐并在sigongzi的评论下面点支持谢谢! 掌握了小迪生成函数的有 ...
Writeup：第五届上海市大学生网络安全大赛-Web
目录 Writeup:第五届上海市大学生网络安全大赛-Web 一.Decade 无参数函数RCE(./..) 二.Easysql 三.Babyt5 二次编码绕过strpos Description: ...
CTF SQL注入
目录一.宽字节注入二.基于约束的注入三.报错注入四.时间盲注五.bool盲注六.order by的注入六.INSERT.UPDATE.DELETE相关的注入七.堆叠注入八.常用绕过 ...
【BZOJ-4127】Abs 树链剖分 + 线段树 (有趣的姿势)
4127: Abs Time Limit: 40 Sec Memory Limit: 256 MBSubmit: 381 Solved: 132[Submit][Status][Discuss] ...
一次有趣的XSS漏洞挖掘分析（1）
最近认识了个新朋友,天天找我搞XSS.搞了三天,感觉这一套程序还是很有意思的.因为是过去式的文章,所以没有图.但是希望把经验分享出来,可以帮到和我一样爱好XSS的朋友.我个人偏爱富文本XSS,因为很有 ...
【转载】soapui基于持续集成工具自动化运行的调研姿势
soapui中的testrunner.bat调研姿势,用于自动化测试副标题:soapui基于持续集成工具自动化运行的调研姿势各位亲爱的同仁们,大家好吗?最近项目在搞持续集成工具,我们的测试用例都是基 ...
FaceRank，最有趣的 TensorFlow 入门实战项目
FaceRank,最有趣的 TensorFlow 入门实战项目 TensorFlow 从观望到入门! https://github.com/fendouai/FaceRank 最有趣? 机器学习是不是 ...
Pyspark spark-submit 集群提交任务以及引入虚拟环境依赖包攻略
网上提交 scala spark 任务的攻略非常多,官方文档其实也非常详细仔细的介绍了 spark-submit 的用法.但是对于 python 的提交提及得非常少,能查阅到的资料非常少导致是有非常多 ...
Bypass X-WAF SQL注入防御（多姿势）
0x00 前言 X-WAF是一款适用中.小企业的云WAF系统,让中.小企业也可以非常方便地拥有自己的免费云WAF. 本文从代码出发,一步步理解WAF的工作原理,多姿势进行WAF Bypass. ...

随机推荐

logback 日志相关
日志相关: logback:https://www.cnblogs.com/gavincoder/p/10091757.html https://www.cnblogs.com/hhhshct/p/9 ...
分享大麦UWP版本开发历程-03.GridView或ListView 滚动底部自动加载后续数据
今天跟大家分享的是大麦UWP客户端,在分类.订单或是搜索时都用到的一个小技巧,技术粗糙大神勿喷. 以大麦分类举例,默认打开的时候,会为用户展示20条数据,当用户滚动鼠标或者使用手势将列表滑动到倒数第二 ...
TCP 为什么需要三次握手而不是两次
我的理解: A 发送给B SYN, 然后B回复A ACK, 假设这两次握手已经完成, 但是B不知道A是否收到ACK就开始 recv , 这样就是空等算是死循环吧??
VS2017 配置 boost_1_70
1. 下载与安装 1.1 安装方法1 (1) 下载 https://www.boost.org/ 或者使用 https://sourceforge.net/projects/boost/files/b ...
【阿里云开发】- 安装MySQL数据库
我用的机器配置是阿里云轻量服务器,系统:CentOS7.3,内存:2G,系统盘40G,1核. 在CentOS中默认安装有MariaDB,这个是MySQL的分支,但为了需要,还是要在系统中安装MySQ ...
【面试突击】- Mybatis-#{}和${}的区别
原文链接:mybatis中#{}和${}的区别 1. #将传入的数据都当成一个字符串,会对自动传入的数据加一个双引号.如:order by #user_id#,如果传入的值是111,那么解析成sql时 ...
UnicodeDecodeError: 'utf-8' codec can't decode byte..问题
解决UnicodeDecodeError: 'utf-8' codec can't decode byte..问题问题描述: 问题分析: 该情况是由于出现了无法进行转换的二进制数据造成的,可以写 ...
Bootstrap框架简单使用
目录 Bootstrap框架简单使用什么是Bootstrap 下载 Bootstrap 项目结构 Bootstrap 简单使用表格格式 Bootstrap 按钮颜色尺寸 Bootstrap框架 ...
JavaScript HTML DOM元素节点常用操作接口
在文档对象模型 (DOM) 中,每个节点都是一个对象.DOM 节点有三个重要的属性 : 1. nodeName : 节点的名称 2. nodeValue :节点的值 3. nodeType :节点的类 ...
org.springframework.dao.DuplicateKeyException: 问题
转自:https://blog.51cto.com/chengxuyuan/1786938 org.springframework.dao.DuplicateKeyException: a diffe ...

Pyspark 最近使用的一些有趣姿势的梳理

Pyspark 最近使用的一些有趣姿势的梳理的更多相关文章

随机推荐

热门专题