1  联表

  df1.join(df2,连接条件,连接方式)

  如:df1.join(df2,[df1.a==df2.a], "inner").show()

  连接方式:字符串类型, 如 "left"  , 常用的有:inner, cross, outer, full, full_outer, left, left_outer, right, right_outer

  连接条件: df1["a"] == df2["a"] 或 "a" 或 df1.a == df2.a , 如有多个条件的情况 如,[df1["a"] == df2["a"] ,df1["b"] == df2["b"] ] 或  (df.a > 1) & (df.b > 1)

  需要注意的:

  如果使用 "a" 进行连接,则会自动合并相同字段,只输入一个。如  df1.join(df2,"a","left") 只输出df1的 a字段,df2 的 a 字段是去掉了。

2 udf使用

  需添加引用

  from pyspark.sql.functions import udf
  from pyspark.sql import functions as F

  有两种方式:

  第一种

  def get_tablename(a):

    return "name"

  get_tablename_udf = F.udf(get_tablename)

  第二种

  @udf

  def get_tablename_udf (a):

    return "name"

  

  两种方式的调用是一样的

  df.withColumn("tablename", get_tablename_udf (df[a"]))

3  分组

  使用groupBy方法

  单个字段:df.groupBy("a") 或 df.groupBy(df.a)

  多个字段:df.groupBy([df.a, df.b]) 或 df.groupBy(["a", "b"])

  需要注意的:

  groupBy方法后面 一定要跟字段输出方法,如:agg()、select()等

4  查询条件

  使用 filter() 或 where() ,两者一样的。

  单条件: df.filter(df.a > 1) 或 df.filter("a > 1")

  多条件:df.filter("a > 1 and b > 0 ")  或 df.filter((df.a > 1) & (df.b ==0))

5  替换null值

  使用 fillna() 或 fill()方法

  df.fillna({"a":0, "b":""})

  df.na.fill({"a":0, "b":""})

6  排序

  使用 orderBy() 或 sort()方法

  df.orderBy(df.a.desc())

  df.orderBy(desc("age"), asc("name"))

df.orderBy(["age", "name"], ascending=[0, 1])

  df.orderBy(["age", "name"], ascending=False)

  需要注意的:

  ascending 默认为True 升序, False 降序

7  新增列

  使用 withColumn() 或 alias()方法

  df.withColumn("b",F.lit(999))

  df.withColumn("b",df.a)

  df.withColumn("b",df.a).withColumn("m","m1")

  df.agg(F.lit(ggg).alias("b"))

  df.select(F.lit(ggg).alias("b"))

  需要注意的:

  withColumn方法会覆盖df里面原有的同名的列

8  重命名列名

  使用 withColumnRenamed() 方法

  df.withColumnRenamed("a","a1").withColumnRenamed("m","m1") 

  需要注意的点:

  确定要重命名的列在df里面存在

9  创建新的DataFrame

  使用createDataFrame()方法

  spark.createDataFrame(数据集, 列集合)  例如:spark.createDataFrame([(5, "hello")], ['a', 'b'])

  需要注意的:

   数据集和列集合 个数要一致

   spark为 SparkSession 对象, 例如:spark = SparkSession.builder.master("local").appName("Word Count").config("spark.some.config.option", "some-value").getOrCreate()

10  并集

  使用union() 或 unionAll() 方法

  df.union(df1)

  需要注意的:

  这两个方法都不会主动消除重复项的,如需要,在后面跟distinct() 如:df.union(df1).distinct()

  这两个方法都是按照数据列的摆放顺序进行合并,而不是根据列名

  两个结果集的列 数量要保证一样大小

11  交集

  使用 intersect()方法

  df1.select("a").intersect(df2.select("a"))

  返回 df1和df2 中 相同的a 字段

12  差集

  使用 subtract()方法

  df1.select("a").subtract(df2.select("a"))  

  返回 df1 有,而df2 没有的 a 字段值。

  需要注意的:

    取的是df1的数据

13  判断是否NULL值

  使用isNull()方法 或 sql语句

  df.where(df["a"].isNull())

  df.where("a is null")

14  在计算条件中加入判断

  使用when() 方法

  df.select(when(df.age == 2, 1).alias("age")) 

  age列的值:当满足when条件,则输出1 ,否则,输出NULL 

  多个条件 :when((df.age == 2) & (df.name == '"name") , 1)

  

pyspark 日常整理的更多相关文章

  1. JavaScript中常用的正则表达式日常整理(全)

    //校验是否全由数字组成 ? 1 2 3 4 5 6 function isDigit(s) { var patrn=/^[0-9]{1,20}$/; if (!patrn.exec(s)) retu ...

  2. IDEA快捷键 日常整理

    F9 : debug Ctrl+” +/- ” : 当前方法展开.折叠 Ctrl+Shift+”+/-” : 全部展开.折叠 Alt+1 : 工程面板 Alt+4:控制台 Alt+7:查看本类方法 S ...

  3. js/jq基础(日常整理记录)-4-一个简单的自定义tree插件

    一.一个简单的自定义tree插件 上一篇是之前自定义的table插件,这一篇也是之前同期尝试做的一个tree插件. 话不多说,先看看长什么样子哈! 现在来看确实不好看,以后在优化吧! 数据源:ajax ...

  4. js/jq基础(日常整理记录)-3-一个自定义表格

    一.一个自定义的表格 这个js是我刚工作的时候,我们老大让我做一个功能,我觉得html自带的table功能单一,没有分页和排序功能,所有就尝试着做一下,所以这个东西就出来了.很久没写博客了,贴出来吧, ...

  5. js/jq基础(日常整理记录)-2-一个简单的js方法实现集合的非引用拷贝

    一.一个简单的js方法实现集合拷贝 做web项目的时候,少不了和js中的数组,集合等对象接触,那么你肯定会发现,在js中存在一个怪异的现象就是数组和集合的拷贝都是地址复制,并不是简单的数据的拷贝. 举 ...

  6. js/jq基础(日常整理记录)-1-纯js格式化时间

    一.纯js格式化时间 之前记录了一些,工作中发现的比较常用的使用,就记录一下. 由于很基础,就直接贴出来了,不做分析了. 改造一下Date的原型 Date.prototype.format = fun ...

  7. python面试大全

    问题一:以下的代码的输出将是什么? 说出你的答案并解释. class Parent(object): x = 1 class Child1(Parent): pass class Child2(Par ...

  8. python公司面试题集锦 python面试题大全

    问题一:以下的代码的输出将是什么? 说出你的答案并解释. class Parent(object): x = 1 class Child1(Parent): pass class Child2(Par ...

  9. oracle常用命令【转载】

    oracle常用命令 一.Oracle数据库实例.用户.目录及session会话查看: 1.ORACLE SID查看设置 查看SID.用户名 $ env|grep SID .select * from ...

随机推荐

  1. 2019前端UI框架排行榜

    一.Mint UI 流行指数:★★★★ Mint UI是 饿了么团队开发基于 Vue.js 的移动端UI框架,它包含丰富的 CSS 和 JS 组件,能够满足日常的移动端开发需要. 官网:https:/ ...

  2. 五分钟看懂UML类图与类的关系详解

    在画类图的时候,理清类和类之间的关系是重点.类的关系有泛化(Generalization).实现(Realization).依赖(Dependency)和关联(Association).其中关联又分为 ...

  3. CSS颜色、单位、文本样式

    一.CSS颜色:关键字 red16进制的6位 #ffffff16进制的3位 #fffrgb(0,255,100) 取值范围:0~255 (r:red.g:green.b:blue)rgba(0,255 ...

  4. 新手入门必看:VectorDraw 常见问题整理大全(二)

    VectorDraw Developer Framework(VDF)是一个用于应用程序可视化的图形引擎库.有了VDF提供的功能,您可以轻松地创建.编辑.管理.输出.输入和打印2D和3D图形文件.该库 ...

  5. 搞NDK开发

    1.哪些场景下要用到NDK开发? 跨平台的库,如FFmpeg, skip,weex, 加固,防逆向 签名校验 图片压缩 音视频解码 OpenGL ES 高级特效 热修复 andfix 人脸识别 fac ...

  6. python 环境配置的导入与导出

    Python——配置环境的导出与导入   导出Python环境安装包[root@bogon ~]# pip freeze > packages.txt这将会创建一个 packages.txt文件 ...

  7. liteos时间管理(九)

    1. 时间管理 1.1 概述 1.1.1 概念 时间管理以系统时钟为基础.时间管理提供给应用程序所有和时间有关的服务. 系统时钟是由定时/计数器产生的输出脉冲触发中断而产生的,一般定义为整数或长整数. ...

  8. Windows 2003 IIS6.0下配置ASP+MySQL+PHP+ISAPI_Rewrite+Zend+Xcache

    windows 2003,自己买吧... 安装IIS6.0:安装系统后在"控制面板"->"添加或删除程序"->"添加/删除Windows组 ...

  9. Ubuntu 18.04上安装 phpMyAdmin

    我们将安装 phpMyAdmin 在 Ubuntu18.04 上配合 Apache 一起工作. 在安装 phpMyAdmin 之前需要已经安装了LAMP栈并提供了web页面. 如果没有安装可以参照 U ...

  10. nodejs简单http日志存储

    nodejs实现简单http日志存储 /* 日志存储: 202.189.63.115 - - [31/Aug/2008:15:42:31 +0800] "GET / HTTP/1.1&quo ...