spark使用udf给dataFrame新增列

在 spark 中给 dataframe 增加一列的方法一般使用 withColumn

// 新建一个dataFrame

val sparkconf = new SparkConf()

  .setMaster("local")

  .setAppName("test")

val spark = SparkSession.builder().config(sparkconf).getOrCreate()

val tempDataFrame = spark.createDataFrame(Seq(

  (1, "asf"),

  (2, "2143"),

  (3, "rfds")

)).toDF("id", "content")

// 增加一列

val addColDataframe = tempDataFrame.withColumn("col", tempDataFrame("id")*0)

addColDataframe.show(10,false)

打印结果如下：

+---+-------+---+

|id |content|col|

+---+-------+---+

|1  |asf    |0  |

|2  |2143   |0  |

|3  |rfds   |0  |

+---+-------+---+

可以看到 withColumn 很依赖原来 dataFrame 的结构，但是假设没有 id 这一列，那么增加列的时候灵活度就降低了很多，假设原始 dataFrame 如下：

+---+-------+

| id|content|

+---+-------+

|  a|    asf|

|  b|   2143|

|  b|   rfds|

+---+-------+

这样可以用 udf 写自定义函数进行增加列：

import org.apache.spark.sql.functions.udf

// 新建一个dataFrame

val sparkconf = new SparkConf()

  .setMaster("local")

  .setAppName("test")

val spark = SparkSession.builder().config(sparkconf).getOrCreate()

val tempDataFrame = spark.createDataFrame(Seq(

  ("a, "asf"),

  ("b, "2143"),

  ("c, "rfds")

)).toDF("id", "content")

// 自定义udf的函数

val code = (arg: String) => {

      if (arg.getClass.getName == "java.lang.String") 1 else 0

    }

val addCol = udf(code)

// 增加一列

val addColDataframe = tempDataFrame.withColumn("col", addCol(tempDataFrame("id")))

addColDataframe.show(10, false)

得到结果：

+---+-------+---+

|id |content|col|

+---+-------+---+

|a  |asf    |1  |

|b  |2143   |1  |

|c  |rfds   |1  |

+---+-------+---+

还可以写下更多的逻辑判断：

// 新建一个dataFrame

val sparkconf = new SparkConf()

  .setMaster("local")

  .setAppName("test")

val spark = SparkSession.builder().config(sparkconf).getOrCreate()

val tempDataFrame = spark.createDataFrame(Seq(

  (1, "asf"),

  (2, "2143"),

  (3, "rfds")

)).toDF("id", "content")

val code :(Int => String) = (arg: Int) => {if (arg < 2) "little" else "big"}

val addCol = udf(code)

val addColDataframe = tempDataFrame.withColumn("col", addCol(tempDataFrame("id")))

addColDataframe.show(10, false)

+---+-------+------+

|1  |asf    |little|

|2  |2143   |big   |

|3  |rfds   |big   |

+---+-------+------+

传入多个参数：

val sparkconf = new SparkConf()

  .setMaster("local")

  .setAppName("test")

val spark = SparkSession.builder().config(sparkconf).getOrCreate()

val tempDataFrame = spark.createDataFrame(Seq(

  ("1", "2"),

  ("2", "3"),

  ("3", "1")

)).toDF("content1", "content2")

val code = (arg1: String, arg2: String) => {

  Try(if (arg1.toInt > arg2.toInt) "arg1>arg2" else "arg1<=arg2").getOrElse("error")

}

val compareUdf = udf(code)

val addColDataframe = tempDataFrame.withColumn("compare", compareUdf(tempDataFrame("content1"),tempDataFrame("content2")))

addColDataframe.show(10, false)

+--------+--------+----------+

|content1|content2|compare   |

+--------+--------+----------+

|1       |2       |arg1<=arg2|

|2       |3       |arg1<=arg2|

|3       |1       |arg1>arg2 |

+--------+--------+----------+

spark使用udf给dataFrame新增列的更多相关文章

Spark SQL DataFrame新增一列的四种方法
方法一:利用createDataFrame方法,新增列的过程包含在构建rdd和schema中方法二:利用withColumn方法,新增列的过程包含在udf函数中方法三:利用SQL代码,新增列的过程 ...
Spark获取DataFrame中列的方式--col，$，column，apply
Spark获取DataFrame中列的方式--col,$,column,apply 1.官方说明 2.使用时涉及到的的包 3.Demo 原文作者:大葱拌豆腐原文地址:Spark获取DataFrame ...
spark编写UDF和UDAF
UDF: 一.编写udf类,在其中定义udf函数 package spark._sql.UDF import org.apache.spark.sql.functions._ /** * AUTHOR ...
spark计算两个DataFrame的差集、交集、合集
spark 计算两个dataframe 的差集.交集.合集,只选择某一列来对比比较好.新建两个 dataframe : import org.apache.spark.{SparkConf, Spar ...
Spark创建空的DataFrame
前言本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为自己在开发过程中有这个需求,之前并 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十五）Spark编写UDF、UDAF、Agg函数
Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数. UDF:是普通函数,输入一个或多个参数, ...
Spark与Pandas中DataFrame对比
Pandas Spark 工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制paral ...
Spark与Pandas中DataFrame对比（详细）
Pandas Spark 工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制paral ...
（转）实现DataList的分页新增列
前几天在做网上商城,要展示商品信息(有图片,有文字),DataView虽然可以分页,但它的缺点是不能自定义显示格式.而DataList解决了它的缺点,但DataList本身却不能分页.很是头痛,于是在 ...

随机推荐

pkuwc2018题解
题解: 思路挺好想的..然而今天写代码写成傻逼了 d1t1: 首先比较暴力的就是$f[i][j]$表示i个这个点是j的概率然后前缀和一下dp就是$n^2$的部分分树形态随机就说明树深度是$log$ ...
YOLOv3：训练自己的数据（附优化与问题总结）
环境说明系统:ubuntu16.04 显卡:Tesla k80 12G显存 python环境: 2.7 && 3.6 前提条件:cuda9.0 cudnn7.0 opencv3.4. ...
16 道嵌入式C语言面试题
1. 用预处理指令#define 声明一个常数,用以表明 1 年中有多少秒(忽略闰年问题) #define SECONDS_PER_YEAR (60 * 60 * 24 * 365)UL 我在这想看到 ...
Django---form表单提交数据到数据库（普通方法+Django的form类）
目标: ①.初始form的简单应用 ②.使用Django的form组件完成新增一个帖子方法一:普通方法 1.前端表单代码 <div> <form class="navba ...
H5分享功能
web端分享功能 https://www.cnblogs.com/sdcs/p/8328367.html H5分享功能公司里面做web开发经常会做H5页面,今天整理分享一下. 微信公众号平台步骤一 ...
Clion+Cmake+Qt5+Qwt+msys2+MinGW在Windows下的安装配置使用教程
摘要: CLion, a cross-platform C/C++ IDE. 本文主要介绍基于Clion作为IDE, MinGW作为编译器,CMake作为项目构建工具,开发基于Qt5.qwt的C++图 ...
bs4库学习
# -*- coding:utf-8 -*- import bs4 import requests def tags_val(tag, key='', index=0): ''' tag指HTML元素 ...
DW1000 用户手册中文版附录2 IEEE-802.15.4 MAC层
由于已经在wode中排版无法直接复制到博客中,故本节博客发布使用了图片. 论坛可下载PDF http://bphero.com.cn/forum.php?mod=viewthread&tid ...
如何在HTML表格里定位到一行数据
业务需求: 在这样一个表格里,通过点击"确认"按钮,收集该行数据,向后台发送请求解决办法以该button为锚获取父节点,再由父节点获取各个元素的值获取子元素又有很多办法,包括 ...
vue中使用stylus
1.创建完成一个初始项目后,通过 npm install stylus -D命令,在项目内安装stylus.(注意:命令结尾 -D 即是 --save-dev 的简写形式) 2.需要安装loader, ...

spark使用udf给dataFrame新增列

spark使用udf给dataFrame新增列的更多相关文章

随机推荐

热门专题