spark使用udf给dataFrame新增列

在 spark 中给 dataframe 增加一列的方法一般使用 withColumn

// 新建一个dataFrame

val sparkconf = new SparkConf()

  .setMaster("local")

  .setAppName("test")

val spark = SparkSession.builder().config(sparkconf).getOrCreate()

val tempDataFrame = spark.createDataFrame(Seq(

  (1, "asf"),

  (2, "2143"),

  (3, "rfds")

)).toDF("id", "content")

// 增加一列

val addColDataframe = tempDataFrame.withColumn("col", tempDataFrame("id")*0)

addColDataframe.show(10,false)

打印结果如下：

+---+-------+---+

|id |content|col|

+---+-------+---+

|1  |asf    |0  |

|2  |2143   |0  |

|3  |rfds   |0  |

+---+-------+---+

可以看到 withColumn 很依赖原来 dataFrame 的结构，但是假设没有 id 这一列，那么增加列的时候灵活度就降低了很多，假设原始 dataFrame 如下：

+---+-------+

| id|content|

+---+-------+

|  a|    asf|

|  b|   2143|

|  b|   rfds|

+---+-------+

这样可以用 udf 写自定义函数进行增加列：

import org.apache.spark.sql.functions.udf

// 新建一个dataFrame

val sparkconf = new SparkConf()

  .setMaster("local")

  .setAppName("test")

val spark = SparkSession.builder().config(sparkconf).getOrCreate()

val tempDataFrame = spark.createDataFrame(Seq(

  ("a, "asf"),

  ("b, "2143"),

  ("c, "rfds")

)).toDF("id", "content")

// 自定义udf的函数

val code = (arg: String) => {

      if (arg.getClass.getName == "java.lang.String") 1 else 0

    }

val addCol = udf(code)

// 增加一列

val addColDataframe = tempDataFrame.withColumn("col", addCol(tempDataFrame("id")))

addColDataframe.show(10, false)

得到结果：

+---+-------+---+

|id |content|col|

+---+-------+---+

|a  |asf    |1  |

|b  |2143   |1  |

|c  |rfds   |1  |

+---+-------+---+

还可以写下更多的逻辑判断：

// 新建一个dataFrame

val sparkconf = new SparkConf()

  .setMaster("local")

  .setAppName("test")

val spark = SparkSession.builder().config(sparkconf).getOrCreate()

val tempDataFrame = spark.createDataFrame(Seq(

  (1, "asf"),

  (2, "2143"),

  (3, "rfds")

)).toDF("id", "content")

val code :(Int => String) = (arg: Int) => {if (arg < 2) "little" else "big"}

val addCol = udf(code)

val addColDataframe = tempDataFrame.withColumn("col", addCol(tempDataFrame("id")))

addColDataframe.show(10, false)

+---+-------+------+

|1  |asf    |little|

|2  |2143   |big   |

|3  |rfds   |big   |

+---+-------+------+

传入多个参数：

val sparkconf = new SparkConf()

  .setMaster("local")

  .setAppName("test")

val spark = SparkSession.builder().config(sparkconf).getOrCreate()

val tempDataFrame = spark.createDataFrame(Seq(

  ("1", "2"),

  ("2", "3"),

  ("3", "1")

)).toDF("content1", "content2")

val code = (arg1: String, arg2: String) => {

  Try(if (arg1.toInt > arg2.toInt) "arg1>arg2" else "arg1<=arg2").getOrElse("error")

}

val compareUdf = udf(code)

val addColDataframe = tempDataFrame.withColumn("compare", compareUdf(tempDataFrame("content1"),tempDataFrame("content2")))

addColDataframe.show(10, false)

+--------+--------+----------+

|content1|content2|compare   |

+--------+--------+----------+

|1       |2       |arg1<=arg2|

|2       |3       |arg1<=arg2|

|3       |1       |arg1>arg2 |

+--------+--------+----------+

spark使用udf给dataFrame新增列的更多相关文章

Spark SQL DataFrame新增一列的四种方法
方法一:利用createDataFrame方法,新增列的过程包含在构建rdd和schema中方法二:利用withColumn方法,新增列的过程包含在udf函数中方法三:利用SQL代码,新增列的过程 ...
Spark获取DataFrame中列的方式--col，$，column，apply
Spark获取DataFrame中列的方式--col,$,column,apply 1.官方说明 2.使用时涉及到的的包 3.Demo 原文作者:大葱拌豆腐原文地址:Spark获取DataFrame ...
spark编写UDF和UDAF
UDF: 一.编写udf类,在其中定义udf函数 package spark._sql.UDF import org.apache.spark.sql.functions._ /** * AUTHOR ...
spark计算两个DataFrame的差集、交集、合集
spark 计算两个dataframe 的差集.交集.合集,只选择某一列来对比比较好.新建两个 dataframe : import org.apache.spark.{SparkConf, Spar ...
Spark创建空的DataFrame
前言本文主要给出Spark创建空的DataFrame的代码示例,这里讲的空的DataFrame主要指有列名(可以自己随意指定),但是没有行的DataFrame,因为自己在开发过程中有这个需求,之前并 ...
Kafka：ZK+Kafka+Spark Streaming集群环境搭建（十五）Spark编写UDF、UDAF、Agg函数
Spark Sql提供了丰富的内置函数让开发者来使用,但实际开发业务场景可能很复杂,内置函数不能够满足业务需求,因此spark sql提供了可扩展的内置函数. UDF:是普通函数,输入一个或多个参数, ...
Spark与Pandas中DataFrame对比
Pandas Spark 工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制paral ...
Spark与Pandas中DataFrame对比（详细）
Pandas Spark 工作方式单机single machine tool,没有并行机制parallelism不支持Hadoop,处理大量数据有瓶颈分布式并行计算框架,内建并行机制paral ...
（转）实现DataList的分页新增列
前几天在做网上商城,要展示商品信息(有图片,有文字),DataView虽然可以分页,但它的缺点是不能自定义显示格式.而DataList解决了它的缺点,但DataList本身却不能分页.很是头痛,于是在 ...

随机推荐

「JOISC 2017 Day 3」幽深府邸
题解: 和hnoi2018day2t1基本一样我想了半小时想出了一个很麻烦的做法写了之后发现假掉了刚开始想的是先预处理出每个门要打开至少要在左边的哪个点$L[]$,右边的哪个点$R[]$ 对每 ...
【WPF开发备忘】使用MVVM模式开发中列表控件内的按钮事件无法触发解决方法
实际使用MVVM进行WPF开发的时候,可能会用到列表控件中每行一个编辑或删除按钮,这时直接去绑定,发现无法响应: <DataGridTemplateColumn Header="操作& ...
twig模板的进一步学习以及在symfony当中的使用
首先,twig可以理解为用于输出html代码的,虽然用PHP等其他语言也可以输出,但是twig更为简洁高效,同时twig模板被编译成原生的php类缓存起来,所以才会这么快, 其实twig跟php类差不 ...
FFT快速傅里叶变换算法
1.FFT算法概要: FFT(Fast Fourier Transformation)是离散傅氏变换(DFT)的快速算法.即为快速傅氏变换.它是根据离散傅氏变换的奇.偶.虚.实等特性,对离散傅立叶变换 ...
Windows本地代码仓库使用连接教程
目录软件安装修改语言为中文克隆远程仓库文件上传教程软件安装安装Git(软件下载链接) 根据自己的系统选择对应版本下载安装安装TortoiseGit(软件下载链接) 1.下载完毕解压文件夹 ...
DW1000 用户手册中文版第5章媒体访问控制(帧过滤)
由于已经在wode中排版无法直接复制到博客中,故本节博客发布使用了图片. PDF下载 http://bphero.com.cn/forum.php?mod=viewthread&tid=68
iOS-ERROR ITMS-90086:"missing 64-bit support...解决办法
BUG描述:Untiy4.7.1导出的iOS工程包,使用Xcode8.3 Application Loader上传ipa包,遇到ERROR ITMS-90086报错解决办法:查看错误描述确认是没有支 ...
Html 常用标签及属性
<html>…</html> 定义 HTML 文档<head>…</head> 文档的信息<meta> ...
git教程——工作流程
Git 工作流程本章节我们将为大家介绍 Git 的工作流程. 一般工作流程如下: 克隆 Git 资源作为工作目录. 在克隆的资源上添加或修改文件. 如果其他人修改了,你可以更新资源. 在提交前查看修 ...
python入门 -- 环境搭建（windows）
1. 下载Anaconda Anaconda内置了python解释器及经常使用的库,提供了编译好的环境.根据自己的操作系统,自行从下面网站挑选一个较新的版本,下载安装即可. https://mirro ...

spark使用udf给dataFrame新增列

spark使用udf给dataFrame新增列的更多相关文章

随机推荐

热门专题