Spark 自定义函数（udf,udaf）

Spark 版本 2.3

文中测试数据（json）

{"name":"lillcol", "age":24,"ip":"192.168.0.8"}

{"name":"adson", "age":100,"ip":"192.168.255.1"}

{"name":"wuli", "age":39,"ip":"192.143.255.1"}

{"name":"gu", "age":20,"ip":"192.168.255.1"}

{"name":"ason", "age":15,"ip":"243.168.255.9"}

{"name":"tianba", "age":1,"ip":"108.168.255.1"}

{"name":"clearlove", "age":25,"ip":"222.168.255.110"}

{"name":"clearlove", "age":30,"ip":"222.168.255.110"}

用户自定义udf

自定义udf的方式有两种

SQLContext.udf.register()
创建UserDefinedFunction

这两种个方式使用范围不一样

package com.test.spark

import org.apache.spark.sql.expressions.UserDefinedFunction

import org.apache.spark.sql.functions.udf

import org.apache.spark.sql.{Dataset, Row, SparkSession}

/**

  * @author Administrator

  *         2019/7/22-14:04

  *

  */

object TestUdf {

  val spark = SparkSession

    .builder()

    .appName("TestCreateDataset")

    .config("spark.some.config.option", "some-value")

    .master("local")

    .enableHiveSupport()

    .getOrCreate()

  val sQLContext = spark.sqlContext

  import spark.implicits._

  def main(args: Array[String]): Unit = {

    testudf

  }

  def testudf() = {

    val iptoLong: UserDefinedFunction = getIpToLong()

    val ds: Dataset[Row] = spark.read.json("D:\\DATA-LG\\PUBLIC\\TYGQ\\INF\\testJson")

    ds.createOrReplaceTempView("table1")

    sQLContext.udf.register("addName", sqlUdf(_: String)) //addName 只能在SQL里面用  不能在DSL 里面用

    //1.SQL

    sQLContext.sql("select *,addName(name) as nameAddName  from table1")

      .show()

    //2.DSL

    val addName: UserDefinedFunction = udf((str: String) => ("ip: " + str))

    ds.select($"*", addName($"ip").as("ipAddName"))

      .show()

    //如果自定义函数相对复杂，可以将它分离出去 如iptoLong

    ds.select($"*", iptoLong($"ip").as("iptoLong"))

      .show()

  }

  def sqlUdf(name: String): String = {

    "name:" + name

  }

  /**

    * 用户自定义 UDF 函数

    *

    * @return

    */

  def getIpToLong(): UserDefinedFunction = {

    val ipToLong: UserDefinedFunction = udf((ip: String) => {

      val arr: Array[String] = ip.replace(" ", "").replace("\"", "").split("\\.")

      var result: Long = 0

      var ipl: Long = 0

      if (arr.length == 4) {

        for (i <- 0 to 3) {

          ipl = arr(i).toLong

          result |= ipl << ((3 - i) << 3)

        }

      } else {

        result = -1

      }

      result

    })

    ipToLong

  }

}

输出结果

+---+---------------+---------+--------------+

|age|             ip|     name|   nameAddName|

+---+---------------+---------+--------------+

| 24|    192.168.0.8|  lillcol|  name:lillcol|

|100|  192.168.255.1|    adson|    name:adson|

| 39|  192.143.255.1|     wuli|     name:wuli|

| 20|  192.168.255.1|       gu|       name:gu|

| 15|  243.168.255.9|     ason|     name:ason|

|  1|  108.168.255.1|   tianba|   name:tianba|

| 25|222.168.255.110|clearlove|name:clearlove|

| 30|222.168.255.110|clearlove|name:clearlove|

+---+---------------+---------+--------------+

+---+---------------+---------+-------------------+

|age|             ip|     name|          ipAddName|

+---+---------------+---------+-------------------+

| 24|    192.168.0.8|  lillcol|    ip: 192.168.0.8|

|100|  192.168.255.1|    adson|  ip: 192.168.255.1|

| 39|  192.143.255.1|     wuli|  ip: 192.143.255.1|

| 20|  192.168.255.1|       gu|  ip: 192.168.255.1|

| 15|  243.168.255.9|     ason|  ip: 243.168.255.9|

|  1|  108.168.255.1|   tianba|  ip: 108.168.255.1|

| 25|222.168.255.110|clearlove|ip: 222.168.255.110|

| 30|222.168.255.110|clearlove|ip: 222.168.255.110|

+---+---------------+---------+-------------------+

+---+---------------+---------+----------+

|age|             ip|     name|  iptoLong|

+---+---------------+---------+----------+

| 24|    192.168.0.8|  lillcol|3232235528|

|100|  192.168.255.1|    adson|3232300801|

| 39|  192.143.255.1|     wuli|3230662401|

| 20|  192.168.255.1|       gu|3232300801|

| 15|  243.168.255.9|     ason|4087938825|

|  1|  108.168.255.1|   tianba|1823014657|

| 25|222.168.255.110|clearlove|3735617390|

| 30|222.168.255.110|clearlove|3735617390|

+---+---------------+---------+----------+

用户自定义 UDAF 函数(即聚合函数)

弱类型用户自定义聚合函数

通过继承UserDefinedAggregateFunction

package com.test.spark

import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}

import org.apache.spark.sql.types._

import org.apache.spark.sql.{Dataset, Row, SparkSession}

/**

  * @author lillcol

  *         2019/7/22-15:09

  *         弱类型用户自定义聚合函数

  */

object TestUDAF extends UserDefinedAggregateFunction {

  // 聚合函数输入参数的数据类型

  // :: 用于的是向队列的头部追加数据，产生新的列表,Nil 是一个空的 List，定义为 List[Nothing]

  override def inputSchema: StructType = StructType(StructField("age", IntegerType) :: Nil)

  //等效于

  //  override def inputSchema: StructType=new StructType() .add("age", IntegerType).add("name", StringType)

  // 聚合缓冲区中值的数据类型

  override def bufferSchema: StructType = {

    StructType(StructField("sum", IntegerType) :: StructField("count", IntegerType) :: Nil)

  }

  // UserDefinedAggregateFunction返回值的数据类型。

  override def dataType: DataType = DoubleType

  // 如果这个函数是确定的，即给定相同的输入，总是返回相同的输出。

  override def deterministic: Boolean = true

  //  初始化给定的聚合缓冲区，即聚合缓冲区的零值。

  override def initialize(buffer: MutableAggregationBuffer): Unit = {

    // sum，  总的年龄

    buffer(0) = 0

    // count， 人数

    buffer(1) = 0

  }

  //  使用来自输入的新输入数据更新给定的聚合缓冲区。

  // 每个输入行调用一次。（同一分区）

  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {

    buffer(0) = buffer.getInt(0) + input.getInt(0) //年龄 叠加

    buffer(1) = buffer.getInt(1) + 1 //人数叠加

  }

  //  合并两个聚合缓冲区并将更新后的缓冲区值存储回buffer1。

  // 当我们将两个部分聚合的数据合并在一起时，就会调用这个函数。（多个分区）

  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {

    buffer1(0) = buffer1.getInt(0) + buffer2.getInt(0) //年龄 叠加

    buffer1(1) = buffer1.getInt(1) + buffer2.getInt(1) //人数叠加

  }

  override def evaluate(buffer: Row): Any = {

    buffer.getInt(0).toDouble / buffer.getInt(1)

  }

  val spark = SparkSession

    .builder()

    .appName("Spark SQL basic example")

    // .config("spark.some.config.option", "some-value")

    .master("local[*]") // 本地测试

    .getOrCreate()

  import spark.implicits._

  def main(args: Array[String]): Unit = {

    spark.udf.register("myAvg", TestUDAF)

    val ds: Dataset[Row] = spark.read.json("D:\\DATA-LG\\PUBLIC\\TYGQ\\INF\\testJson")

    ds.createOrReplaceTempView("table1")

    //SQL

    spark.sql("select myAvg(age) as avgAge from table1")

      .show()

    //DSL

    val myavg = TestUDAF

    ds.select(TestUDAF($"age").as("avgAge"))

      .show()

  }

}

输出结果：

+------+

|avgAge|

+------+

| 31.75|

+------+

+------+

|avgAge|

+------+

| 31.75|

+------+

强类型用户自定义聚合函数

通过继承Aggregator（是org.apache.spark.sql.expressions 下的不要引错包了）

package com.test.spark

import org.apache.spark.sql.{Dataset, Encoder, Encoders, SparkSession}

import org.apache.spark.sql.expressions._

/**

  * @author Administrator

  *         2019/7/22-16:07

  *

  */

// 既然是强类型，可能有 case 类

case class Person(name: String, age: Double, ip: String)

case class Average(var sum: Double, var count: Double)

object MyAverage extends Aggregator[Person, Average, Double] {

  //  此聚合的值为零。应该满足任意b + 0 = b的性质。

  //  定义一个数据结构，保存工资总数和工资总个数，初始都为0

  override def zero: Average = {

    Average(0, 0)

  }

  //  将两个值组合起来生成一个新值。为了提高性能，函数可以修改b并返回它，而不是为b构造新的对象。

  //  相同 Execute 间的数据合并（同一分区）

  override def reduce(b: Average, a: Person): Average = {

    b.sum += a.age

    b.count += 1

    b

  }

  // 合并两个中间值。

  // 聚合不同 Execute 的结果（不同分区）

  override def merge(b1: Average, b2: Average): Average = {

    b1.sum += b2.sum

    b1.count += b2.count

    b1

  }

  // 计算最终结果

  override def finish(reduction: Average): Double = {

    reduction.sum.toInt / reduction.count

  }

  //  为中间值类型指定“编码器”。

  override def bufferEncoder: Encoder[Average] = Encoders.product

  //  为最终输出值类型指定“编码器”。

  override def outputEncoder: Encoder[Double] = Encoders.scalaDouble

  val spark = SparkSession

    .builder()

    .appName("Spark SQL basic example")

    // .config("spark.some.config.option", "some-value")

    .master("local[*]") // 本地测试

    .getOrCreate()

  import spark.implicits._

  def main(args: Array[String]): Unit = {

    val ds: Dataset[Person] = spark.read.json("D:\\DATA-LG\\PUBLIC\\TYGQ\\INF\\testJson").as[Person]

    ds.show()

    val avgAge = MyAverage.toColumn/*.name("avgAge")*///指定该列的别名为avgAge

    ds.select(avgAge)//执行avgAge.as("columnName") 汇报org.apache.spark.sql.AnalysisException错误  别名只能在上面指定（目前测试是这样）

      .show()

  }

}

输出结果：

+---+---------------+---------+

|age|             ip|     name|

+---+---------------+---------+

| 24|    192.168.0.8|  lillcol|

|100|  192.168.255.1|    adson|

| 39|  192.143.255.1|     wuli|

| 20|  192.168.255.1|       gu|

| 15|  243.168.255.9|     ason|

|  1|  108.168.255.1|   tianba|

| 25|222.168.255.110|clearlove|

| 30|222.168.255.110|clearlove|

+---+---------------+---------+

+------+

|avgAge|

+------+

| 31.75|

+------+

本文为原创文章，转载请注明出处！！！

Spark 自定义函数（udf,udaf）的更多相关文章

大数据学习day29-----spark09-------1. 练习：统计店铺按月份的销售额和累计到该月的总销售额（SQL, DSL,RDD） 2. 分组topN的实现（row_number(), rank(), dense_rank()方法的区别）3. spark自定义函数-UDF
1. 练习数据: (1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额第一步:将每天的金额求和(同一天可能会有多个订单) SELECT sid,dt,SUM(mone ...
spark自定义函数之——UDAF使用详解及代码示例
UDAF简介 UDAF(User Defined Aggregate Function)即用户定义的聚合函数,聚合函数和普通函数的区别是什么呢,普通函数是接受一行输入产生一个输出,聚合函数是接受一组( ...
Hive 自定义函数 UDF UDAF UDTF
1.UDF:用户定义(普通)函数,只对单行数值产生作用: 继承UDF类,添加方法 evaluate() /** * @function 自定义UDF统计最小值 * @author John * */ ...
Spark（十三）SparkSQL的自定义函数UDF与开窗函数
一自定义函数UDF 在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_ ...
hive自定义函数UDF UDTF UDAF
Hive 自定义函数 UDF UDTF UDAF 1.UDF:用户定义(普通)函数,只对单行数值产生作用: UDF只能实现一进一出的操作. 定义udf 计算两个数最小值 public class Mi ...
SparkSQL中的自定义函数UDF
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
10_Hive自定义函数UDF
Hive官方的UDF手册地址是:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.使用内置函数的快捷方法: 创 ...
T-SQL: 17 个与日期时间相关的自定义函数(UDF),周日作为周的最后一天,均不受 @@DateFirst、语言版本影响!
原文:T-SQL: 17 个与日期时间相关的自定义函数(UDF),周日作为周的最后一天,均不受 @@DateFirst.语言版本影响! CSDN 的 Blog 太滥了!无时不刻地在坏! 开始抢救性搬家 ...
Hadoop生态圈-Hive的自定义函数之UDAF（User-Defined Aggregation Function）
Hadoop生态圈-Hive的自定义函数之UDAF(User-Defined Aggregation Function) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
三 Hive 数据处理自定义函数UDF和Transform
三 Hive 自定义函数UDF和Transform 开篇提示: 快速链接beeline的方式: ./beeline -u jdbc:hive2://hadoop1:10000 -n hadoop 1 ...

随机推荐

php编译安装增加pdo扩展
首先查看mysql版本和位置 mysql --version whereis mysql 去php安装目录安装扩展 cd /usr/local/src/php-5.4.25/ext/pdo_mysql ...
[NOIP模拟15]题解
A.建设城市(city) 这容斥题多难啊你们是怎么考场切掉的啊首先可以想一下,如果没有k的限制,这题怎么做? 相信你们肯定能看出来是挡板法裸题:m个物品分给n个人,每个人至少一个. 就是$C_{m- ...
thinkphp ajax调用demo
http://files.cnblogs.com/files/jxkshu/tp_ckgd.rar
jmeter 创建接口测试案例
1 怎么做接口测试? 一般情况下,由于我们项目前后调用主要是基于http协议的接口,所以测试接口时主要是通过工具或代码模拟http请求的发送和接收.所以我们下面整理了一下使用Jmeter工具进行htt ...
Idea 导入项目不能运行
1.项目结构里面配置sdk,配置output输出目录 2.配置语言等级配置src源文件目录配置目录里面添加application,添加main class
Netty 相关目录
Netty 相关目录 Netty 源码学习--客户端流程分析 Netty 源码学习--服务端流程分析 Netty 源码分析--ChannelPipeline Netty 源码学习--EventLoop ...
python3 可变数据类型和不可变数据类型
python内置有6种对象类型: Number 数值型 int 整型不可变 float 浮点型不可变 complex 复数不可变 String 字符串不可变 Tuple 元组不可变 ...
【Linux】- 守护进程的启动方法
转自:Linux 守护进程的启动方法 Linux中"守护进程"(daemon)就是一直在后台运行的进程(daemon). 本文介绍如何将一个 Web 应用,启动为守护进程. 一.问 ...
<软件测试>软件测试
1.软件测试基础软件测试工程师:查找错误和缺陷,然后要求开发人员进行修改,保证软件质量. 漏洞(360安全漏洞):硬件,软件,协议的具体实现或系统安全策略存在缺陷,从而可以使攻击者在未授权的情况下破 ...
mysql数据库 --表查询
今日内容: 一.单表查询 1.语法执行顺序 2.where约束条件 3.group by 4.having 5.distinct 6.order by 7.limit 8.正则二.多表查询 1.表查 ...

Spark 自定义函数（udf,udaf）

用户自定义udf

用户自定义 UDAF 函数(即聚合函数)

弱类型用户自定义聚合函数

强类型用户自定义聚合函数

Spark 自定义函数（udf,udaf）的更多相关文章

随机推荐

热门专题