SparkSQL---UDAF

package sqlspark.Day04

import java.lang

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

object UdafText05 {
  def main(args: Array[String]): Unit = {
    //创建sparksession
    val spark: SparkSession = SparkSession.builder().appName("ipdemo2").master("local[*]").getOrCreate()
    //2.创建分布式的数据集合
    val number: Dataset[lang.Long] = spark.range(1, 11)

    //转换为df
    val numberDF: DataFrame = number.toDF()
   //number.show()
    //3.注册为视图
    numberDF.createTempView("v_number")
    //注册UDAF函数
    spark.udf.register("geo",new GemMean05_1())
    //sq
    spark.sql("select geo(id) result from v_number").show()
    spark.stop()
  }
}

package sqlspark.Day04

import org.apache.spark.sql.Row
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types.{DataType, DataTypes, StructField, StructType}

class GemMean05_1 extends UserDefinedAggregateFunction {
  //运算输入数据的类型
  override def inputSchema: StructType = StructType(List(
    StructField("value", DataTypes.DoubleType)

  ))

  //产生中间结果的数据类型
  override def bufferSchema: StructType = StructType(List(
    StructField("product", DataTypes.DoubleType),
      StructField("counts", DataTypes.LongType)
  ))

  //最终结果的数据类型
  override def dataType: DataType = DataTypes.DoubleType

  //数据一致性
  override def deterministic: Boolean = true

  //分区运算的初始值
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    //buffer(0) 存放的分区预算数据数量的初始值
    //buffer(0) = 0L
    buffer(0) = 1.0
    //buffer(1) 存放的是分区运算乘积的初始值
   // buffer(1) = 1.0
    buffer(1) = 0L
  }

  //没计算一条数据,更新中间结果
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    //累加计算个数
   // buffer(0) =  buffer.getLong(0) + 1L
    buffer(1) = buffer.getLong(1) + 1L
    //累乘 数字
   // buffer(1) =buffer.getDouble(0) * input.getDouble(0)
    buffer(0) = buffer.getDouble(0) * input.getDouble(0)

  }

  //合并 将各个分区的计算结果累加和累乘
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getDouble(0) * buffer2.getDouble(0)
    buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)
  }

  //最终计算
  override def evaluate(buffer: Row): Any = {
    math.pow(buffer.getDouble(0), 1.toDouble / buffer.getLong(1))
  }
}

SparkSQL---UDAF的更多相关文章

搭建Spark所遇过的坑
一.经验 1.Spark Streaming包含三种计算模式:nonstate .stateful .window 2.kafka可通过配置文件使用自带的zookeeper集群 3.Spark一切操作 ...
【Spark篇】---SparkSql之UDF函数和UDAF函数
一.前述 SparkSql中自定义函数包括UDF和UDAF UDF:一进一出 UDAF:多进一出 (联想Sum函数) 二.UDF函数 UDF:用户自定义函数,user defined functio ...
【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用
一.前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数. 开窗函数一般分组取topn时常用. 二.UDF和UDAF函数 1.UDF函数 java代码: Spar ...
SparkSQL之UDAF使用
1.创建一个类继承UserDefinedAggregateFunction类. ------------------------------------------------------------ ...
spark-sql自定义函数UDF和UDAF
1 UDF对每个值进行处理: 2 UDAF对分组后的每个值处理(必须分组) SparkConf sparkConf = new SparkConf() .setMaster("local&q ...
【Spark-SQL学习之三】 UDF、UDAF、开窗函数
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
048 SparkSQL自定义UDAF函数
一:程序 1.需求实现一个求平均值的UDAF. 这里保留Double格式化,在完成求平均值后与系统的AVG进行对比,观察正确性. 2.SparkSQLUDFDemo程序 package com.sc ...
45、sparkSQL UDF&UDAF
一.UDF 1.UDF UDF:User Defined Function.用户自定义函数. 2.scala案例 package cn.spark.study.sql import org.apach ...
Spark(十三)【SparkSQL自定义UDF/UDAF函数】
目录一.UDF(一进一出) 二.UDAF(多近一出) spark2.X 实现方式案例 ①继承UserDefinedAggregateFunction,实现其中的方法 ②创建函数对象,注册函数,在s ...
【转】Spark-Sql版本升级对应的新特性汇总
Spark-Sql版本升级对应的新特性汇总 SparkSQL的前身是Shark.由于Shark自身的不完善,2014年6月1日Reynold Xin宣布:停止对Shark的开发.SparkSQL抛弃原 ...

随机推荐

编写高质量 Objective-C 代码
第一章熟悉 Objective-C 第一条:了解 Objective-C 起源 Objective-C 是 C 语言动态性扩充.使用"消息结构"而非"函数调用" ...
Lambda表达式和函数试接口的最佳实践 · LiangYongrui's Studio
1.概述本文主要深入研究java 8中的函数式接口和Lambda表达式,并介绍最佳实践. 2.使用标准的函数式接口包java.util.function中的函数是接口已经可以满足大部分的java开 ...
Android长按及拖动事件探究
Android中长按拖动还是比较常见的.比如Launcher中的图标拖动及屏幕切换,ListView中item顺序的改变,新闻类App中新闻类别的顺序改变等.下面就这个事件做一下分析. 就目前而言,A ...
程序小白如何快速开发OA办公系统
对于企业开发oa办公系统,成本高,周期长.有些企业花高价购买,购买后受制于软件商,很多功能只能按原来设计需求走,无法升级或者升级慢.这些由于软件商的开发效率低难以及时地响应企业的需求变化,所以就有可能 ...
小白学 Python 数据分析（13）：Pandas （十二）数据表拼接
人生苦短,我用 Python 前文传送门: 小白学 Python 数据分析(1):数据分析基础小白学 Python 数据分析(2):Pandas (一)概述小白学 Python 数据分析(3):P ...
使用HBuilder开发移动APP
前言 HBuilder是DCloud(数字天堂)推出的一款支持HTML5的Web开发IDE.HBuilder的编写用到了Java.C.Web和Ruby.HBuilder本身主体是由Java编写,它基于 ...
#AcWing系列课程Level-2笔记——5.高精度“+”算法
高精度"+"算法编写高精度"+",记住下面的过程,代码也就游刃有余了! 1.首先我们要明白大整数是如何存储的? 2.其次存储完,如何运算? 高精度" ...
关于vue-cli3打包时遇到Cannot assign to read only property 'exports' of object '#<Object>'问题的解决方法。
vue-cli3打包时遇到Cannot assign to read only property 'exports' of object '#<Object>'问题的解决方法. 大致是说, ...
Core + Vue 后台管理基础框架0——开篇
1.背景最近,打算新开个项目,鉴于团队技术栈,选型.net core + vue,前后端分离.本打算捡现成的轮子的,github上大致逛了逛,总发现这样那样的不太适合心中那些“完美实践”,例如:Ab ...
群ping
找出单位内所有电脑手机通常情况下,ping只能ping一个IP地址.一个网络值班只有255台电脑,除非是大的网络断,把子网掩码改了,可以扩充更多电脑.如: 如果我们要一次性检查内网所有机器,则可以输 ...

SparkSQL---UDAF

SparkSQL---UDAF的更多相关文章

随机推荐

热门专题