SparkSQL---UDAF

package sqlspark.Day04

import java.lang

import org.apache.spark.sql.{DataFrame, Dataset, SparkSession}

object UdafText05 {
  def main(args: Array[String]): Unit = {
    //创建sparksession
    val spark: SparkSession = SparkSession.builder().appName("ipdemo2").master("local[*]").getOrCreate()
    //2.创建分布式的数据集合
    val number: Dataset[lang.Long] = spark.range(1, 11)

    //转换为df
    val numberDF: DataFrame = number.toDF()
   //number.show()
    //3.注册为视图
    numberDF.createTempView("v_number")
    //注册UDAF函数
    spark.udf.register("geo",new GemMean05_1())
    //sq
    spark.sql("select geo(id) result from v_number").show()
    spark.stop()
  }
}

package sqlspark.Day04

import org.apache.spark.sql.Row
import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}
import org.apache.spark.sql.types.{DataType, DataTypes, StructField, StructType}

class GemMean05_1 extends UserDefinedAggregateFunction {
  //运算输入数据的类型
  override def inputSchema: StructType = StructType(List(
    StructField("value", DataTypes.DoubleType)

  ))

  //产生中间结果的数据类型
  override def bufferSchema: StructType = StructType(List(
    StructField("product", DataTypes.DoubleType),
      StructField("counts", DataTypes.LongType)
  ))

  //最终结果的数据类型
  override def dataType: DataType = DataTypes.DoubleType

  //数据一致性
  override def deterministic: Boolean = true

  //分区运算的初始值
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    //buffer(0) 存放的分区预算数据数量的初始值
    //buffer(0) = 0L
    buffer(0) = 1.0
    //buffer(1) 存放的是分区运算乘积的初始值
   // buffer(1) = 1.0
    buffer(1) = 0L
  }

  //没计算一条数据,更新中间结果
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    //累加计算个数
   // buffer(0) =  buffer.getLong(0) + 1L
    buffer(1) = buffer.getLong(1) + 1L
    //累乘 数字
   // buffer(1) =buffer.getDouble(0) * input.getDouble(0)
    buffer(0) = buffer.getDouble(0) * input.getDouble(0)

  }

  //合并 将各个分区的计算结果累加和累乘
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getDouble(0) * buffer2.getDouble(0)
    buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)
  }

  //最终计算
  override def evaluate(buffer: Row): Any = {
    math.pow(buffer.getDouble(0), 1.toDouble / buffer.getLong(1))
  }
}

SparkSQL---UDAF的更多相关文章

搭建Spark所遇过的坑
一.经验 1.Spark Streaming包含三种计算模式:nonstate .stateful .window 2.kafka可通过配置文件使用自带的zookeeper集群 3.Spark一切操作 ...
【Spark篇】---SparkSql之UDF函数和UDAF函数
一.前述 SparkSql中自定义函数包括UDF和UDAF UDF:一进一出 UDAF:多进一出 (联想Sum函数) 二.UDF函数 UDF:用户自定义函数,user defined functio ...
【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用
一.前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数. 开窗函数一般分组取topn时常用. 二.UDF和UDAF函数 1.UDF函数 java代码: Spar ...
SparkSQL之UDAF使用
1.创建一个类继承UserDefinedAggregateFunction类. ------------------------------------------------------------ ...
spark-sql自定义函数UDF和UDAF
1 UDF对每个值进行处理: 2 UDAF对分组后的每个值处理(必须分组) SparkConf sparkConf = new SparkConf() .setMaster("local&q ...
【Spark-SQL学习之三】 UDF、UDAF、开窗函数
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 scala-2.10.4(依赖jdk1.8) spark ...
048 SparkSQL自定义UDAF函数
一:程序 1.需求实现一个求平均值的UDAF. 这里保留Double格式化,在完成求平均值后与系统的AVG进行对比,观察正确性. 2.SparkSQLUDFDemo程序 package com.sc ...
45、sparkSQL UDF&UDAF
一.UDF 1.UDF UDF:User Defined Function.用户自定义函数. 2.scala案例 package cn.spark.study.sql import org.apach ...
Spark(十三)【SparkSQL自定义UDF/UDAF函数】
目录一.UDF(一进一出) 二.UDAF(多近一出) spark2.X 实现方式案例 ①继承UserDefinedAggregateFunction,实现其中的方法 ②创建函数对象,注册函数,在s ...
【转】Spark-Sql版本升级对应的新特性汇总
Spark-Sql版本升级对应的新特性汇总 SparkSQL的前身是Shark.由于Shark自身的不完善,2014年6月1日Reynold Xin宣布:停止对Shark的开发.SparkSQL抛弃原 ...

随机推荐

机器学习 —— 数据预处理
对于学习机器学习算法来说,肯定会涉及到数据的处理,因此一开始,对数据的预处理进行学习对于数据的预处理,大概有如下几步: 步骤1 -- 导入所需库导入处理数据所需要的python库,有如下两个库是非 ...
FPGA小白学习之路（1） System Verilog的概念以及与verilog的对比(转)
转自CSDN:http://blog.csdn.net/gtatcs/article/details/8970489 SystemVerilog语言简介 SystemVerilog是一种硬件描述和验证 ...
基于 HTML5 Canvas 的 3D 热力云图效果
前言数据蕴藏价值,但数据的价值需要用 IT 技术去发现.探索,可视化可以帮助人更好的去分析数据,信息的质量很大程度上依赖于其呈现方式.在数据分析上,热力图无疑是一种很好的方式.在很多行业中都有着广泛 ...
Ajax&Json案例
案例: * 校验用户名是否存在 1. 服务器响应的数据,在客户端使用时,要想当做json数据格式使用.有两种解决方案: 1. $.get(type):将最后一个参数type指定为"json& ...
SVN版本控制说明与相关指令
SVN版本控制说明目的多个版本中并行开发,提高开发效率: 保证各个版本和各个环境(开发.测试.主干)的独立,避免相互影响: 通过分支与主干的合并,这样主干永远是最新.最高版本,并且都在后面的测试中 ...
springboot创建，自动装配原理分析，run方法启动
使用IDEA快速创建一个springboot项目创建Spring Initializr,然后一直下一步下一步直至完成选择web,表示创建web项目运行原理分析我们先来看看pom.xml文件核 ...
js笔记系列之--时间及时间戳
js入门系列之时间及时间戳时间及时间戳时间及时间戳是js里面很常见的一个概念,在我们写前端页面的时候,经常会遇到需要获取当前时间的情况,所以,了解js中的时间概念非常重要.而时间戳是指格林威治时 ...
【图文+视频新手也友好】Java一维数组详细讲解（内含练习题答案+详解彩蛋喔~）
目录视频讲解: 一.数组的概述二.一维数组的使用三.Arrays工具类中的sort方法(sort方法用的多,我们具体讲一下) 四.数组中的常见异常五.一维数组练习题六.彩蛋(本期视频使用的P ...
golang的sync.WaitGroup使用示例
下面一段代码 len(m) 不一定会打印为 10,为什么?.如果想要 len(m) 打印为 10,应该怎么修改代码? func main() { const N = 10 m := make(map[ ...

SparkSQL---UDAF

SparkSQL---UDAF的更多相关文章

随机推荐

热门专题