sparkSQL中的example学习(2)

UserDefinedUntypedAggregate.scala(默认返回类型为空,不能更改)



import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}

import org.apache.spark.sql.types._

object UserDefinedUntypedAggregate {

//  $example on: untyped_custom_aggregations$

  object MyAverage extends UserDefinedAggregateFunction {

    //Data types of input arguments of this aggregate function

    def inputSchema: StructType = StructType(StructField("inputColumn", LongType) :: Nil)

    //Data types of values in the aggregation buffer

    def bufferSchema: StructType = {

      StructType(StructField("sum", LongType) :: StructField("count", LongType) :: Nil)

    }

    //The data type of the returned value

    def dataType: DataType = DoubleType

    //Whether this function always return s the same output on the identical input

    def deterministic: Boolean = true

    //  """

    //    |Initializes the given aggregation buffer.

    //    |The buffer itself is a `Row` that in addition to

    //    |standard method like retrieving a value at an index (e.g., get(), getBoolean()),

    //    |providesthe opportunity to update its values.

    //    |Note that arrays andmaps inside the buffer are still ummutable.

    //  """

    def initialize(buffer: MutableAggregationBuffer): Unit = {

    buffer(0) = 0L

    buffer(1) = 0L } //Updates the given aggregation buffer `buffer` with new input data from `input`

    def update(buffer: MutableAggregationBuffer, input: Row): Unit = {

      //isNullAt() -> Checks whether the value at position i is null.

     if (!input.isNullAt(0)) {

        buffer(0) = buffer.getLong(0) + input.getLong(0)

        buffer(1) = buffer.getLong(1) + 1

     }

    }

    //Merges two aggregation buffers and stores the updated buffer values back to `buffer1`

    def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {

      buffer1(1) = buffer1.getLong(0) + buffer2.getLong(0)

      buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)

    }

    // Calcuates the final result

    def evaluate(buffer: Row): Double = buffer.getLong(0).toDouble / buffer.getLong(1)

  }

//  $example off: untyped_custom_aggregation$

  def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder()

      .master("local")

      .appName("Spark SQL user-defined DataFrames aggregation example")

      .getOrCreate()

//    $eeample on: untyped_custom_aggregation$

    //Register the function to access it

    spark.udf.register("myAverage", MyAverage)

    val df = spark.read.json("/Users/hadoop/app/spark/examples/src/main/resources/employees.json")

    df.createOrReplaceTempView("employees")

    df.show()

    val result = spark.sql("SELECT myAverage(salary) as average_salary FROM employees")

    result.show()

    spark.stop()

  }

}

sparkSQL中的example学习(2)的更多相关文章

sparkSQL中的example学习(1)
SparkSQLDemo.scala import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types ...
sparkSQL中的example学习(3)
UserDefinedTypedAggregation.scala(用户可自定义类型) import org.apache.spark.sql.expressions.Aggregator impor ...
PHP中的Libevent学习
wangbin@2012,1,3 目录 Libevent在php中的应用学习 1. Libevent介绍 2. 为什么要学习libevent 3. Php libeven ...
JS中childNodes深入学习
原文:JS中childNodes深入学习 <html xmlns="http://www.w3.org/1999/xhtml"> <head> <ti ...
CNCC2017中的深度学习与跨媒体智能
CNCC2017中的深度学习与跨媒体智能转载请注明作者:梦里茶目录机器学习与跨媒体智能传统方法与深度学习图像分割小数据集下的深度学习语音前沿技术生成模型基于贝叶斯的视觉信息编解码珠 ...
【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用
一.前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数. 开窗函数一般分组取topn时常用. 二.UDF和UDAF函数 1.UDF函数 java代码: Spar ...
图解BERT（NLP中的迁移学习）
目录一.例子:句子分类二.模型架构模型的输入模型的输出三.与卷积网络并行四.嵌入表示的新时代回顾一下词嵌入 ELMo: 语境的重要性五.ULM-FiT:搞懂NLP中的迁移学习六.Tr ...
python中confIgparser模块学习
python中configparser模块学习 ConfigParser模块在python中用来读取配置文件,配置文件的格式跟windows下的ini配置文件相似,可以包含一个或多个节(section ...
Scala中的类学习
Scala中的类学习从java了解类的情况下,了解Scala的类并不难.Scala类中的字段自动带getter和setter方法,用@BeanProperty注解生成javaBean对象的getXX ...

随机推荐

5-3 可视化库Seaborn-变量分析绘图
In [1]: %matplotlib inline import numpy as np import pandas as pd from scipy import stats,integrate ...
02-webpack的基本配置-运行webpack
1安装webPack的方式第一次全局安装 npm i webpack -g 第一次安装了之后以后就不需要在安装了在项目根录中运行 npm i webpack --save-dev 安装到项目依赖中 ...
day57 choise字段与ajax
一.choice字段. 在django的orm中,创建如同性别,民.族等可选择的字段时,可以选择使用choice字段进行定义. 这样的定义可以使用简单的数字代替数据量大的字符,减少数据库的负担. ch ...
剑指Offer-10.矩形覆盖(C++/Java)
题目: 我们可以用2*1的小矩形横着或者竖着去覆盖更大的矩形.请问用n个2*1的小矩形无重叠地覆盖一个2*n的大矩形,总共有多少种方法? 分析: 实际上还是一道斐波那契数列的应用,要填2*n的大矩形, ...
玩转算法系列--图论精讲面试升职必备（Java版）
第1章和bobo老师一起,玩转图论算法欢迎大家来到我的新课程:<玩转图论算法>.在这个课程中,我们将一起完整学习图论领域的经典算法,培养大家的图论建模能力.通过这个课程的学习,你将能够真 ...
vue 使用key唯一令牌解决表单值混乱
vue在渲染元素时,出于效率考虑,会尽可能地复用已有元素的而非重新渲染,如果你不希望这样可以使用Vue中提供的key属性,它可以让你决定是否要复用元素,key值必须是唯一的代码: <!doct ...
手把手教你如何用Fiddler抓取手机数据包（iOS+Android）
本文主要教你如何通过 Fiddler 来抓取手机端的数据包,包括 iOS 和 Android 端的配置和抓取. 一.Fiddler下载安装访问 Fiddler 官网:https://www.tele ...
java1.8 AQS AbstractQueuedSynchronizer学习
AQS concurrent并发包中非常重要的顶层锁类,往往用的比较多的是ReentrantLock,然而ReentrantLock的实现依赖AbstractQueuedSynchronizer在到上 ...
kubelet证书过期解决方法
昨天收到报警短信:集群中某node状态为notReady,由于是长期不用的,所以放到今天才有空处理,以下记录处理过程. 查看kubelet日志,发现不停的打印证书过期相关提示信息. 以下操作基于kub ...
GV900 Political Explanation
GV900 Political Explanation, 2017/201830 October, 2018Homework assignment 2Due Week 7 (13 November)W ...

sparkSQL中的example学习(2)

sparkSQL中的example学习(2)的更多相关文章

随机推荐

热门专题