sparkSQL中的example学习(2)

UserDefinedUntypedAggregate.scala(默认返回类型为空,不能更改)



import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.sql.expressions.{MutableAggregationBuffer, UserDefinedAggregateFunction}

import org.apache.spark.sql.types._

object UserDefinedUntypedAggregate {

//  $example on: untyped_custom_aggregations$

  object MyAverage extends UserDefinedAggregateFunction {

    //Data types of input arguments of this aggregate function

    def inputSchema: StructType = StructType(StructField("inputColumn", LongType) :: Nil)

    //Data types of values in the aggregation buffer

    def bufferSchema: StructType = {

      StructType(StructField("sum", LongType) :: StructField("count", LongType) :: Nil)

    }

    //The data type of the returned value

    def dataType: DataType = DoubleType

    //Whether this function always return s the same output on the identical input

    def deterministic: Boolean = true

    //  """

    //    |Initializes the given aggregation buffer.

    //    |The buffer itself is a `Row` that in addition to

    //    |standard method like retrieving a value at an index (e.g., get(), getBoolean()),

    //    |providesthe opportunity to update its values.

    //    |Note that arrays andmaps inside the buffer are still ummutable.

    //  """

    def initialize(buffer: MutableAggregationBuffer): Unit = {

    buffer(0) = 0L

    buffer(1) = 0L } //Updates the given aggregation buffer `buffer` with new input data from `input`

    def update(buffer: MutableAggregationBuffer, input: Row): Unit = {

      //isNullAt() -> Checks whether the value at position i is null.

     if (!input.isNullAt(0)) {

        buffer(0) = buffer.getLong(0) + input.getLong(0)

        buffer(1) = buffer.getLong(1) + 1

     }

    }

    //Merges two aggregation buffers and stores the updated buffer values back to `buffer1`

    def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {

      buffer1(1) = buffer1.getLong(0) + buffer2.getLong(0)

      buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)

    }

    // Calcuates the final result

    def evaluate(buffer: Row): Double = buffer.getLong(0).toDouble / buffer.getLong(1)

  }

//  $example off: untyped_custom_aggregation$

  def main(args: Array[String]): Unit = {

    val spark = SparkSession

      .builder()

      .master("local")

      .appName("Spark SQL user-defined DataFrames aggregation example")

      .getOrCreate()

//    $eeample on: untyped_custom_aggregation$

    //Register the function to access it

    spark.udf.register("myAverage", MyAverage)

    val df = spark.read.json("/Users/hadoop/app/spark/examples/src/main/resources/employees.json")

    df.createOrReplaceTempView("employees")

    df.show()

    val result = spark.sql("SELECT myAverage(salary) as average_salary FROM employees")

    result.show()

    spark.stop()

  }

}

sparkSQL中的example学习(2)的更多相关文章

sparkSQL中的example学习(1)
SparkSQLDemo.scala import org.apache.spark.sql.{Row, SparkSession} import org.apache.spark.sql.types ...
sparkSQL中的example学习(3)
UserDefinedTypedAggregation.scala(用户可自定义类型) import org.apache.spark.sql.expressions.Aggregator impor ...
PHP中的Libevent学习
wangbin@2012,1,3 目录 Libevent在php中的应用学习 1. Libevent介绍 2. 为什么要学习libevent 3. Php libeven ...
JS中childNodes深入学习
原文:JS中childNodes深入学习 <html xmlns="http://www.w3.org/1999/xhtml"> <head> <ti ...
CNCC2017中的深度学习与跨媒体智能
CNCC2017中的深度学习与跨媒体智能转载请注明作者:梦里茶目录机器学习与跨媒体智能传统方法与深度学习图像分割小数据集下的深度学习语音前沿技术生成模型基于贝叶斯的视觉信息编解码珠 ...
【Spark篇】---SparkSQL中自定义UDF和UDAF，开窗函数的应用
一.前述 SparkSQL中的UDF相当于是1进1出,UDAF相当于是多进一出,类似于聚合函数. 开窗函数一般分组取topn时常用. 二.UDF和UDAF函数 1.UDF函数 java代码: Spar ...
图解BERT（NLP中的迁移学习）
目录一.例子:句子分类二.模型架构模型的输入模型的输出三.与卷积网络并行四.嵌入表示的新时代回顾一下词嵌入 ELMo: 语境的重要性五.ULM-FiT:搞懂NLP中的迁移学习六.Tr ...
python中confIgparser模块学习
python中configparser模块学习 ConfigParser模块在python中用来读取配置文件,配置文件的格式跟windows下的ini配置文件相似,可以包含一个或多个节(section ...
Scala中的类学习
Scala中的类学习从java了解类的情况下,了解Scala的类并不难.Scala类中的字段自动带getter和setter方法,用@BeanProperty注解生成javaBean对象的getXX ...

随机推荐

axios+vue实现动态渲染员工数据+数据是对象
<style> table{ width: 600px; margin: 0 auto; text-align: center; border-collapse: collapse; /* ...
05webpack-webpack-dev-server时时跟新-第2种方式
<!--14 第一种方式自动打开浏览器端口号指定托管的跟目录启动热刷新这种是在webpack.json中去配置的直接在package中写将“script”:{ "dev ...
Tensorflow之多元线性回归问题（以波士顿房价预测为例）
一.根据波士顿房价信息进行预测,多元线性回归+特征数据归一化 #读取数据 %matplotlib notebook import tensorflow as tf import matplotlib. ...
1. git 基础
参考文档: https://www.liaoxuefeng.com/wiki/896043488029600 https://git-scm.com/docs/git-fsck 一.介绍 Linus一 ...
python3.5.3rc1学习九：正则表达式
# 正则表达式 ''''' 正则表达式是有一些特殊字符组成,能够帮你找到一些符合一定规则的字符串先来了解几个符号所代表的意思 \d 匹配所有的数字 \D 匹配所有,但是数字除外 \s 空格 \S 匹 ...
lua 14 metatable （类似操作符重载）
转自:http://www.runoob.com/lua/lua-metatables.html 感性认识: “Lua中Metatable这个概念, 国内将他翻译为元表. 元表为重定义Lua中任意一个 ...
java.net 基本测试
java.net 基本测试包 java.net java.net.ssl 类 java.net.URL 测试类 package com.mozq.boot.kuayu01.demo; import ...
作业一（python初认识）
一.python发展历史 1989,为了度过圣诞假期,Guido开始编写Python语言编译器.Python这个名字来自Guido的喜爱的电视连续剧<蒙蒂蟒蛇的飞行马戏团>.他希望新的语言 ...
Django Form 内置字段
常用字段: Field required=True, 是否允许为空 widget=None, HTML插件 label=None, 用于生成Label标签或显示内容 initial=None, 初始值 ...
机器学习之KNN
KNN做回归和分类的主要区别在于最后做预测时候的决策方式不同.KNN做分类预测时,一般是选择多数表决法,即训练集里和预测的样本特征最近的K个样本,预测为里面有最多类别数的类别.而KNN做回归时,一般是 ...

sparkSQL中的example学习(2)

sparkSQL中的example学习(2)的更多相关文章

随机推荐

热门专题