scala的应用--UDF：用户自定义函数

在window10下安装了hadoop，用ida创建maven项目。

    <properties>

        <spark.version>2.2.0</spark.version>

        <scala.version>2.11</scala.version>

        <java.version>1.8</java.version>

    </properties>

    <dependencies>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-core_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-streaming_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-yarn_${scala.version}</artifactId>

            <version>${spark.version}</version>

        </dependency>

        <dependency>

            <groupId>mysql</groupId>

            <artifactId>mysql-connector-java</artifactId>

            <version>8.0.16</version>

        </dependency>

    </dependencies>

    <build>

        <finalName>learnspark</finalName>

        <plugins>

            <plugin>

                <groupId>net.alchim31.maven</groupId>

                <artifactId>scala-maven-plugin</artifactId>

                <version>3.2.2</version>

                <executions>

                    <execution>

                        <goals>

                            <goal>compile</goal>

                            <goal>testCompile</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

            <plugin>

                <groupId>org.apache.maven.plugins</groupId>

                <artifactId>maven-assembly-plugin</artifactId>

                <version>3.0.0</version>

                <configuration>

                    <archive>

                        <manifest>

                            <mainClass>learn</mainClass>

                        </manifest>

                    </archive>

                    <descriptorRefs>

                        <descriptorRef>jar-with-dependencies</descriptorRef>

                    </descriptorRefs>

                </configuration>

                <executions>

                    <execution>

                        <id>make-assembly</id>

                        <phase>package</phase>

                        <goals>

                            <goal>single</goal>

                        </goals>

                    </execution>

                </executions>

            </plugin>

        </plugins>

    </build>

数据准备：

{"name":"张3", "age":20}
{"name":"李4", "age":20}
{"name":"王5", "age":20}
{"name":"赵6", "age":20}
路径：

data/input/user/user.json
程序：

package com.zouxxyy.spark.sql

import org.apache.spark.SparkConf

import org.apache.spark.sql.expressions.{Aggregator, MutableAggregationBuffer, UserDefinedAggregateFunction}

import org.apache.spark.sql.types.{DataType, DoubleType, LongType, StructType}

import org.apache.spark.sql.{Column, DataFrame, Dataset, Encoder, Encoders, Row, SparkSession, TypedColumn}

/**

 * UDF：用户自定义函数

 */

object UDF {

  def main(args: Array[String]): Unit = {

    System.setProperty("hadoop.home.dir","D:\\gitworkplace\\winutils\\hadoop-2.7.1" )

//这个是用来指定我的hadoop路径的，如果你的hadoop环境变量没问题，可以不写

    val sparkConf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("UDF")

    // 创建SparkSession

    val spark: SparkSession = SparkSession.builder.config(sparkConf).getOrCreate()

    import spark.implicits._

    // 从json中read得到的是DataFrame

    val frame: DataFrame = spark.read.json("data/input/user/user.json")

    frame.createOrReplaceTempView("user")

    // 案例一：自定义一个简单的函数测试

    spark.udf.register("addName", (x:String)=> "Name:"+x)

    spark.sql("select addName(name) from user").show()

    // 案例二：自定义一个弱类型聚合函数测试

    val udaf1 = new MyAgeAvgFunction

    spark.udf.register("avgAge", udaf1)

    spark.sql("select avgAge(age) from user").show()

    // 案例三：自定义一个强类型聚合函数测试

    val udaf2 = new MyAgeAvgClassFunction

    // 将聚合函数转换为查询列

    val avgCol: TypedColumn[UserBean, Double] = udaf2.toColumn.name("aveAge")

    // 用强类型的Dataset的DSL风格的编程语法

    val userDS: Dataset[UserBean] = frame.as[UserBean]

    userDS.select(avgCol).show()

    spark.stop()

  }

}

/**

 * 自定义内聚函数(弱类型)

 */

class MyAgeAvgFunction extends UserDefinedAggregateFunction{

  // 输入的数据结构

  override def inputSchema: StructType = {

    new StructType().add("age", LongType)

  }

  // 计算时的数据结构

  override def bufferSchema: StructType = {

    new StructType().add("sum", LongType).add("count", LongType)

  }

  // 函数返回的数据类型

  override def dataType: DataType = DoubleType

  // 函数是否稳定

  override def deterministic: Boolean = true

  // 计算前缓存区的初始化

  override def initialize(buffer: MutableAggregationBuffer): Unit = {

    // 没有名称，只有结构

    buffer(0) = 0L

    buffer(1) = 0L

  }

  // 根据查询结果，更新缓存区的数据

  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {

    buffer(0) = buffer.getLong(0) + input.getLong(0)

    buffer(1) = buffer.getLong(1) + 1

  }

  // 多个节点的缓存区的合并

  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {

    buffer1(0) = buffer1.getLong(0) + buffer2.getLong(0)

    buffer1(1) = buffer1.getLong(1) + buffer2.getLong(1)

  }

  // 计算缓存区里的东西，得最终返回结果

  override def evaluate(buffer: Row): Any = {

    buffer.getLong(0).toDouble / buffer.getLong(1)

  }

}

/**

 * 自定义内聚函数(强类型)

 */

case class UserBean (name : String, age : BigInt) // 文件读取数字默认是BigInt

case class AvgBuffer(var sum: BigInt, var count: Int)

class MyAgeAvgClassFunction extends Aggregator[UserBean, AvgBuffer, Double] {

  // 初始化缓存区

  override def zero: AvgBuffer = {

    AvgBuffer(0, 0)

  }

  // 输入数据和缓存区计算

  override def reduce(b: AvgBuffer, a: UserBean): AvgBuffer = {

    b.sum = b.sum + a.age

    b.count = b.count + 1

    // 返回b

    b

  }

  // 缓存区的合并

  override def merge(b1: AvgBuffer, b2: AvgBuffer): AvgBuffer = {

    b1.sum = b1.sum + b2.sum

    b1.count = b1.count + b2.count

    b1

  }

  // 计算返回值

  override def finish(reduction: AvgBuffer): Double = {

    reduction.sum.toDouble / reduction.count

  }

  override def bufferEncoder: Encoder[AvgBuffer] = Encoders.product

  override def outputEncoder: Encoder[Double] = Encoders.scalaDouble

}

scala的应用--UDF：用户自定义函数的更多相关文章

15第十五章UDF用户自定义函数(转载)
15第十五章UDF用户自定义函数待补上原文链接本文由豆约翰博客备份专家远程一键发布
Hive UDF 用户自定义函数编程及使用
首先创建工程编写UDF 代码,示例如下: 1. 新建Maven项目 udf 本机Hadoop版本为2.7.7, Hive版本为1.2.2,所以选择对应版本的jar ,其它版本也不影响编译. 2. po ...
SQL Server UDF用户自定义函数
UDF的定义和存储过程很相似,用户自定义函数也是一组有序的T-SQL语句,UDF被预先优化和编译并且尅作为一个单元爱进行调用.UDF和存储过程的主要区别在于返回结果的方式. 使用UDF时可传入参数, ...
Hive的UDF(用户自定义函数)开发
当 Hive 提供的内置函数无法满足你的业务处理需要时,此时就可以考虑使用用户自定义函数(UDF:user-defined function). 测试各种内置函数的快捷方法: 创建一个 dual 表 ...
Pig UDF 用户自定义函数
注册UDF do.pig的内容如下: register /xx/yy.jar data = load 'data'; result = foreach data generate aa.bb.Uppe ...
Hive中的用户自定义函数UDF
Hive中的自定义函数允许用户扩展HiveQL,是一个非常强大的功能.Hive中具有多种类型的用户自定义函数.show functions命令可以列举出当前Hive会话中的所加载进来的函数,包括内置的 ...
详解Spark sql用户自定义函数:UDF与UDAF
UDAF = USER DEFINED AGGREGATION FUNCTION Spark sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数ho ...
SQL Server用户自定义函数（UDF）
一.UDF的定义和存储过程很相似,用户自定义函数也是一组有序的T-SQL语句,UDF被预先优化和编译并且可以作为一个单元来进行调用. UDF和存储过程的主要区别在于返回结果的方式: 使用UDF时可传 ...
Hive 文件格式 & Hive操作（外部表、内部表、区、桶、视图、索引、join用法、内置操作符与函数、复合类型、用户自定义函数UDF、查询优化和权限控制）
本博文的主要内容如下: Hive文件存储格式 Hive 操作之表操作:创建外.内部表 Hive操作之表操作:表查询 Hive操作之表操作:数据加载 Hive操作之表操作:插入单表.插入多表 Hive语 ...

随机推荐

csp201809-2 买菜
问题描述小H和小W来到了一条街上,两人分开买菜,他们买菜的过程可以描述为,去店里买一些菜然后去旁边的一个广场把菜装上车,两人都要买n种菜,所以也都要装n次车.具体的,对于小H来说有n个不相交的时间段 ...
开发技术--Python核心技术B
开发|Python核心技术B B篇,主要介绍Python的自定义函数,匿名函数,面向对象,模块化. 由于不涉及基础的知识,我会将重难点加以解释. 前言目前所有的文章思想格式都是:知识+情感. 知识: ...
jmeter对tomcat性能测试
主要对tomcat的参数做一些记录(jmeter和tomcat在同一个计算机,可能引起测试误差) 我的计算机配置 4核8线程 8G内存案例一 tomcat JVM 1.8G堆内存,无数据库操 ...
logstash 入门篇
场景介绍基于分布式集群海量日志数据,且分布在不同的服务器上,日志的采集以及可视化是需要我们解决的问题.ELK就是这么一个方案,当然我们这里主要讲解logstash安装配置和基础语法. ELK帮我们解 ...
maven 学习---使用Maven清理项目
在基于Maven的项目中,很多缓存输出在“target”文件夹中.如果想建立项目部署,必须确保清理所有缓存的输出,从面能够随时获得最新的部署. 要清理项目缓存的输出,发出以下命令: mvn clean ...
Violet音乐社区 - 总结报告
目录一.项目概述 1.1 项目背景 1.2 编写目的 1.3 项目文档 1.4 项目源码 1.5 项目成果二.个人工作总结 1.1 工作概览 1.1.1 作为项目组组长 1.1.2 作为项目组成员 ...
docker仓库资源的地址修改
docker仓库资源的地址修改 1.新增或者修改/etc/docker目录下的daemon.json文件样例文件如下 { "registry-mirrors": ["h ...
linux 的 expect 自动交互
https://www.jianshu.com/p/0194cbd70d39 https://www.cnblogs.com/saneri/p/10819348.html 参考 expect是一个自 ...
Delphi-面向对象
1.面向过程2.基于对象3.面向对象抽象:将同类事物向上抽取的过程派生(继承): 编程中的继承指的是类和类之间的关系,称为派生. 封装:将不必要的暴漏的细节隐藏起来. 多态:一类事物以多种形态存在 ...
封装tab组件
=====>tab切换组件的封装 wx:key="{{index}} 绑定标识它的下标是从0开始的 {{currentIndex==index ? "active" ...

scala的应用--UDF：用户自定义函数

scala的应用--UDF：用户自定义函数的更多相关文章

随机推荐

热门专题