spark-sql自定义函数UDF和UDAF
1 UDF对每个值进行处理;
2 UDAF对分组后的每个值处理(必须分组)
SparkConf sparkConf = new SparkConf()
.setMaster("local")
.setAppName("MySqlTest"); JavaSparkContext javaSparkContext = new JavaSparkContext(sparkConf); SQLContext sqlContext = new SQLContext(javaSparkContext); List<String> list = new ArrayList<String>();
list.add("2018-9-9,1,ab");
list.add("2018-5-9,1124,abg");
list.add("2018-9-9,1125,abc");
list.add("2018-5-9,1126,abh");
list.add("2016-10-9,1127,abc");
list.add("2016-10-9,1127,abcd");
list.add("2016-10-9,1127,abcder"); JavaRDD<String> rdd_list = javaSparkContext.parallelize(list, 5); JavaRDD<Row> rdd_row_list = rdd_list.map(new Function<String, Row>() {
@Override
public Row call(String s) throws Exception {
return RowFactory.create(s.split(",")[0], Long.parseLong(s.split(",")[1]), s.split(",")[2]);//转换成一个row对象
}
}); List<StructField> structFieldList = new ArrayList<StructField>();
structFieldList.add(DataTypes.createStructField("date", DataTypes.StringType, true));
structFieldList.add(DataTypes.createStructField("s", DataTypes.LongType, true));
structFieldList.add(DataTypes.createStructField("str", DataTypes.StringType, true));
StructType dyType = DataTypes.createStructType(structFieldList); DataFrame df_dyType = sqlContext.createDataFrame(rdd_row_list, dyType); df_dyType.registerTempTable("tmp_req");
df_dyType.show(); //1,注册一个简单用户自定义函数
sqlContext.udf().register("zzq123", new UDF1<String, Integer>() {
@Override
public Integer call(String str) throws Exception {
return str.length();
}
}, DataTypes.IntegerType); DataFrame df_group = sqlContext.sql("select date,s,zzq123(date) as zzq123 from tmp_req ");//UDF如果没有指定名称,则随机名称
df_group.show(); //1,注册一个复杂的用户自定义聚合函数
sqlContext.udf().register("zzq_agg", new StringLen());//zzq_agg函数计算出分组后本组所有字符串总长度
DataFrame df_group_agg = sqlContext.sql("select date,zzq_agg(str) strSum from tmp_req group by date ");//UDAF为聚合情况下使用
df_group_agg.show();
UDAF实体:
public class StringLen extends UserDefinedAggregateFunction {
@Override
public StructType inputSchema() {//inputSchema指的是输入的数据类型
List<StructField> fields = new ArrayList<StructField>();
fields.add(DataTypes.createStructField("_string", DataTypes.StringType, true));
return DataTypes.createStructType(fields);
} @Override
public StructType bufferSchema() {//bufferSchema指的是 中间进行聚合时 所处理的数据类型
List<StructField> fields = new ArrayList<StructField>();
fields.add(DataTypes.createStructField("_len", DataTypes.IntegerType, true));
return DataTypes.createStructType(fields);
} @Override
public DataType dataType() {//dataType指的是函数返回值的类型
return DataTypes.IntegerType;
} @Override
public boolean deterministic() {//一致性检验,如果为true,那么输入不变的情况下计算的结果也是不变的
return true;
} /**
* 对于每个分组的数据进行最原始的初始化操作
*
* @param buffer
*/
@Override
public void initialize(MutableAggregationBuffer buffer) {
buffer.update(0, 0);//初始化的时候初始最开始的字符串的长度
} /**
* 用输入数据input更新buffer值,类似于combineByKey
*
* @param buffer
* @param input
*/
@Override
public void update(MutableAggregationBuffer buffer, Row input) {//分组后的每个值处理方法
buffer.update(0, ((Integer) buffer.getAs(0)) + input.getAs(0).toString().length());//返回自己的长度
} /**
* 合并两个buffer,将buffer2合并到buffer1.在合并两个分区聚合结果的时候会被用到,类似于reduceByKey
* 这里要注意该方法没有返回值,在实现的时候是把buffer2合并到buffer1中去,你需要实现这个合并细节
*
* @param buffer1
* @param buffer2
*/
@Override
public void merge(MutableAggregationBuffer buffer1, Row buffer2) {//相当于shuffle环节,将每组在不同executor上的数据进行combiner
buffer1.update(0, ((Integer) buffer1.getAs(0)) + ((Integer) buffer2.getAs(0)));//两次的字符串长度相加
} /**
* 计算并返回最终的聚合结果
*
* @param buffer
* @return
*/
@Override
public Object evaluate(Row buffer) {
return buffer.getInt(0);
}
}
spark-sql自定义函数UDF和UDAF的更多相关文章
- 详解Spark sql用户自定义函数:UDF与UDAF
UDAF = USER DEFINED AGGREGATION FUNCTION Spark sql提供了丰富的内置函数供猿友们使用,辣为何还要用户自定义函数呢?实际的业务场景可能很复杂,内置函数ho ...
- hive自定义函数UDF UDTF UDAF
Hive 自定义函数 UDF UDTF UDAF 1.UDF:用户定义(普通)函数,只对单行数值产生作用: UDF只能实现一进一出的操作. 定义udf 计算两个数最小值 public class Mi ...
- Spark SQL 自定义函数类型
Spark SQL 自定义函数类型 一.spark读取数据 二.自定义函数结构 三.附上长长的各种pom 一.spark读取数据 前段时间一直在研究GeoMesa下的Spark JTS,Spark J ...
- Spark SQL 用户自定义函数UDF、用户自定义聚合函数UDAF 教程(Java踩坑教学版)
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
- 大数据学习day29-----spark09-------1. 练习: 统计店铺按月份的销售额和累计到该月的总销售额(SQL, DSL,RDD) 2. 分组topN的实现(row_number(), rank(), dense_rank()方法的区别)3. spark自定义函数-UDF
1. 练习 数据: (1)需求1:统计有过连续3天以上销售的店铺有哪些,并且计算出连续三天以上的销售额 第一步:将每天的金额求和(同一天可能会有多个订单) SELECT sid,dt,SUM(mone ...
- Spark(十三)SparkSQL的自定义函数UDF与开窗函数
一 自定义函数UDF 在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_ ...
- SparkSQL中的自定义函数UDF
在Spark中,也支持Hive中的自定义函数.自定义函数大致可以分为三种: UDF(User-Defined-Function),即最基本的自定义函数,类似to_char,to_date等 UDAF( ...
- T-SQL: 17 个与日期时间相关的自定义函数(UDF),周日作为周的最后一天,均不受 @@DateFirst、语言版本影响!
原文:T-SQL: 17 个与日期时间相关的自定义函数(UDF),周日作为周的最后一天,均不受 @@DateFirst.语言版本影响! CSDN 的 Blog 太滥了!无时不刻地在坏! 开始抢救性搬家 ...
- 10_Hive自定义函数UDF
Hive官方的UDF手册地址是:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF 1.使用内置函数的快捷方法: 创 ...
随机推荐
- Error while Installing APKs
这一篇帖子 会写的比较简单 不过相信大家也可能遇到这些问题 为了怕自己忘记 记录下来 顺便也和大家一起分享 描述:在一些机型上安装软件 提示卸载原先的软件 但是又安装不上新软件DELETE_ ...
- mysql官方测试库
sql语句优化时没有测试数据,oracle官方提供测试数据 https://dev.mysql.com/doc/employee/en/employees-installation.html 到 ht ...
- Mysql --数据库概述1
什么是数据(Data)? 描述事物的符号记录称为数据,描述事物的符号既可以是数字,也可以是文字.图片,图像.声音.语言等,数据由多种表现形式,它们都可以经过数字化后存入计算机 在计算机中描述一个事物, ...
- vue ajax返回html代码不渲染解决
<span v-html='lists.html'></span>
- RDay1-Problem 3 C
题目描述 初始给定n个卡片拍成一排,其中第i个卡片上的数为x[i]. 有q个询问,每次询问给定L和R表示询问区间[L,R]内的卡片所有出现了偶数次的数的异或和是多少. 输入 输入文件C.in 输入一行 ...
- C#+EntityFramework编程方式详细之Code First
Code First Code First模式即“代码优先”模式,是从EF4.1开始新建加入的功能.使用Code First模式进行EF开发时只需要编写对应的数据类,然后自动生成数据库. Code F ...
- Bootstrap-datepicker3官方文档中文翻译---概述(原文链接 http://bootstrap-datepicker.readthedocs.io/en/latest/index.html)
bootstrap-datepicker Bootstrap-datepicker 提供了一个拥有Bootstrap样式的弹性Datepicker控件 Requirements/使用要求 Bootst ...
- JVM 组成以及各部分作用
1.Java虚拟机的体系结构 2.jvm在系统中的布局 3.jvm装载一个类 当一个classLoder启动的时候,classLoader的生存地点在jvm中的堆,然后它会去主机硬盘上将A.class ...
- DOS批处理高级教程(还不错)(转)
前言 目录 第二节 常用特殊符号 1.@ 命令行回显屏蔽符 2.% 批处理变量引导符 3.> 输出重定向符 4.>> 输出重定向符 ...
- Linux查看设备命令
系统 # uname -a # 查看内核/操作系统/CPU信息 # head -n 1 /etc/issue # 查看操作系统版本 # cat /proc/cpuinfo # 查看CPU信息 # ho ...