如何给Apache Pig自定义UDF函数？

近日由于工作所需，需要使用到Pig来分析线上的搜索日志数据，散仙本打算使用hive来分析的，但由于种种原因，没有用成，而Pig（pig0.12-cdh）散仙一直没有接触过，所以只能临阵磨枪了，花了两天时间，大致看完了pig官网的文档，在看文档期间，也是边实战边学习，这样以来，对pig的学习，会更加容易，当然本篇不是介绍如何快速学好一门框架或语言的文章，正如标题所示，散仙打算介绍下如何在Pig中，使用用户自定义的UDF函数，关于学习经验，散仙会在后面的文章里介绍。

一旦你学会了UDF的使用，就意味着，你可以以更加灵活的方式来使用Pig，使它扩展一些为我们的业务场景定制的特殊功能，而这些功能，在通用的pig里是没有的，举个例子：

你从HDFS上读取的数据格式，如果使用默认的PigStorage（）来加载，存储可能只支持有限的数据编码和类型，如果我们定义了一种特殊的编码存储或序列化方式，那么当我们使用默认的Pig来加载的时候，就会发现加载不了，这时候我们的UDF就派上用场了，我们只需要自定义一个LoadFunction和一个StoreFunction就可以解决，这种问题。

本篇散仙根据官方文档的例子，来实战一下，并在hadoop集群上使用Pig测试通过：
我们先来看下定义一个UDF扩展类，需要几个步骤：

序号	步骤	说明
1	在eclipse里新建一个java工程，并导入pig的核心包	java项目
2	新建一个包，继承特定的接口或类，重写自定义部分	核心业务
3	编写完成后，使用ant打包成jar	编译时需要pig依赖，但不用把pig的jar包打入UDF中
4	把打包完成后的jar上传到HDFS上	pig运行时候需要加载使用
5	在pig脚本里，注册我们自定义的udf的jar包	注入运行时环境
6	编写我们的核心业务pig脚本运行	测试是否运行成功

项目工程截图如下：

核心代码如下：

package com.pigudf;
import java.io.IOException;
import org.apache.pig.EvalFunc;
import org.apache.pig.data.Tuple;
import org.apache.pig.impl.util.WrappedIOException;
/**
* 自定义UDF类,对字符串转换大写
* @author qindongliang
* */
public class MyUDF extends EvalFunc<String> {
@Override
public String exec(Tuple input) throws IOException {
//判断是否为null或空，就跳过
if(input==null||input.size()==0){
return null;
}
try{
//获取第一个元素
String str=(String) input.get(0);
//转成大写返回
return str.toUpperCase();
}catch(Exception e){
throw WrappedIOException.wrap("Caught exception processing input row ",e);
}
}
}

关于打包的ant脚本，散仙会在文末上传附件，下面看下造的一些测试数据（注意，文件一定要上传到HDFS上，除非你是local模式）：

grunt> cat s.txt
zhang san,12
Song,34
long,34
abC,12
grunt>

我们在看下，操作文件和jar包是放在一起的：

grunt> ls
hdfs://dnode1:8020/tmp/udf/pudf.jar<r 3> 1295
hdfs://dnode1:8020/tmp/udf/s.txt<r 3> 36
grunt>

最后，我们看下pig脚本的定义：

--注册自定义的jar包
REGISTER pudf.jar;
--加载测试文件的数据，逗号作为分隔符
a = load 's.txt' using PigStorage(',');
--遍历数据，对name列转成大写
b = foreach a generate com.pigudf.MyUDF((chararray)$0);
--启动MapReduce的Job进行数据分析
dump b

最后，我们看下结果，只要过程不出现异常和任务失败，就证明我们的udf使用成功：

Counters:
Total records written : 4
Total bytes written : 64
Spillable Memory Manager spill count : 0
Total bags proactively spilled: 0
Total records proactively spilled: 0
Job DAG:
job_1419419533357_0147
2014-12-30 18:10:24,394 [main] INFO org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.MapReduceLauncher - Success!
2014-12-30 18:10:24,395 [main] INFO org.apache.hadoop.conf.Configuration.deprecation - fs.default.name is deprecated. Instead, use fs.defaultFS
2014-12-30 18:10:24,396 [main] INFO org.apache.pig.data.SchemaTupleBackend - Key [pig.schematuple] was not set... will not generate code.
2014-12-30 18:10:24,405 [main] INFO org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total input paths to process : 1
2014-12-30 18:10:24,405 [main] INFO org.apache.pig.backend.hadoop.executionengine.util.MapRedUtil - Total input paths to process : 1
(ZHANG SAN,12)
(SONG,34)
(LONG,34)
(ABC,12)

结果没问题，我们的UDF加载执行成功，如果我们还想将我们的输出结果直接写入到HDFS上，可以在pig脚本的末尾，去掉dump命令，加入
store e into '/tmp/dongliang/result/'; 将结果存储到HDFS上，当然我们可以自定义存储函数，将结果写入数据库，Lucene，Hbase等关系型或一些NOSQL数据库里。

如何给Apache Pig自定义UDF函数？的更多相关文章

自定义UDF函数应用异常
自定义UDF函数应用异常版权声明:本文为yunshuxueyuan原创文章.如需转载请标明出处: http://www.cnblogs.com/sxt-zkys/QQ技术交流群:299142667 ...
pig 自定义udf中读取hdfs 文件
最近几天,在研究怎么样把日志中的IP地址转化成具体省份城市. 希望写一个pig udf IP数据库采用的纯真IP数据库文件qqwry.dat,可以从http://www.cz88.net/下载. 这里 ...
047 SparkSQL自定义UDF函数
一:程序部分 1.需求 Double数据类型格式化,可以给定小数点位数 2.程序 package com.scala.it import org.apache.spark.{SparkConf, Sp ...
Hive与MapReduce相关排序及自定义UDF函数
原文链接: https://www.toutiao.com/i6770870821809291788/ Hive和mapreduce相关的排序和运行的参数 1.设置每个reduce处理的数据量(单位是 ...
玩转大数据系列之Apache Pig高级技能之函数编程（六）
原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/ Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Ap ...
Spark注册UDF函数，用于DataFrame DSL or SQL
import org.apache.spark.sql.SparkSession import org.apache.spark.sql.functions._ object Test2 { def ...
自定义Hive函数
7. 函数 7.1 系统内置函数查看系统自带的函数:show functions; 显示自带的函数的用法:desc function upper(函数名); 详细显示自带的函数的用法:desc fu ...
玩转大数据系列之Apache Pig如何与Apache Solr集成（二）
散仙,在上篇文章中介绍了,如何使用Apache Pig与Lucene集成,还不知道的道友们,可以先看下上篇,熟悉下具体的流程. 在与Lucene集成过程中,我们发现最终还要把生成的Lucene索引,拷 ...
自定义udf添加一列
//创建得分窗口字典 var dict= new mutable.HashMap[Double, Int]() ){ dict.put(result_Score(i),i) } //自定义Udf函数 ...

随机推荐

linux下svn 客户端使用方式
输入 yes 开始 checkout服务器上的文件到本地目录 2.将文件添加文件到某个目录下(是svn的服务器checkout下来的目录中) 3. 提交到服务器 4 .即可在服务器目录看到(wind ...
一个有关group by的错误
事例:查询有奖金的每个部门的部门名和部门的领导编号和该部门的最低工资 SELECT department_name,MIN(salary),departments.manager_idFROM dep ...
The Battle of Chibi
The Battle of Chibi 给出一段长度为n的序列$\{a_i\}$,求其中长度为m的严格上升子序列个数$mod\ 10^9+7$,$n\leq 10^3$. 解不难想到设\ ...
Java 多线程 - synchronized与Lock的区别
https://blog.csdn.net/qq_39521554/article/details/81130442 http://www.cnblogs.com/huangbw/p/8516024. ...
Tool Zip 破解
//侵权请联系我进行删除 email:YZFHKM@163.com 0x00 fcrackzip简单介绍 fcrackzip是一款专门破解zip类型压缩文件密码的工具,工具小巧方便.破解速度快,能使用 ...
csps模拟93序列，二叉搜索树，走路题解
题面: 模拟93考得并不理想,二维偏序没看出来,然而看出来了也不会打序列: 对a,b数列求前缀和,那么题意转化为了满足$suma[i]>=suma[j]$且$sumb[i]>=sumb[ ...
JS while 循环
while循环:只要条件成立,就重复不断的执行循环体代码 while(条件判断) { 如果条件为true,则执行循环体代码 } while循环结构说明: 在循环开始前,必须要对变量初始化(声明变量 ...
YARN 原理简介
YARN 组件参考:Spark on Yarn | Spark,从入门到精通 YARN 采用 Master/Slave结构 ,包含ResourceManager 和 NodeManager Reso ...
java-day09
接口就是一种公共规范标准,只要符合规范标准,就可以大家通用,多个类的公告规范,引用数据类型格式 public interface 接口名称{} 接口都能定义抽象方法 public abstract ...
winform 旋转图片
//img.RotateFlip(RotateFlipType.Rotate90FlipNone); //顺时针旋转90度 RotateFlipType.Rotate90FlipNone //逆时针旋 ...

如何给Apache Pig自定义UDF函数？

如何给Apache Pig自定义UDF函数？的更多相关文章

随机推荐

热门专题