大数据笔记（十八）——Pig的自定义函数

Pig的自定义函数有三种：

1、自定义过滤函数：相当于where条件

2、自定义运算函数：

3、自定义加载函数：使用load语句加载数据，生成一个bag

                                          默认：一行解析成一个Tuple

                                         需要MR的jar包

一.自定义过滤函数

package demo.pig;

import java.io.IOException;

import org.apache.pig.FilterFunc;

import org.apache.pig.data.Tuple;

//实现自定义的过滤函数，实现：查询过滤薪水大于2000的员工

public class IsSalaryTooHigh extends FilterFunc{

    @Override

    public Boolean exec(Tuple tuple) throws IOException {

        /*参数tuple:调用的时候 传递的参数

         *

         * 在PigLatin调用

         * myresult1 = filter emp by demo.pig.IsSalaryTooHigh(sal)

         */

        //取出薪水

        int sal = (int) tuple.get(0);

        return sal>2000?true:false;

    }

}

二.自定义运算函数

package demo.pig;

import java.io.IOException;

import org.apache.pig.EvalFunc;

import org.apache.pig.data.Tuple;

//根据员工的薪水判断级别

public class CheckSalaryGrade extends EvalFunc<String>{

    @Override

    public String exec(Tuple tuple) throws IOException {

        // myresult2 = foreach emp generate ename,sal,demo.pig.CheckSalaryGrade(sal);

        int sal = (int)tuple.get(0);

        if(sal<1000) return "Grade A";

        else if(sal>=1000 && sal<3000) return "Grade B";

        else return "Grade C";

    }

}

三.自定义加载函数

package demo.pig;

import java.io.IOException;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.mapreduce.InputFormat;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.pig.LoadFunc;

import org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigSplit;

import org.apache.pig.data.BagFactory;

import org.apache.pig.data.DataBag;

import org.apache.pig.data.Tuple;

import org.apache.pig.data.TupleFactory;

public class MyLoadFunc extends LoadFunc{

    //定义一个变量保存输入流

    private RecordReader reader ;

    @Override

    public InputFormat getInputFormat() throws IOException {

        // 输入数据的格式：字符串

        return new TextInputFormat();

    }

    @Override

    public Tuple getNext() throws IOException {

        // 从输入流读取一行，如何解析生成返回的tuple

        //数据：I love Beijing

        Tuple result = null;

        try{

            //判断是否读入了数据

            if(!this.reader.nextKeyValue()){

                //没有数据

                return result; //----> 是nullֵ

            }

            //数据：I love Beijing

            String data = this.reader.getCurrentValue().toString();

            //生成返回的结果：Tuple

            result = TupleFactory.getInstance().newTuple();

            //分词

            String[] words = data.split(" ");

            //每一个单词单独生成一个tuple,再把tuple放入bag中

            //再把这个bag放入result中

            //创建一个表

            DataBag bag = BagFactory.getInstance().newDefaultBag();

            for(String w:words){

                //为每个单词生成一个tuple

                Tuple aTuple = TupleFactory.getInstance().newTuple();

                aTuple.append(w); //将单词放到tuple中

                //把这些tuple放入一个bag中

                bag.add(aTuple);

            }

            //把bag放入result

            result.append(bag);

        }catch(Exception ex){

            ex.printStackTrace();

        }

        return result;

    }

    @Override

    public void prepareToRead(RecordReader reader, PigSplit arg1) throws IOException {

        // RecordReader reader:代表HDFS输入流

        this.reader = reader;

    }

    @Override

    public void setLocation(String path, Job job) throws IOException {

        // 从HDFS输入的路径

        FileInputFormat.setInputPaths(job, new Path(path));

    }

}

注册jar包: register define
register /root/temp/p1.jar

myresult3 = load '/input/data.txt' using demo.pig.MyLoadFunc();
定义别名：define myload demo.pig.MyLoadFunc;

大数据笔记（十八）——Pig的自定义函数的更多相关文章

大数据笔记（八）——Mapreduce的高级特性（A）
一.序列化类似于Java的序列化:将对象——>文件如果一个类实现了Serializable接口,这个类的对象就可以输出为文件同理,如果一个类实现了的Hadoop的序列化机制(接口:Writ ...
Opencv笔记(十八)——轮廓的更多函数及其层次结构
凸缺陷前面我们已经学习了轮廓的凸包,对象上的任何凹陷都被成为凸缺陷.OpenCV 中有一个函数 cv.convexityDefect() 可以帮助我们找到凸缺陷.函数调用如下: hull = cv2 ...
大数据笔记（十七）——Pig的安装及环境配置、数据模型
一.Pig简介和Pig的安装配置 1.最早是由Yahoo开发,后来给了Apache 2.支持语言:PigLatin 类似SQL 3.翻译器 PigLatin ---> MapReduce(Spa ...
玩转大数据系列之Apache Pig高级技能之函数编程（六）
原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/ Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Ap ...
跟上节奏大数据时代十大必备IT技能
跟上节奏大数据时代十大必备IT技能新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT ...
python3.4学习笔记(十八) pycharm 安装使用、注册码、显示行号和字体大小等常用设置
python3.4学习笔记(十八) pycharm 安装使用.注册码.显示行号和字体大小等常用设置Download JetBrains Python IDE :: PyCharmhttp://www. ...
大数据笔记（十六）——Hive的客户端及自定义函数
一.Hive的Java客户端 JDBC工具类:JDBCUtils.java package demo.jdbc; import java.sql.DriverManager; import java. ...
跟上节奏大数据时代十大必备IT技能（转）
新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最 ...
(C/C++学习笔记) 十八. 继承和多态
十八. 继承和多态 ● 继承的概念继承(inheritance): 以旧类为基础创建新类, 新类包含了旧类的数据成员和成员函数(除了构造函数和析构函数), 并且可以派生类中定义新成员. 形式: cl ...

随机推荐

mysql 修改成utf8编码
参考文档 https://www.cnblogs.com/chenshuo/p/4743144.html
logstash启动时找不到自定义的JAVA_HOME环境变量
logstash java 版本问题配置logstash收集应用日志时出现报错,说是找不到JAVA_HOME环境变量,但是明明已经设置了 logstash要求java 1.8以上,查看生产环境: [ ...
Optional接口简记
@Data public class Employee { private String name; } @Data public class Company { private String nam ...
C# wpf image绑定viewModel没有显示图片
在wpf绑定图片,用viewModel的图片绑定image 我是用viewModel.cs public class viewModel:INotifyPropertyChanged { #regio ...
Hibernate:基于HQL实现数据查询
HQL: hibernate query language(hibernate特有的查询语言) hql是基于对象的查询语言,其语法与sql类似,但是他和sql的区别在于sql是面向表和字段的查询,而 ...
内置的os模块和sys模块
os模块:与操作系统交互的一种接口 """ os.getcwd() 获取当前工作目录,即当前python脚本工作的目录路径 os.chdir("dirname& ...
python的java胶水(jpype1)
1.直接使用pip安装jpype1 命令 pip install jpype1 但是,很不幸,提示报错,缺少VC++组件. 2.使用其他方法安装在 https://www.lfd.uci.edu/ ...
合肥学院ACM集训队第一届暑假友谊赛 B FYZ的求婚之旅 D 计算机科学家 F 智慧码题解
比赛网址:https://ac.nowcoder.com/acm/contest/994#question B FYZ的求婚之旅思路: 然后用快速幂即可. 细节见代码: #include <i ...
hdu 1059 Dividing bitset 多重背包
bitset做法 #include <bits/stdc++.h> #define PI acos(-1.0) #define mem(a,b) memset((a),b,sizeof(a ...
1126. Eulerian Path (25)
In graph theory, an Eulerian path is a path in a graph which visits every edge exactly once. Similar ...

大数据笔记（十八）——Pig的自定义函数

大数据笔记（十八）——Pig的自定义函数的更多相关文章

随机推荐

热门专题