大数据笔记（十八）——Pig的自定义函数

Pig的自定义函数有三种：

1、自定义过滤函数：相当于where条件

2、自定义运算函数：

3、自定义加载函数：使用load语句加载数据，生成一个bag

                                          默认：一行解析成一个Tuple

                                         需要MR的jar包

一.自定义过滤函数

package demo.pig;

import java.io.IOException;

import org.apache.pig.FilterFunc;

import org.apache.pig.data.Tuple;

//实现自定义的过滤函数，实现：查询过滤薪水大于2000的员工

public class IsSalaryTooHigh extends FilterFunc{

    @Override

    public Boolean exec(Tuple tuple) throws IOException {

        /*参数tuple:调用的时候 传递的参数

         *

         * 在PigLatin调用

         * myresult1 = filter emp by demo.pig.IsSalaryTooHigh(sal)

         */

        //取出薪水

        int sal = (int) tuple.get(0);

        return sal>2000?true:false;

    }

}

二.自定义运算函数

package demo.pig;

import java.io.IOException;

import org.apache.pig.EvalFunc;

import org.apache.pig.data.Tuple;

//根据员工的薪水判断级别

public class CheckSalaryGrade extends EvalFunc<String>{

    @Override

    public String exec(Tuple tuple) throws IOException {

        // myresult2 = foreach emp generate ename,sal,demo.pig.CheckSalaryGrade(sal);

        int sal = (int)tuple.get(0);

        if(sal<1000) return "Grade A";

        else if(sal>=1000 && sal<3000) return "Grade B";

        else return "Grade C";

    }

}

三.自定义加载函数

package demo.pig;

import java.io.IOException;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.mapreduce.InputFormat;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.RecordReader;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.pig.LoadFunc;

import org.apache.pig.backend.hadoop.executionengine.mapReduceLayer.PigSplit;

import org.apache.pig.data.BagFactory;

import org.apache.pig.data.DataBag;

import org.apache.pig.data.Tuple;

import org.apache.pig.data.TupleFactory;

public class MyLoadFunc extends LoadFunc{

    //定义一个变量保存输入流

    private RecordReader reader ;

    @Override

    public InputFormat getInputFormat() throws IOException {

        // 输入数据的格式：字符串

        return new TextInputFormat();

    }

    @Override

    public Tuple getNext() throws IOException {

        // 从输入流读取一行，如何解析生成返回的tuple

        //数据：I love Beijing

        Tuple result = null;

        try{

            //判断是否读入了数据

            if(!this.reader.nextKeyValue()){

                //没有数据

                return result; //----> 是nullֵ

            }

            //数据：I love Beijing

            String data = this.reader.getCurrentValue().toString();

            //生成返回的结果：Tuple

            result = TupleFactory.getInstance().newTuple();

            //分词

            String[] words = data.split(" ");

            //每一个单词单独生成一个tuple,再把tuple放入bag中

            //再把这个bag放入result中

            //创建一个表

            DataBag bag = BagFactory.getInstance().newDefaultBag();

            for(String w:words){

                //为每个单词生成一个tuple

                Tuple aTuple = TupleFactory.getInstance().newTuple();

                aTuple.append(w); //将单词放到tuple中

                //把这些tuple放入一个bag中

                bag.add(aTuple);

            }

            //把bag放入result

            result.append(bag);

        }catch(Exception ex){

            ex.printStackTrace();

        }

        return result;

    }

    @Override

    public void prepareToRead(RecordReader reader, PigSplit arg1) throws IOException {

        // RecordReader reader:代表HDFS输入流

        this.reader = reader;

    }

    @Override

    public void setLocation(String path, Job job) throws IOException {

        // 从HDFS输入的路径

        FileInputFormat.setInputPaths(job, new Path(path));

    }

}

注册jar包: register define
register /root/temp/p1.jar

myresult3 = load '/input/data.txt' using demo.pig.MyLoadFunc();
定义别名：define myload demo.pig.MyLoadFunc;

大数据笔记（十八）——Pig的自定义函数的更多相关文章

大数据笔记（八）——Mapreduce的高级特性（A）
一.序列化类似于Java的序列化:将对象——>文件如果一个类实现了Serializable接口,这个类的对象就可以输出为文件同理,如果一个类实现了的Hadoop的序列化机制(接口:Writ ...
Opencv笔记(十八)——轮廓的更多函数及其层次结构
凸缺陷前面我们已经学习了轮廓的凸包,对象上的任何凹陷都被成为凸缺陷.OpenCV 中有一个函数 cv.convexityDefect() 可以帮助我们找到凸缺陷.函数调用如下: hull = cv2 ...
大数据笔记（十七）——Pig的安装及环境配置、数据模型
一.Pig简介和Pig的安装配置 1.最早是由Yahoo开发,后来给了Apache 2.支持语言:PigLatin 类似SQL 3.翻译器 PigLatin ---> MapReduce(Spa ...
玩转大数据系列之Apache Pig高级技能之函数编程（六）
原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/ Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Ap ...
跟上节奏大数据时代十大必备IT技能
跟上节奏大数据时代十大必备IT技能新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT ...
python3.4学习笔记(十八) pycharm 安装使用、注册码、显示行号和字体大小等常用设置
python3.4学习笔记(十八) pycharm 安装使用.注册码.显示行号和字体大小等常用设置Download JetBrains Python IDE :: PyCharmhttp://www. ...
大数据笔记（十六）——Hive的客户端及自定义函数
一.Hive的Java客户端 JDBC工具类:JDBCUtils.java package demo.jdbc; import java.sql.DriverManager; import java. ...
跟上节奏大数据时代十大必备IT技能（转）
新的想法诞生新的技术,从而造出许多新词,云计算.大数据.BYOD.社交媒体……在互联网时代,各种新词层出不穷,让人应接不暇.这些新的技术,这些新兴应用和对应的IT发展趋势,使得IT人必须了解甚至掌握最 ...
(C/C++学习笔记) 十八. 继承和多态
十八. 继承和多态 ● 继承的概念继承(inheritance): 以旧类为基础创建新类, 新类包含了旧类的数据成员和成员函数(除了构造函数和析构函数), 并且可以派生类中定义新成员. 形式: cl ...

随机推荐

C#读取 *.exe.config
读语句: String str = ConfigurationManager.AppSettings["DemoKey"];写语句: Configuration cfa = Con ...
[转帖]又一国产x86处理器可大规模上市：Intel至强核心安全监测管控
又一国产x86处理器可大规模上市:Intel至强核心安全监测管控 https://www.cnbeta.com/articles/tech/850525.htm 不知道是不是有一起汉芯事件国产CP ...
vue 还原Data里面的数据
this.$data包含现有的data数据, this.$options.data()中是原有的data数据还原代码 Object.assign(this.$data.searchForm, thi ...
C++中的深拷贝和浅拷贝构造函数
1,对象的构造在实际工程开发当中是相当重要的,C++ 中使用类就要创建对象,这就涉及了对象的构造,本节课讲解对象的构造和内存操作方面的问题: 2,实际工程开发中,bug 产生的根源,必然的会有内存操 ...
P1162填涂颜色
这还是一个搜索题,难度较低,但我提交第三次才AC.. 观察0地图左上角的上面和左面都是一,所以先把他找粗来,然后设成start,然后dfs找到与他联通的块,涂成2即可.再说一下自己犯的低级错误:1.当 ...
python3—廖雪峰之练习（二）
函数的参数练习请定义一个函数quadratic(a, b, c), 接收3个参数,返回一元二次方程 : $ ax^2+b+c=0 $ 的两个解提示:计算平方根可以调用math.sqrt()函数: ...
HNUSTOJ-1638 遍地桔子(贪心)
1638: 遍地桔子时间限制: 1 Sec 内存限制: 128 MB提交: 711 解决: 134[提交][状态][讨论版] 题目描述为了实验室的发展,队长决定在实验室外面的空地种桔子树.空地 ...
Kotlin学习（4）Lambda
Lanbda基础 /* *Lambda允许把代码块当作参数传递给函数 */ fun a(plus:(Int,Int)->Unit){ plus(,) //声明函数的地方,调用代码块,在这里传参 ...
Linux系统性能测试工具（二）——内存压力测试工具memtester
本文介绍关于Linux系统(适用于centos/ubuntu等)的内存压力测试工具-memtester.内存性能测试工具包括: 内存带宽测试工具——mbw: 内存压力测试工具——memtester: ...
Linux日常之定时向文件传内容
一. Linux中定时执行任务使用的命令是crontab 流程如下: 1. 使用命令crontab -e进入编辑界面 2. [Ctrl]+X进行保存退出 3. 重启crontab服务,这样才可以生效, ...

大数据笔记（十八）——Pig的自定义函数

大数据笔记（十八）——Pig的自定义函数的更多相关文章

随机推荐

热门专题