Pig实战
1. pig简介
2. 安装pig
3. 实战pig
4. 深入pig
5. 参考资料及代码下载
<1>. Pig简介
pig是hadoop项目的一个拓展项目, 用以简化hadoop编程(简化的程度超乎想象啊),并且提供一个更高层次抽象的数据处理能力,同时能够保持hadoop的简单和可靠性。
<2>. 安装pig
2.1 下载pig:[点击下载]pig安装包
2.2 解压下载完成的pig安装包:
xuqiang@ubuntu:~/hadoop/src/pig$ tar zxvf pig-0.8.1.tar.gz
xuqiang@ubuntu:~$ vim .bashrc
为了使新设置的环境变量生效,使用如下命令:
xuqiang@ubuntu:~$ pig -x local
此时表明pig已经正确安装。
<3>. Pig实战
在pig下载的安装包,解压完成了之后,有一个tutorial目录,我们使用里面的数据来开始pig学习。如果tutorial目录下没有存在pigtutorial.tar.gz文件的话,那么需要使用ant来编译出这个文件:
xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1$ ant
xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1$ cd tutorial/
.
我们下面将主要分析excite-small.log文件,该文件的数据结构如下:
UserID TimeStamp SearchQuery
我们首先将excite-small.log加载到一个变量(也称之为alias)中,我们将使用该变量来表示这个数据集:
grunt> log = load 'excite-small.log' as (user, time, query);
这时如果想要查看该log的结构:
grunt> describe log;
这是如果我们想要查看该log文件的前4行的话:
grunt> lmt = limit log 4;
这时将打印出log文件的前四行数据。
<4>. 深入pig
4.1 Utility and file commands
4.2 Data read/write operators
4.3 Diagnostic operators诊断操作
4.4 Data type and schemes
pig中有6个基本数据类型和3个复合数据类型,基本数据类型如下:
复合数据类型:
pig中数据模型中能够允许数据类型的嵌套,类似于xml/json格式。
4.5 Expression and functions
pig能够支持常见运算符。
同时在pig中提供了一些内建函数。
这里我们没有给出示例,将在下面给出示例。
4.6 Retional operators
首先编写两个数据文件A:
0,1,2
数据文件B:
0,5,2
xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1/tutorial/pigtmp$ pig -x local
加载数据A:
grunt> a = load 'A' using PigStorage(',') as (a1:int, a2:int, a3:int);
grunt> b = load 'B' using PigStorage(',') as (b1:int, b2:int, b3:int);
grunt> c = union a, b;
grunt> dump c;
(0,5,2)
将c分割为d和e,其中d的第一列数据值为0,e的第一列的数据为1($0表示数据集的第一列):
grunt> split c into d if $0 == 0, e if $0 == 1;
grunt> dump d;
(0,1,2)
(1,3,4)
选择c中的一部分数据:
grunt> dump f;
查看g:
grunt> dump g;
(2,{(0,1,2),(0,5,2)})
grunt> h = group c all;
(all,{(0,1,2),(1,3,4),(0,5,2),(1,7,8)})
grunt> i = foreach h generate COUNT($1);
grunt> dump i;
这里可能出现Could not resolve counter using imported: [, org.apache.pig.built in., org.apache.pig.impl.builtin. ]的情况,这是需要使用register命令来注册pig对应的jar版本。
接下俩试一下jon操作:
取出c的第二列$1和$1 * $2,将这两列保存在k中:
grunt> k = foreach c generate $1, $1 * $2;
grunt> dump k;
(5,10)
4.7 Working with UDF(user defined function)
pig能够支持两种类型的UDFs:eval和load/store,其中load/store的自定义函数主要是用来加载和保存特定的数据格式;eval自定义函数主要用来进行常规的数据转换。
1. eval
如果想要实现自定义的eval类型的函数,那么基本的做法是首先编写一个类继承自EvalFunc<T>这个抽象类,同时需要重写这个类的一方法:
abstract public T exec(Tuple input) throws IOException;
该方法传入的类型是Tuple类型。
如果调用udf时使用的是:udf(ARG1, ARG2);那么调用input.get(0)将得到ARG1,同理input.get(1)得到的是ARG2,input.getSize()得到传递的参数的数量,这里就是2.
下面我们就开始编写udf UPPER.java,将UPPER.java文件保存到myudfs目录下:
package myudfs; import java.io.IOException; import org.apache.pig.EvalFunc; import org.apache.pig.data.Tuple; import org.apache.pig.impl.util.WrappedIOException; public class UPPER extends EvalFunc<String> { public String exec(Tuple input) throws IOException { if (input == null || input.size() == 0) return null; try{ String str = (String)input.get(0); return str.toUpperCase(); }catch(Exception e){ throw WrappedIOException.wrap("Caught exception processing input row ", e); } } }
编译该文件,同时生成该jar文件:
xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1/myudfs$ cd ..
student1,1,1 studetn2,2,2 student3,3,3 student4,4,4
在pig中测试该udf:
xuqiang@ubuntu:~/hadoop/src/pig/pig-0.8.1$ pig -x local
注册该udf:
加载数据:
(STUDENT1) (STUDETN2) (STUDENT3) (STUDENT4)
<5>. 参考资料及代码下载
http://pig.apache.org/docs/r0.8.1/udf.html#How+to+Write+a+Simple+Eval+Function
<Hadoop In Action>
Pig实战的更多相关文章
- Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集
(一)hadoop 相关安装部署 1.hadoop在windows cygwin下的部署: http://lib.open-open.com/view/1333428291655 http://blo ...
- Hadoop、Pig、Hive、NOSQL 学习资源收集
转自:http://www.cnblogs.com/zzjhn/p/3855566.html (一)hadoop 相关安装部署 1.hadoop在windows cygwin下的部署: http:// ...
- Spark入门实战系列--5.Hive(上)--Hive介绍及部署
[注]该系列文章以及使用到安装包/测试数据 可以在<倾情大奉送--Spark入门实战系列>获取 .Hive介绍 1.1 Hive介绍 月开源的一个数据仓库框架,提供了类似于SQL语法的HQ ...
- 【Pig源码分析】谈谈Pig的数据模型
1. 数据模型 Schema Pig Latin表达式操作的是relation,FILTER.FOREACH.GROUP.SPLIT等关系操作符所操作的relation就是bag,bag为tuple的 ...
- 大数据之pig 命令
1.pig与hive的区别 pig和hive比较类似的,都是类sql的语言,底层都是依赖于hadoop 走的mapreduce任务. pig和hive的区别就是,想要实现一个业务逻辑的话, ...
- Hadoop实战课程
Hadoop生态系统配置Hadoop运行环境Hadoop系统架构HDFS分布式文件系统MapReduce分布式计算(MapReduce项目实战)使用脚本语言Pig(Pig项目实战)数据仓库工具Hive ...
- 使用Pig预测电信用户的移动路径
实战数据: 预期结果: 测试数据: 002|2014-09-10 00-09|东油大学 002|2014-09-10 09-17|学苑小区 001|2014-09-12 00-09|东油大学 001| ...
- 顶尖大数据挖掘实战平台(TipDM-H8)产品白皮书
顶尖大数据挖掘实战平台 (TipDM-H8) 产 品 说 明 书 广州泰迪智能科技有限公司 版权所有 地址: 广州市经济技术开发区科学城232号 网址: http: ...
- 深入浅出Hadoop Mahout数据挖掘实战(算法分析、项目实战、中文分词技术)
Mahout简介 Mahout 是 Apache Software Foundation(ASF) 旗下的一个开源项目, 提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建 ...
随机推荐
- Linux网络编程8——对TCP与UDP的简易封装
引言 每次使用socket通信,都会有很对相似的操作.本文,会对TCP与UDP通信做一简单封装,并生成动态库. 代码 my_socket.h #ifndef __MY_SOCKET_H__ #defi ...
- JDBC第二次学习
脑子太笨,必须得记录下来一些文字,方便回来查询. 这是我的第二次学习JDBC的笔记,看的是传智播客——李勇老师的JDBC系列,已看到第23集. 分析在实际项目中该如何应用JDBC 一个简单用户相关的数 ...
- powermockito “mock public 方法内部 Private方法的问题”
我需要测试的方法是 public 方法: public ResponseResult subscribe(SysSubscription sysSubscription) throws JsonGen ...
- (转载)C++ ofstream和ifstream详细用法
原文出自[比特网],转载请保留原文链接:http://soft.chinabyte.com/database/460/11433960.sh [导读] ofstream是从内存到硬盘,ifstream ...
- JavaPersistenceWithHibernate第二版笔记-第四章-Mapping persistent classes-002identity详解
一.简介 1.You now have three methods for distinguishing references: Objects are identical if they occ ...
- QT 读取文件夹下所有文件(超级简单的方法,不需要QDirIterator)
之前,用标准C++写过读取文件夹.现在用QT重写代码,顺便看了下QT如何实现,还是相当简单的.主要用到QDir,详细文档可见这里 A program that lists all the files ...
- Java笔记——equals和==的区别
摔在这里几次,还是记下来吧. 原文:http://www.cnblogs.com/shenliang123/archive/2012/04/16/2452156.html -------------- ...
- JavaWeb笔记——注册登录系统项目思路
功能: > 注册 > 登录 --------------------------------- JSP: * login.jsp --> 登录表单 * regist ...
- 280. Wiggle Sort
题目: Given an unsorted array nums, reorder it in-place such that nums[0] <= nums[1] >= nums[2] ...
- MyBatis学习总结_18_MyBatis与Hibernate区别
也用了这么久的Hibernate和MyBatis了,一直打算做一个总结,就他们之间的优缺点说说我自己的理解: 首先,Hibernate是一个ORM的持久层框架,它使用对象和我们的数据库建立关系,在Hi ...