[hadoop系列]Pig的安装和简单演示样例
inkfish原创,请勿商业性质转载,转载请注明来源(http://blog.csdn.net/inkfish
)。(来源:http://blog.csdn.net/inkfish)
Pig是Yahoo!捐献给Apache的一个项目,眼下还在Apache孵化器(incubator)阶段,眼下版本号是v0.5.0。Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简易的操作和编程接口。本文介绍了Pig的安装及简单演示样例的执行,主要參考/翻译自官方文档的Pig Setup
。(来源:http://blog.csdn.net/inkfish)
前提条件:
(来源:http://blog.csdn.net/inkfish)
- Linux/Unix系统,或带有Cygwin的Windows操作系统,我是用的是Ubuntu 8.04;
- Hadoop 0.20.X
- JDK 1.6或更高
- Ant 1.7(可选,假设想自己编译Pig的话则须要)
- JUnit 4.5(可选,假设自己想执行单元測试的话则须要)
Pig的安装
(来源:http://blog.csdn.net/inkfish)
1.下载Pig
能够去Pig的官方主页下载最新的Pig,在写本篇文章时,最新版本号是Pig 0.5.0
2.解压缩
$ tar -xvf pig-0.5.0.tar.gz
我一般喜欢把pig装在/opt/hadoop/pig-0.5.0文件夹下
3.环境变量设置
为了便于Pig以后的升级,我创建了一个软链接,环境变量指向软链接的文件夹,而软链接指向最新的Pig版本号。
$ ln -s /opt/hadoop/pig-0.5.0 /opt/hadoop/pig
编辑/etc/enviroment,在PATH增加Pig的bin子文件夹路径(也能够改动~/.bashrc或~/.profile)。
4.验证安装完毕
又一次进入终端,键入env命令,应该能看到PATH已经生效。键入pig -help命令,则出现帮助信息,代表Pig已经正确安装完成。(来源:http://blog.csdn.net/inkfish)
Pig的执行模式
(来源:http://blog.csdn.net/inkfish)
1.本地模式
Pig执行于本地模式,仅仅涉及到单独的一台计算机。
2.MapReduce模式
Pig执行于MapReduce模式,须要能訪问一个Hadoop集群,而且须要装上HDFS。
Pig的调用方式
(来源:http://blog.csdn.net/inkfish)
- Grunt shell方式:通过交互的方式,输入命令运行任务;
- Pig script方式:通过script脚本的方式来执行任务;
- 嵌入式方式:嵌入java源码中,通过java调用来执行任务。
Pig的演示样例代码
(来源:http://blog.csdn.net/inkfish)
以下就分别介绍这三种不同的调用方式,首先,先展示一下演示样例须要用到的源码,这部分源码与官方文档中的一样,但有例如以下改动:
- 修正了官方文档中一个错误,即id.pig最后一行id.out两側的全角单引號改为半角单引號;
- 2.修正了官方文档中一个错误,即idmapreduce.java的runIdQuery方法第一行末尾少一个分号;
- 3.依照Java常见的命名规范,类名首字母大写。
script文件:id.pig(来源:http://blog.csdn.net/inkfish)
A = load 'passwd' using PigStorage(':');
B = foreach A generate $0 as id;
dump B;
store B into ‘id.out’;
local模式的java文件:Idlocal.java(来源:http://blog.csdn.net/inkfish)
import java.io.IOException;
import org.apache.pig.PigServer;
public class idlocal{
public static void main(String[] args) {
try {
PigServer pigServer = new PigServer("local");
runIdQuery(pigServer, "passwd");
}
catch(Exception e) {
}
}
public static void runIdQuery(PigServer pigServer, String inputFile) throws IOException {
pigServer.registerQuery("A = load '" + inputFile + "' using PigStorage(':');");
pigServer.registerQuery("B = foreach A generate $0 as id;");
pigServer.store("B", "id.out");
}
}
mapreduce模式的java文件:Idmapreduce.java(来源:http://blog.csdn.net/inkfish)
import java.io.IOException;
import org.apache.pig.PigServer;
public class idmapreduce{
public static void main(String[] args) {
try {
PigServer pigServer = new PigServer("mapreduce");
runIdQuery(pigServer, "passwd");
}
catch(Exception e) {
}
}
public static void runIdQuery(PigServer pigServer, String inputFile) throws IOException {
pigServer.registerQuery("A = load '" + inputFile + "' using PigStorage(':');");
pigServer.registerQuery("B = foreach A generate $0 as id;");
pigServer.store("B", "idout");
}
}
两个java类须要进行编译,编译命令:
javac -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idlocal.java
javac -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idmapreduce.java
当中pig-0.5.0-core.jar如不在当前文件夹,则要指明其全路径。(来源:http://blog.csdn.net/inkfish)
1.Grunt shell方式
Grunt shell方式首先用pig命令启动,pig命令能够加參数“-x local”代表本地模式,或“-x mapreduce”代表mapreduce模式,默认mapreduce模式。
$ pig -x local
$ pig
$ pig -x mapreduce
按行输入命令:
grunt> A = load 'passwd' using PigStorage(':');
grunt> B = foreach A generate $0 as id;
grunt> dump B;
grunt> store B into 'out';
当中,“dump B”表示在屏幕中显示结果,“store B into 'out'”表示把结果输出到out文件/目录中。在local模式中,out文件写入到当前目录;mapreduce中,out目录则须要给出绝对路径。
(来源:http://blog.csdn.net/inkfish)
2.Pig script方式
script方式中,用pig命令启动,后面带要执行的.pig文件就可以,如:
$ pig -x local id.pig
$ pig id.pig
$ pig -x mapreduce id.pig
(来源:http://blog.csdn.net/inkfish)
3.嵌入式方式(来源:http://blog.csdn.net/inkfish)
嵌入式方式与执行于执行普通java类方式没有不论什么不同,如:
java -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idmapreduce
java -cp .:/opt/hadoop/pig/pig-0.5.0-core.jar Idlocal
(来源:http://blog.csdn.net/inkfish)
[hadoop系列]Pig的安装和简单演示样例的更多相关文章
- Thrift的安装和简单演示样例
本文仅仅是简单的解说Thrift开源框架的安装和简单使用演示样例.对于具体的解说,后面在进行阐述. Thrift简述 ...
- Libevent 学习笔记 (1)——Libevent 2.0安装与简单演示样例
今天開始学习Libevent . Libevent 是开源社区的一款高性能I/O框架库. 主要特点有: 1 跨平台. 2 统一事件源 3 线程安全 4 基于Reactor 今天主要进行了Libeven ...
- JBoss 系列九十六:JBoss MSC - 简介及一个简单演示样例
什么是 JBoss MSC JBoss MSC 即 JBoss Modular Service Container,是第三代 JBoss 产品 JBoss 7和WildFfly的内核,JBoss MS ...
- Introspector(内省)简单演示样例 与 简单应用
简单演示样例: package com.asdfLeftHand.test; import java.beans.BeanDescriptor; import java.beans.BeanInfo; ...
- 一则简单演示样例看Oracle的“无私”健壮性
Oracle的强大之处就在于他能总帮助让你选择正确的运行计划,即使你给了它错误的指示. 实验: 1. 创建測试表: watermark/2/text/aHR0cDovL2Jsb2cuY3Nkbi5uZ ...
- Android通过startService播放背景音乐简单演示样例
关于startService的基本使用概述及其生命周期可參见博客<Android中startService的使用及Service生命周期>. 本文通过播放背景音乐的简单演示样例,演示sta ...
- 百度地图 Android SDK - 检索功能使用的简单演示样例
百度地图 SDK 不仅为广大开发人员提供了炫酷的地图展示效果.丰富的覆盖物图层,更为广大开发人员提供了多种 LBS 检索的能力. 通过这些接口,开发人员能够轻松的訪问百度的 LBS 数据,丰富自己的移 ...
- RHEL5 X86-64上安装Oracle 11gR2演示样例与总结
进入Oracle DBA行业也有好几年了,可是说到安装Oracle的经验,我还真不是特别多,印象中刚開始每次安装都有点磕磕碰碰,随着接触Oracle的时间越来越长,各方面的原理.机制也都有一定的了解后 ...
- MyBatis对数据库的增删改查操作,简单演示样例
之前一直有用Hibernate进行开发.近期公司在使用Mybatis.依据网上的演示样例,做了一个简单的Demo,以便日后复习 使用XMl方式映射sql语句 整体结构例如以下图 watermark/2 ...
随机推荐
- 1298 The Hardest Problem Ever
题目链接:http://poj.org/problem?id=1298 思路分析:水题,字符偏移求解,注意字符串输入问题即可. 代码如下: #include <iostream> #inc ...
- 64位CentOS上编译 Hadoop 2.2.0
下载了Hadoop预编译好的二进制包,hadoop-2.2.0.tar.gz,启动起来后.总是出现这样的警告: WARN util.NativeCodeLoader: Unable to load n ...
- if语句之有房么?有钱么?有能力么?
思路:1.如果有房,可以谈谈 2.如果没有房,问第二个条件有钱么,如果有,可以谈谈 3.如果没有房没有钱,则问第三个条件有能力么,如果有,可以谈谈 4.如果以上三个条件都没有,则拜拜 Console. ...
- Word中使用代码高亮插件
Word中使用代码高亮插件 1.下载并安装:SyntaxHighlighter4Word.zip 解压,然后双击bin\word2010\Kong.SyntaxHighlighter.Word2010 ...
- [HDU 1428]--漫步校园(记忆化搜索)
题目链接:http://acm.hdu.edu.cn/showproblem.php?pid=1428 漫步校园 Time Limit: 2000/1000 MS (Java/Others) M ...
- Redis中的value包含中文显示的问题?
linux 系统 redis不识别中文 如何显示中文 在Redis中存储的value值是中文“马拉斯加”Shell下get获取后展示的结果为:\xc2\xed\xc0\xad\xcb\xb9\xbc ...
- 【 D3.js 入门系列 — 2 】 绑定数据和选择元素
1. 如何绑定数据 D3 有一个很独特的功能:能将数据绑定到 DOM 上,也就是绑定到文档上.这么说可能不好理解,例如网页中有段落元素<p>,我们可以将整数 5 与 <p>绑定 ...
- 同步fifo的verilogHDL设计实例
原创 设计一个fifo,输入16bit,输出16bit的data,寻址宽度5bit,有空满标志. top 层如下所示: /* date : 2014/10/14 version : modelsim ...
- 将 jsp 页面的值 传到struts2 action中(不是表单中的值)
JSP: 页面: <%@ page language="java" pageEncoding="GBK"%> <%@taglib prefi ...
- 基于visual Studio2013解决算法导论之054图的邻接矩阵表示
题目 图的邻接矩阵表示 解决代码及点评 // 图的邻接矩阵表示.cpp : 定义控制台应用程序的入口点. // #include <iostream> #include <l ...