下载Pig 能够执行在Hadoop 0.20.*

http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gz

也能够依据你的Hadoop版本号选择相应的版本号下载:http://hadoop.apache.org/pig/releases.html

我当前的Hadoop 版本号是 hadoop-0.20.2 

tar -xvf pig-0.11.1.tar.gz

为了方便,能够把Pig的程序文件夹放到命令行路径里。比方:

% export PIG_INSTALL=/usr/local/hadoop/pig-0.11.1

% export PATH=$PATH:$PIG_INSTALL/bin

Pig有两种模式:

一种是Local mode,也就是本地模式,这样的模式下Pig执行在一个JVM里,訪问的是本地的文件系统。仅仅适合于小规模数据集,通常是用来体验Pig。

并且,它并没实用到Hadoop的Local runner,Pig把查询转换为物理的Plan,然后自己去执行。

在终端下输入

% pig -x local

就能够进入Local模式了。

另一种就是Hadoop模式了,这样的模式下。Pig才真正的把查询转换为相应的MapReduce Jobs,并提交到Hadoop集群去执行。集群能够是真实的分布式也能够是伪分布式。要想Pig能认识Hadoop。你要告诉它Hadoop的版本号以及一些关键daemon的信息(也就是Namenode和Jobtracker的Address和Port)。

比方,以下这个能够同意Pig连接到不论什么Hadoop0.20.*上:

% export PIG_HADOOP_VERSION=20

接下来,你还要指明集群的Namenode和Jobtracker的所在。有两种方法,一种就是把你Hadoop的Conf地址加入到Pig的Classpath上:

% export PIG_CLASSPATH=$HADOOP_INSTALL/conf/

另一种就是在Pig文件夹的Conf文件夹(可能须要自己创建)里创建一个pig.properties文件,然后在里面加入集群的Namenode和Jobtracker的信息:

fs.default.name=hdfs://idc01-vm-test-124/

#依据您的Hadoop配置进行设置

mapred.job.tracker=idc01-vm-test-124:9000

接下来执行PIG

[root@idc01-vm-test-124 conf]# pig

2014-04-19 20:13:15,775 [main] INFO  org.apache.pig.Main - Apache Pig version 0.10.0-cdh4.1.2 (rexported) compiled Nov 01 2012, 18:38:58

2014-04-19 20:13:15,776 [main] INFO  org.apache.pig.Main - Logging error messages to: /usr/local/hadoop/pig-0.11.1/conf/pig_1397909595772.log

2014-04-19 20:13:16,009 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: file:///

2014-04-19 20:13:16,014 [main] WARN  org.apache.hadoop.conf.Configuration - fs.default.name is deprecated. Instead, use fs.defaultFS

2014-04-19 20:13:16,227 [main] INFO  org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to map-reduce job tracker at: localhost:9016

2014-04-19 20:13:16,229 [main] WARN  org.apache.hadoop.conf.Configuration - fs.default.name is deprecated. Instead, use fs.defaultFS

grunt> 

安装PIG的更多相关文章

  1. Hive集成HBase;安装pig

    Hive集成HBase 配置 将hive的lib/中的HBase.jar包用实际安装的Hbase的jar包替换掉 cd /opt/hive/lib/ ls hbase-0.94.2*  rm -rf ...

  2. Hadoop Pig简介、安装、试用

    相比Java的MapReduce api,Pig为大型数据集的处理提供了更高层次的抽象,与MapReduce相比,Pig提供了更丰富的数据结构,一般都是多值和嵌套的数据结构.Pig还提供了一套更强大的 ...

  3. Pig安装及简单使用(pig版本0.13.0,Hadoop版本2.5.0)

    原文地址:http://www.linuxidc.com/Linux/2014-03/99055.htm 我们用MapReduce进行数据分析.当业务比较复杂的时候,使用MapReduce将会是一个很 ...

  4. PIG之 Hadoop 2.7.4 + pig-0.17.0 安装

    首先: 参考 http://blog.csdn.net/zhang123456456/article/details/77621487 搭建好hadoop集群. 然后,在master节点安装pig. ...

  5. Pig的安装和简单使用

    1.Pig是基于hadoop的一个数据处理的框架. MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行.2.Pig的数据处理语言是数据流 ...

  6. 吴超老师课程--Pig的介绍和安装

    1.Pig是基于hadoop的一个数据处理的框架.  MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行. 2.Pig的数据处理语言是数 ...

  7. pig

    1.Pig是基于hadoop的一个数据处理的框架. MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行.2.Pig的数据处理语言是数据流 ...

  8. Pig实战

    1. pig简介 2. 安装pig 3. 实战pig 4. 深入pig 5. 参考资料及代码下载 <1>. Pig简介  pig是hadoop项目的一个拓展项目, 用以简化hadoop编程 ...

  9. Centos搭建mysql/Hadoop/Hive/Hbase/Sqoop/Pig

    目录: 准备工作 Centos安装 mysql Centos安装Hadoop Centos安装hive JDBC远程连接Hive Hbase和hive整合 Centos安装Hbase 准备工作: 配置 ...

随机推荐

  1. Requests 代理池

    Requests 本身不提供代理池,然而爬数据又要用,所以只能自己搞.其实还挺简单的.我也不知道为什么这么有用的 feature 一直没有被加入. import requests class Clie ...

  2. python正则表达式-案例

    工作中遇到一个小问题,需要在一个日志文件中,删选出包含emrfs sync命令和之后内容的行,格式如下, [2019-10-31 08:20:16,389] {logging_mixin.py:84} ...

  3. php phpexcel 创建excel

    public function createExcel($result=[],$fileName=''){ \think\Loader::import('extend.excel.PHPExcel', ...

  4. 转贴 使用正则表达式解析一般sql语句(C++)

    https://blog.csdn.net/dreamgchuan/article/details/47715743 --END--2019年9月5日11点58分

  5. 使用 Itext 生成PDF字节数组(文件流不落地)

    package com.ulic.gis.customerCenter.controller; import java.io.ByteArrayOutputStream; import java.io ...

  6. jxbrowser 实现自定义右键菜单

    https://blog.csdn.net/shuaizai88/article/details/73743691 public static void main(String[] args) { J ...

  7. Docker入门(转载)

    Docker入门 一.Docker 1.什么是容器? 容器就是将软件打包成标准化单元,用于开发.交付和部署.容器是轻量的.可执行的独立软件包 ,包含软件运行所需的所有内容:代码.运行时环境.系统工具. ...

  8. Day3 && Day4

    本章内容对我来说真的是学的稀里糊涂的,除了前两题吭哧吭哧独立完成,第三题参考了别人的思路外,其余题目均是现学现卖,有点迷啊.所以写这篇博客的目的是先记录下聚聚们对本章内容相关重点的要求,并搜集一些相关 ...

  9. centOS7忘记密码,修改root账号密码

    centOS7忘记密码,修改root账号密码 RHEL7 的世界发生了变化,重置 root 密码的方式也一样.虽然中断引导过程的旧方法(init=/bin/bash)仍然有效,但它不再是推荐的.“Sy ...

  10. C#编程 socket编程之unity聊天室

    上面我们创建了tcp的客户端和服务端,但是只能进行消息的一次收发.这次我们做一个unity的简易聊天室,使用了线程,可以使用多个客户端连接服务器,并且一个客户端给服务器发消息后,服务器会将消息群发给所 ...