pig概述

pig概述
pig是一个用于并行计算的高级数据流语言和执行框架；
类sql、文件处理框架；
有一套和sql类似的执行语句，处理的对象是HDFS上文件。
Pig的数据处理语言是数据流方式的，一步一步的进行处理；

Pig基本数据类型：int、long、float、double、chararry、bytearray
复合数据类型：
Map（[open#apache]）、Tuple(类似于数组，(19,2))、Bag（Tuple的集合，{(19,2), (18,1)}）

pig运行模式
pig运行模式有两种：本地式和分布式
pig -x local
pig 等价于 pig -x mapreduce
quit 退出

注意事项
load：加载hdfs上的文件，不支持加载本地文件，这点和hive的load不同；
pig load 既可以是目录也可以说文件。如果是文件的话，就是load该文件夹下所有的文件。

filter：过滤where
大小写敏感：表名、字段名、PigStorage, COUNT, SUM；其余的大小写是不敏感的
STORE：pig处理结果存储到HDFS系统上
DUMP ：将pig处理结果展现在控制台上

空判断:
pig：id is not null
hive：not id is null 或者not id in (1,2,3)
d = foreach c generate aa::id as id, aa::name as name, b::score as score, aa::age as age;
d = foreach c generate aa::id as id, name as name, score as score, age as age;
如果a和b中都有id的话，a或者b是不能去掉的，如果某个字段只有某个表中有，可能省略表名不写

使用场景
文件数据源有很多个列，但是有一些是没用的，先经过pig过滤掉一些非法的数据放到HDFS文件中，然后再由hive去处理。

pig概述的更多相关文章

大数据Hadoop生态圈：Pig和Hive
前言 Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache的一个项目,由Apache来负责维护,Pig是一个基于 Hadoop的大规模数据分析平台. Pi ...
hadoop ,传智播客目录
一.Hadoop入门,了解什么是Hadoop 1.Hadoop产生背景 2.Hadoop在大数据.云计算中的位置和关系 3.国内外Hadoop应用案例介绍 4.国内Hadoop的就业情况分析及课程大纲 ...
Hadoop storm大数据分析知识体系结构
最近工作工作有用到hadoop 和storm,最近看到一个网站上例句的hadoop 和storm的知识体系.所以列出来供大家了解和学习.来自哪个网站就不写了以免以为我做广告额. 目录结构知识点还是挺全 ...
思数云hadoop目录
全文检索.数据分析挖掘.推荐系统.广告系统.图像识别.海量存储.快速查询 l Hadoop介绍 n Hadoop来源与历史 n Hadoop版本 n Hadoop开源与商业 l HDFS系统架构 n ...
Hadoop学习笔记【Hadoop家族成员概述】
Hadoop家族成员概述一.Hadoop简介 1.1 什么是Hadoop? Hadoop是一个分布式系统基础架构,由Apache基金会所开发,目前Yahoo!是其最重要的贡献者. Hadoop实现了 ...
Hadoop、Pig、Hive、Storm、NOSQL 学习资源收集
(一)hadoop 相关安装部署 1.hadoop在windows cygwin下的部署: http://lib.open-open.com/view/1333428291655 http://blo ...
Hadoop概述
本章内容什么是Hadoop Hadoop项目及其结构 Hadoop的体系结构 Hadoop与分布式开发 Hadoop计算模型—MapReduce Hadoop的数据管理小结 1.1 什么是Hado ...
Hadoop: the definitive guide 第三版拾遗第十章之Pig
概述: Pig的安装很简单,注意一下几点: 1.设置系统环境变量: export PIG_HOME=.../pig-x.y.z export PATH=$PATH:$PIG_HOME/bin 设置完成 ...
Spark环境搭建（五）-----------Spark生态圈概述与Hadoop对比
Spark:快速的通用的分布式计算框架概述和特点: 1) Speed,(开发和执行)速度快.基于内存的计算:DAG(有向无环图)的计算引擎:基于线程模型: 2)Easy of use,易用 . 多语 ...

随机推荐

ZOJ 1985 Largest Rectangle in a Histogram（刷广告）2010辽宁省赛
Largest Rectangle in a Histogram Time Limit: 1000MS Memory Limit: 65536K Total Submissions: 21204 ...
转：Canvas标签的width和height以及style.width和style.height的区别
转自:http://www.cnblogs.com/artwl/archive/2012/02/28/2372042.html 作者:Artwl 背景今天在博问中看到一个问题:用canvas 的 l ...
cloneNode
多名历年高考状元最终选择做中国顶尖黑客 - imsoft.cnblogs
原标题:揭秘中国顶尖黑客:二分之一是历年高考[微博]状元 “二分之一是各地的历年高考状元,二分之一是数学专业,二分之一来自微软.” Keen这样的团队是坚决与黑产划清界限的,这也是圈内的“道德洁癖”, ...
Spring MVC 学习）——控制器与@RequestMapping详解
Spring MVC 学习总结(二)——控制器定义与@RequestMapping详解一.控制器定义控制器提供访问应用程序的行为,通常通过服务接口定义或注解定义两种方法实现. 控制器解析用户的请求 ...
VS2013、VS2015中，新建项目没有看到解决方案的问题（已解决）
问题描述:装好VS2013 专业版 for Update5不知怎么弄的,突然新建项目没有了解决方案,于是各种折腾,最后终于解决了! ================================== ...
Linux(CentOS)搭建SVN服务器
1.安装命令 yum -y install subversion 查看SVN安装位置 rpm -ql subversion 查看SVN版本 svnserve --version 2.创建版本库根目录( ...
MySQL Disk--磁盘相关参数
/sys/block/sda/queue/nr_requests 磁盘队列长度.默认只有 128 个队列,可以提高到 512 个.会更加占用内存,但能更加多的合并读写操作,速度变慢,但能读写更加多的量 ...
solrcloud配置中文分词器ik
无论是solr还是luncene,都对中文分词不太好,所以我们一般索引中文的话需要使用ik中文分词器. 三台机器(192.168.1.236,192.168.1.237,192.168.1.238)已 ...
pthread中errors.h的代码
#ifndef __errors_h #define __errors_h #include <unistd.h> #include <errno.h> #include &l ...

pig概述

pig概述的更多相关文章

随机推荐

热门专题