数据处理框架:Pig

AllenZhang1 2024-08-24 07:51:27 原文

Pig

pig 是基于hadoop的一个数据处理框架.
MapReduce是使用java开发的。Pig有一套自己的数据处理语言。Pig的数据处理过程要转化为MR 来运行。
Pig的数据处理语言是数据流方式，类似于初中的数学题，需要一步一步解，最终得到结果。
Pig基本数据类型：int、long、float、double、chararray、bytearray

复合数据类型：Map、Tuple(类似于数组)、Bag(类似数据字典)

Bag的数据类型如：{(‘age’,31),(‘name’,’张三’)}

如何安装pig:

1.把pig-0.11.1.tar.gz复制到/usr/local下

2．使用命令tar -zxvf pig-0.11.1.tar.gz解压缩

3.使用命令mv pig-0.11.1 pig 进行重命名

4. 编辑文件vi /etc/profile 设置环境变量

 export $PIG_HOME=/usr/local/bin
 export PATH =......$PIG_HOME/bin....

保存，然后执行source /etc/profile

5. 编辑文件$PIG_HOME/conf/pig.properties，增加两行如下内容

fs.default.name=hdfs://hadoop:9000

mapred.job.tracker=hadoop:9001

pig是基于hadoop框架的数据处理框架，所以需要跟hadoop 关联起来，上边的配置主要针对的是Namenode 和 JobTracker

如何使用pig：

对wlan数据如何使用pig进行分析处理

1. 把待处理的数据上传到HDFS中

2. 把HDFS中的数据转换为pig可以处理的模式

按照以下图里的格式进行转化：

A = LOAD ‘/wlan’ AS (t0:long, msisdn:chararray, t2:chararray, t3:chararray, t4:chararray, t5:chararray, t6:long, t7:long, t8:long, t9:long, t10:chararray);

A是别名，方便引用。

如何查看是否加载进去？

DUMP A ;

3.把里面的有用的字段抽取出来

B = FOREACH A GENERATE msisdn, t6, t7, t8, t9;

Pig是一步一步来的，如果业务比较复杂，通过sql无法一步解决，用pig非常方便。

DUMP B;

4.分组数据

C = GROUP B BY msisdn;

因为有的手机号有重复，所以我们根据手机号进行分组。

DUMP C;

5．流量汇总

D = FOREACH C GENERATE group, SUM(B.t6), SUM(B.t7), SUM(B.t8), SUM(B.t9);

分组之后的名字，当我们就叫group.

DUMP D;

6.结果在pig中，存储到HDFS中

STORE D INTO ‘/wlan_result’;

7.进入hdfs进行查看，是否保存到这里。

其中有一个文件是不为空，查看该文件是否是我们刚才在pig 里的处理结果。

我们还可以使用pig对处理结果进行排序

E = ORDER D BY group ;

DUMP E ;

Pig 还有很多用法，具体可以参看官方文档。

数据处理框架:Pig的更多相关文章

大数据处理框架之Strom: Storm----helloword
大数据处理框架之Strom: Storm----helloword Storm按照设计好的拓扑流程运转,所以写代码之前要先设计好拓扑图.这里写一个简单的拓扑: 第一步:创建一个拓扑类含有main方法的 ...
大数据处理框架之Strom：认识storm
Storm是分布式实时计算系统,用于数据的实时分析.持续计算,分布式RPC等. (备注:5种常见的大数据处理框架:· 仅批处理框架:Apache Hadoop:· 仅流处理框架:Apache Stor ...
TensorFlow多线程输入数据处理框架（四）——输入数据处理框架
参考书 <TensorFlow:实战Google深度学习框架>(第2版) 输入数据处理的整个流程. #!/usr/bin/env python # -*- coding: UTF-8 -* ...
tensorflow学习笔记——多线程输入数据处理框架
之前我们学习使用TensorFlow对图像数据进行预处理的方法.虽然使用这些图像数据预处理的方法可以减少无关因素对图像识别模型效果的影响,但这些复杂的预处理过程也会减慢整个训练过程.为了避免图像预处理 ...
JSON数据处理框架Jackson精解第一篇-序列化与反序列化核心用法
Jackson是Spring Boot默认的JSON数据处理框架,但是其并不依赖于任何的Spring 库.有的小伙伴以为Jackson只能在Spring框架内使用,其实不是的,没有这种限制.它提供了很 ...
Spark大数据处理框架入门(单机版)
导读引言环境准备安装步骤 1.下载地址 2.开始下载 3.解压spark 4.配置环境变量 5.配置 spark-env.sh 6.启动spark服务 7.测试spark stay hungry ...
Hadoop 1.0 和 2.0 中的数据处理框架 - MapReduce
1. MapReduce - 映射.化简编程模型 1.1 MapReduce 的概念 1.1.1 map 和 reduce 1.1.2 shufftle 和排序 MapReduce 保证每个 red ...
Spring 数据处理框架的演变
欢迎大家前往腾讯云+社区,获取更多腾讯海量技术实践干货哦~ 定量分析的成败在很大程度上取决于采集,存储和处理数据的能力.若能及时地向业务决策者提供深刻并可靠的数据解读,大数据项目就会有更多机会取得成功 ...
大数据处理框架之Strom：Flume+Kafka+Storm整合
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 storm-0.9 apache-flume-1.6.0 ...

随机推荐

scp的简单记忆方法
scp虽然只有把文见发送到远端和从远端copy文件俩功能,但是常常把俩功能的先写什么给计混了,所以我就用通俗的大白话给总结了下,十分容易记忆,这里给大家分享一下.scp 我们常用的两个功能: (1)把 ...
linux 获取CPU个数
#include<stdio.h> #include<unistd.h> int main() { int cpu_num; cpu_num = sysconf(_SC_NPR ...
15-谜问题（深拷贝、LC检索、面向对象编程）
问题描述: 在一个分成16格的方形棋盘上,放有15块编了号码的牌.对这些牌给定一种初始排列,要求通过一系列的合法移动将这一初始排列转换成目标排列. 这个问题解决时用到了L-C检索.在检索的过程中计算估 ...
UVA1619 栈维护递增序列
先说这题的关键性质:每一个数应该只会计算一次,它有一个最小区间[L,R],即它在这个区间内是最小的,最小区间内任何包含它的子区间都不会大于F(L,R)=(a[L]+...+a[R])*min(a[l] ...
Qt Creator 整合 python 解释器教程
目录 1. 前言 2.前提条件 3.步骤 3.1 新建 python文件 3.2 编写 python 代码 3.3 配置 python 解释器 3.4 执行 python file 1. 前言 Pyt ...
android WebP解析开源库-支持高清无损
在我们的项目中需要支持WebP高清无损图片,推荐一个我们已经使用的解析开源库给大家:https://github.com/keshuangjie/WebpExample/tree/master/lib ...
weak alias
Weak Alias 跟 Weak Reference 完全没有任何关系,不过是我在看到 Weak Reference 的时候想到的而已. Weak Alias 是 gcc 扩展里的东西,实际上是函数 ...
dojo报错总结
dojo报错总结 1.错误一 neteaseTracker is not defined dojo.js(第15行) 2.错误二 _10 is undefined _SearchMixin.js(第5 ...
log4j:ERROR setFile(null,true) call failed
1.错误描述 log4j:ERROR setFile(null,true) call failed. java.io.FileNotFoundException: at java.io.FileOut ...
Caused by: java.lang.ClassNotFoundException: org.springframework.context.ApplicationContextAware
1.错误描述 usage: java org.apache.catalina.startup.Catalina [ -config {pathname} ] [ -nonaming ] { -help ...