大数据笔记（十七）——Pig的安装及环境配置、数据模型

一、Pig简介和Pig的安装配置

1、最早是由Yahoo开发，后来给了Apache
2、支持语言:PigLatin 类似SQL
3、翻译器 PigLatin ---> MapReduce（Spark）
4、安装和配置
(1)tar -zxvf pig-0.17.0.tar.gz -C ~/training/
(2)设置环境变量 vi ~/.bash_profile

PIG_HOME=/root/training/pig-0.17.0

export PIG_HOME

PATH=$PIG_HOME/bin:$PATH

export PATH

两种配置模式（运行模式）
（1）本地模式：操作Linux的文件
启动： pig -x local
日志：Connecting to hadoop file system at: file:///

（2）集群模式：链接到HDFS
设置环境变量指向Hadoop配置文件所在的目录

PIG_CLASSPATH=/root/training/hadoop-2.7.3/etc/hadoop

export PIG_CLASSPATH

启动： pig
日志： Connecting to hadoop file system at: hdfs://bigdata11:9000

二、Pig的常用命令: 操作HDFS
ls、cd、cat、mkdir、pwd
copyFromLocal（上传）、copyToLocal（下载）
sh: 调用操作系统的命令
register、define =====> 使用Pig的自定义函数

三、Pig的数据模型（重要） ----> Apache Storm流式计算

四、使用PigLatin语句分析和处理数据
1、需要使用Hadoop的HistoryServer
mr-jobhistory-daemon.sh start historyserver
http://192.168.157.11:19888/jobhistory

2、常用的PigLatin语句
(*)load 加载数据到bag（表）
(*)foreach 相当于循环，对bag每一条数据tuple进行处理
(*)filter 相当于where
(*)group by 分组
(*)join 连接
(*)generate 提取列
(*)union/intersect 集合运算
(*)输出：dump 直接打印的屏幕上
store 输出到HDFS

注意：有些语句会触发计算，有些不会
Spark算子（API方法）：Transformation：不会触发计算
Action：会触发计算

3、举例: 7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30
(1) 加载员工数据到表
emp = load '/scott/emp.csv';

查询表的结构
describe emp; ---> Schema for emp unknown.

(2) 加载员工数据到表，指定每个tuple的schema和类型
emp = load '/scott/emp.csv' as(empno,ename,job,mgr,hiredate,sal,comm,deptno);
默认的数据类型：bytearray
默认分隔符：制表符

emp = load '/scott/emp.csv' as(empno:int,ename:chararray,job:chararray,mgr:int,hiredate:chararray,sal:int,comm:int,deptno:int);

emp = load '/scott/emp.csv' using PigStorage(',') as(empno:int,ename:chararray,job:chararray,mgr:int,hiredate:chararray,sal:int,comm:int,deptno:int);

创建一个部门表
dept = load '/scott/dept.csv' using PigStorage(',') as(deptno:int,dname:chararray,loc:chararray);

(3) 查询员工信息：员工号姓名薪水
SQL: select empno,ename,sal from emp;
PL:

emp3 = foreach emp generate empno,ename,sal;

(4) 查询员工信息：按照月薪排序
SQL: select * from emp order by sal;
PL:

emp4 = order emp by sal;

(5) 分组：求每个部门的工资的最大值
SQL: select deptno,max(sal) from emp group by deptno;
PL: 第一步：分组

emp51 = group emp by deptno;

表结构：
emp51: {group: int,
emp: {(empno: int,ename: chararray,job: chararray,mgr: int,hiredate: chararray,sal: int,comm: int,deptno: int)}}

数据：
(10,{(7934,MILLER,CLERK,7782,1982/1/23,1300,,10),
(7839,KING,PRESIDENT,,1981/11/17,5000,,10),
(7782,CLARK,MANAGER,7839,1981/6/9,2450,,10)})

(20,{(7876,ADAMS,CLERK,7788,1987/5/23,1100,,20),
(7788,SCOTT,ANALYST,7566,1987/4/19,3000,,20),
(7369,SMITH,CLERK,7902,1980/12/17,800,,20),
(7566,JONES,MANAGER,7839,1981/4/2,2975,,20),
(7902,FORD,ANALYST,7566,1981/12/3,3000,,20)})

(30,{(7844,TURNER,SALESMAN,7698,1981/9/8,1500,0,30),
(7499,ALLEN,SALESMAN,7698,1981/2/20,1600,300,30),
(7698,BLAKE,MANAGER,7839,1981/5/1,2850,,30),
(7654,MARTIN,SALESMAN,7698,1981/9/28,1250,1400,30),
(7521,WARD,SALESMAN,7698,1981/2/22,1250,500,30),
(7900,JAMES,CLERK,7698,1981/12/3,950,,30)})

第二步：求每个部门的工资最大值

emp52 = foreach emp51 generate group,MAX(emp.sal)

(6) 查询10号部门的员工
SQL: select * from emp where deptno=10;
PL:

emp6 = filter emp by deptno==10;

注意：两个等号

(7) 多表查询
查询员工信息：员工姓名部门名称
SQL: select e.ename,d.dname from emp e,dept d where e.deptno=d.deptno;
PL:

emp71 = join dept by deptno,emp by deptno;

emp72 = foreach emp71 generate dept::dname,emp::ename;

(8) 集合运算：关系型数据库Oracle：参与集合运算的各个集合必须列数相同且类型一致
10和20号部门的员工
SQL: select * from emp where deptno=10
union
select * from emp where deptno=20;

PL:

emp10 = filter emp by deptno==10;

emp20 = filter emp by deptno==20;

emp10_20 = union emp10,emp20;

(9) 使用PL实现WordCount
① 加载数据
mydata = load '/data/data.txt' as (line:chararray);

② 将字符串分割成单词
words = foreach mydata generate flatten(TOKENIZE(line)) as word;

③ 对单词进行分组
grpd = group words by word;

④ 统计每组中单词数量
cntd = foreach grpd generate group,COUNT(words);

⑤ 打印结果
dump cntd;

大数据笔记（十七）——Pig的安装及环境配置、数据模型的更多相关文章

大数据笔记13：Hadoop安装之Hadoop的配置安装
1.准备Linux环境 1.0点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -> VMnet1 host-only ->修改subnet ip ...
大数据系列之数据仓库Hive安装
Hive系列博文,持续更新~~~ 大数据系列之数据仓库Hive原理大数据系列之数据仓库Hive安装大数据系列之数据仓库Hive中分区Partition如何使用大数据系列之数据仓库Hive命令使用 ...
ROS入门笔记（二）：ROS安装与环境配置及卸载（重点）
ROS入门笔记(二):ROS安装与环境配置及卸载(重点) [TOC] 1 ROS安装步骤 1.1 ROS版本 ROS目前只支持在Linux系统上安装部署, 它的首选开发平台是Ubuntu. 发布时间 ...
Elasticsearch安装与环境配置
Elasticsearch安装与环境配置确保机器上已经安装了jdk7以上版本下载:官网下载地址:https://www.elastic.co/downloads/elasticsearch 将下载 ...
Laravel教程一：安装及环境配置
Laravel教程一:安装及环境配置此文章为原创文章,未经同意,禁止转载. Homestead 最近在SF上面看到越来越多的Laravel相关的问题,而作为一个Laravel的脑残粉,本来打算有机 ...
Python学习 1 一 Python2.75的安装及环境配置教程
Python2.75的安装及环境配置教程 Python的语法简洁,功能强大,有大量的第三方开发包(模块),非常适合初学者上手.同时Python不像java一样对内存要求非常高,适合做一些经常性的任务方 ...
Python学习（一）安装、环境配置及IDE推荐
Python的安装.环境配置及IDE推荐官网:https://www.python.org/ 版本:2.x 和 3.x 差别较大:python3是不向下兼容:版本区别可参考网官网介绍至于选择 Py ...
Node.js与VUE安装及环境配置之Windows篇
Node.js安装及环境配置之Windows篇 https://www.cnblogs.com/zhouyu2017/p/6485265.html Node.js安装及环境配置之Windows篇htt ...
(Win10)Java，Maven，Tomcat8.0，Mysql8.0.15安装与环境配置，以及IDEA2019.3使用JDBC连接MySQL、创建JavaEE项目
之前用windows+linux的双系统,最近不怎么舒服就把双系统给卸了,没想到除了问题,导致有linux残余,于是就一狠心重装了电脑,又把Java及其相关的一些东西重新装了回来,还好当初存了网盘链接 ...

随机推荐

VS2013启动外接程序VMDebugger未能加载或导致了异常
故障现象:打开Visual Studio 2010后弹出错误框,外接程序VMDebugger未能加载或导致了异常,是否希望移除该外接程序,错误号:80004005.系统版本:WIN10 64位专业版, ...
【Linux-驱动】驱动策略----自旋锁
自旋锁自旋锁最多只能被一个内核任务持有.要是锁未被持有,请求它的内核任务便会立即得到它并继续执行.如果一个内核任务试图请求一个已经被别的内核任务持有的自旋锁,那么CPU就会一直尽心循环---旋转-- ...
[19/06/04-星期二] HTML基础_实体(转义字符)、图片标签(img)、元标签(meta)、语法规范、内联框架(iframe)、超链接
一.实体(转义字符) 在HTML中,一些诸如<.> 就是普通的小于号和大于号不能直接使用,因为浏览可能会把它当成一个标签去解析,所以需要一些特殊字符去表示这些特殊字符, 这些字符我们称他们 ...
安装开发环境vs2017+sql2016+tfs2017
安装开发环境vs2017+sql2016+tfs2017 编写人:左丘文 2019-7-16 近一年了,一直没空着手写点什么,跟大家交待下吧,去年一次机会,其实也不完全是去年,因此离开了我工作15年的 ...
题解 AT1877 【回文分割】
题意:给定一个字符串 s,将 s 分割成一些子串,使每个子串都是回文串. 返回 s 所有可能的分割方案. 示例: 输入:aab 输出:3 解释:aba 思路: 记录字符串中每个字符出现的次数si 如果 ...
UITextField 文本框只能输入数字且保留2位小数实现
http://blog.sina.com.cn/s/blog_aa7579f601015xvx.html #pragma mark - #pragma mark UITextField - (BOOL ...
linux中文件权限格式与chmod命令以及用户和用户组的管理
简单了解一下linux中的文件权限格式与chmod命令 chmod命令:改变文件或者目录的权限格式:chmod [参数] [<权限范围><符号><权限代码>] - ...
Prometheus快速入门
Prometheus是一个开源的,基于metrics(度量)的一个开源监控系统,它有一个简单而强大的数据模型和查询语言,让我们分析应用程序.Prometheus诞生于2012年主要是使用go语言编写的 ...
linux MySql 的主从复制部署
MySql 复制 mysql 复制:将某一台主机上的 Mysql 数据复制到其它主机(slaves)上,并重新执行一遍从而实现当前主机上的 mysql 数据与(master)主机上数据保持一致的过程 ...
MongoDB入门_学习目标
MongoDB的概念 MongoDB mongo 索引集合复制集分片数据均衡 MongoDB数据库搭建搭建简单的单机服务搭建具有冗余容错功能的复制集搭建大规模数据集群集群的自动部署熟 ...

大数据笔记（十七）——Pig的安装及环境配置、数据模型

大数据笔记（十七）——Pig的安装及环境配置、数据模型的更多相关文章

随机推荐

热门专题