1.Pig是基于hadoop的一个数据处理的框架。 
MapReduce是使用java进行开发的,Pig有一套自己的数据处理语言,Pig的数据处理过程要转化为MR来运行。

2.Pig的数据处理语言是数据流方式的,类似于初中做的数学题。一步一步来的,跟SQL不一样,SQL一步就得到答案,

3.Pig基本数据类型:int、long、float、double、chararry、bytearray
    
复合数据类型:Map、Tuple、Bag  
Bag的类型如{('age',31),('name','张三')}

4.如何安装Pig
4.1 把pig-0.11.1.tar.gz复制到/usr/local下
4.2 使用命令tar -zxvf  pig-0.11.1.tar.gz解压缩
4.3 使用命令mv pig-0.11.1  pig 进行重命名
4.4 编辑文件vi /etc/profile 设置环境变量 
export $PIG_HOME=/usr/local/bin 
export PATH =......$PIG_HOME/bin....  
保存,然后执行source  /etc/profile
4.5 编辑文件$PIG_HOME/conf/pig.properties,增加两行如下内容   
fs.default.name=hdfs://hadoop0:9000 
mapred.job.tracker=hadoop0:9001

5.对wlan数据如何使用pig进行分析处理
5.1 把待处理的数据上传到HDFS中
5.2 把HDFS中的数据转换为pig可以处理的模式  
A = LOAD  '/wlan'  AS (t0:long, msisdn:chararray, t2:chararray, t3:chararray, t4:chararray, t5:chararray, t6:long, t7:long, t8:long,t9:long,t10:chararray);

5.3 把里面的有用的字段抽取出来 
B = FOREACH A GENERATE msisdn, t6, t7, t8, t9;

5.4 分组数据
 C = GROUP B BY msisdn;

5.5 流量汇总
 D = FOREACH C GENERATE   group, SUM(B.t6), SUM(B.t7), SUM(B.t8), SUM(B.t9);

5.6 存储到HDFS中
 STORE D INTO '/wlan_result';

吴超老师课程--Pig的介绍和安装的更多相关文章

  1. 吴超老师课程--Hive的介绍和安装

    1.Hive1.1在hadoop生态圈中属于数据仓库的角色.他能够管理hadoop中的数据,同时可以查询hadoop中的数据.  本质上讲,hive是一个SQL解析引擎.Hive可以把SQL查询转换为 ...

  2. 吴超老师课程---Hadoop的伪分布安装

    1.1 设置ip地址    执行命令    service network restart    验证:         ifconfig1.2 关闭防火墙    执行命令    service ip ...

  3. 吴超老师课程--HBASE的集群安装

    1.hbase的机群搭建过程(在原来的hadoop上的hbase伪分布基础上进行搭建)1.1 集群结构,主节点(hmaster)是hadoop,从节点(region server)是hadoop1和h ...

  4. 吴超老师课程--Hbase介绍和伪分布式安装

    1.HBase(NoSQL)的数据模型1.1 表(table),是存储管理数据的.1.2 行键(row key),类似于MySQL中的主键.     行键是HBase表天然自带的.1.3 列族(col ...

  5. 吴超老师课程---ZooKeeper介绍和集群安装

    1.ZooKeeper    1.1 zk可以用来保证数据在zk集群之间的数据的事务性一致.2.如何搭建ZooKeeper服务器集群    2.1 zk服务器集群规模不小于3个节点,要求各服务器之间系 ...

  6. 吴超老师课程--Flume的安装和介绍

    常用的分布式日志收集系统

  7. 吴超老师课程--Sqoop的安装和介绍

    SQOOP是用于对数据进行导入导出的.    (1)把MySQL.Oracle等数据库中的数据导入到HDFS.Hive.HBase中    (2)把HDFS.Hive.HBase中的数据导出到MySQ ...

  8. 吴超老师课程--Hbase Shell

    hbase提供了一个shell的终端给用户交互 名称 命令表达式 创建表 create '表名称', '列族名称1','列族名称2','列族名称N' 添加记录 put '表名称', '行名称', '列 ...

  9. 吴超老师课程---Hadoop的分布式集群安装

    1.hadoop的分布式安装过程 1.1 分布结构 主节点(1个,是hadoop0):NameNode.JobTracker.SecondaryNameNode            从节点(2个,是 ...

随机推荐

  1. MySQL定义异常和异常处理方法

    在MySQL中.特定异常须要特定处理.这些异常可以联系到错误,以及子程序中的一般流程控制.定义异常是事先定义程序运行过程中遇到的问题,异常处理定义了在遇到问题时相应当採取的处理方式.而且保证存储过程或 ...

  2. ZoneDateTime 转换Date

    final ZonedDateTime now = ZonedDateTime.now(); //当前时间final ZonedDateTime todayZero = now.truncatedTo ...

  3. Disillusioning #1 水题+原题赛(被虐瞎)

    https://vijos.org/tests/542c04dc17f3ca2064fe7718 好一场 水题 比赛啊 t1直接上暴力费用流10分QAQ,虽然一开始我觉得可以不用的,直接dfs可以得出 ...

  4. 【ask】Recursive process.nextTick detected. This will break in the next version of node. Please use setImmediate for recursive deferral.

    1.周五对nodejs tcp长连接服务器框架进行压测,一切开始比较常规(没什么特殊问题). 2.突然手一哆嗦,把压测用的客户端群一起关闭了. 3.这个时候nodejs的服务器爆出了"Cau ...

  5. Idea定位打开文件在左边工程中的文件路径

    勾选掉Autoscoll from Source

  6. poj 2662(Dijkstra+记忆化)

    题目链接:http://poj.org/problem?id=2662 思路:首先路径的选择,如果B点到终点的距离比A点到终点的最短距离短,那么就从A走到B,换句话说,就是每次都是择优选择更靠近终点的 ...

  7. nginx搭建文件服务器

    在部署了各种应用后,产生的日志文件,需要在线下载查看,不用每次登陆服务器去拿: 这里,因为服务器部署了很多的应用程序,可以建一个主目录mylog,在主目录里用软连接将需要的各个日志文件夹都建好连接 l ...

  8. dropload 使用表

    移动端下拉刷新.上拉加载更多插件 依赖 (dependence) Zepto 或者 jQuery 1.7以上版本,推荐jQuery 2.x版本(二者不要同时引用) Zepto or jQuery 1. ...

  9. Android中使用OnClickListener接口实现button点击的低级失误

    今天写了几行极为简单的代码,就是想implements  View.OnCLickListener.然后实现按钮点击操作.可是按钮却没有反应.找了五分钟还是没有结果. 下面是我的代码,希望大家不要嘲笑 ...

  10. DBUtils结果集处理

    1.BeanHandler查询 package jdbc; import java.sql.Connection; import java.sql.SQLException; import org.a ...