近期,散仙用了几周的Pig来处理分析我们站点搜索的日志数据,感觉用起来非常不错,今天就写篇笔记介绍下Pig的由来,除了搞大数据的人,可能非常少有人知道Pig是干啥的。包含一些是搞编程的,但不是搞大数据的。还包含一些既不是搞编程的。也不是搞大数据的。而是从事其它行业的朋友。所以非常有可能望文生义。一看标题,就乐了,心里就開始默默的翻译了===》
Apache 猪的笔记,看起来Apache的猪,比較厉害啊,都能写笔记了。 



开个玩笑,以下进入正题,散仙,尽量写的通俗易懂。让大家看了之后都可以理解这头Pig究竟是干什么的。 



Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组织)的一个项目,由Apache来负责维护。Pig是一个基于 Hadoop的大规模数据分析平台,它提供的SQL-like语言叫Pig Latin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简 易的操作和编程接口。这一点和FaceBook开源的Hive(一个以SQL方式,操作hadoop的一个开源框架)一样简洁,清晰,易上手! 



那么雅虎公司主要使用Pig来干什么呢? 



1)吸收和分析用户的行为日志数据(点击流分析、搜索内容分析等),改进匹配和排名算法。以提高检索和广告业务的质量。

2)构建和更新search index。

对于web-crawler抓取了的内容是一个流数据的形式,这包含去冗余、链接分析、内容分类、基于点击次数的受欢迎程度计算(PageRank)、最后建立倒排表。

3)处理半结构化数据订阅(data seeds)服务。包含:deduplcaitin(去冗余)。geographic location resolution,以及 named entity recognition. 



使用Pig来操作hadoop处理海量数据,是非常easy的。假设没有Pig。我们就得手写MapReduce代码。这但是一件非常繁琐的事。由于MapReduce的任务职责非常明白,清洗数据得一个job,处理得一个job,过滤得一个job。统计得一个job,排序得一个job,编写DAG(带先后顺序依赖的)作业非常不方便。这还能够接受,但是每次仅仅要修改非常小的一个地方,就得又一次编译整个job。然后打成jar提交到Hadoop集群上执行,是非常繁琐的,调试还非常困难,所以。在如今的大互联网公司或者是电商公司里,非常少有纯写MapReduce来处理各种任务的,基本上都会使用一些工具或开源框架来操作。 





随着,数据海啸的来临,传统的DB(Oracle、DB2)已经不能满足海量数据处理的需求。MapReduce逐渐成为了数据处理的事实标准,被应用到各行各业中。所以,我们不再期望全部的客户都能高速开发应用相关代码。仅仅能把客户的工作变得简单,就像使用SQL语言,经过简单培训就能够“云”上操作。

Pig就是为了屏蔽MapReduce开发的繁琐细节,为用户提供Pig Latin这样近SQL语言处理能力,让用户能够更方便地处理海量数据。Pig将SQL语句翻译成MR的作业的集合,并通过数据流的方式将其组合起来。 



Pig的一个简单处理流程,例如以下所看到的: 



 

运行引擎例如以下所看到的: 

 



在Pig里面,每一步操作,都是一个数据流,很easy理解,你想要什么。它就能得到什么,即使不能得到,我们也能够通过轻松扩展UDF来实现,比SQL更easy理解,每一步要做什么,很easy上手和学习,在大数据时代,了解和使用Pig来分析海量数据是很easy的。 



最后告诉大家一个好消息。在最新的Pig(0.14)发行版里,有两个重要的特性: 

(1)支持Pig执行在Tez上 

(2)支持Orc格式的存储

Apache Pig的前世今生的更多相关文章

  1. 玩转大数据系列之Apache Pig高级技能之函数编程(六)

    原创不易,转载请务必注明,原创地址,谢谢配合! http://qindongliang.iteye.com/ Pig系列的学习文档,希望对大家有用,感谢关注散仙! Apache Pig的前世今生 Ap ...

  2. Apache Pig处理数据示例

    Apache Pig是一个高级过程语言,可以调用MapReduce查询大规模的半结构化数据集. 样例执行的环境为cloudera的单节点虚拟机 读取结构数据中的指定列 在hdfs上放置一个文件 [cl ...

  3. Apache Pig中文教程集合

    Apache Pig中文教程集合: http://www.codelast.com/?p=4550#more-4550

  4. 玩转大数据系列之Apache Pig如何与Apache Solr集成(二)

    散仙,在上篇文章中介绍了,如何使用Apache Pig与Lucene集成,还不知道的道友们,可以先看下上篇,熟悉下具体的流程. 在与Lucene集成过程中,我们发现最终还要把生成的Lucene索引,拷 ...

  5. Apache Pig入门学习文档(一)

    1,Pig的安装    (一)软件要求    (二)下载Pig      (三)编译Pig 2,运行Pig    (一)Pig的所有执行模式    (二)pig的交互式模式    (三)使用pig脚本 ...

  6. 如何给Apache Pig自定义UDF函数?

    近日由于工作所需,需要使用到Pig来分析线上的搜索日志数据,散仙本打算使用hive来分析的,但由于种种原因,没有用成,而Pig(pig0.12-cdh)散仙一直没有接触过,所以只能临阵磨枪了,花了两天 ...

  7. Apache Pig和Solr问题笔记(一)

    记录下最近两天散仙在工作中遇到的有关Pig0.12.0和Solr4.10.2一些问题,总共有3个,如下: (1)问题一: 如何Pig中使用ASCII和十六进制(hexadecimal)的分隔符进行加载 ...

  8. 玩转大数据之Apache Pig如何与Apache Lucene集成

     在文章开始之前,我们还是简单来回顾下Pig的的前尘往事: 1,Pig是什么? Pig最早是雅虎公司的一个基于Hadoop的并行处理架构,后来Yahoo将Pig捐献给Apache(一个开源软件的基金组 ...

  9. Apache Pig学习笔记(二)

     主要整理了一下,pig里面的一些关键词的含义和用法,pig虽然是一种以数据流处理为核心的框架,但数据库的大部分关键词和操作,在pig里面基本上都能找到对应的函数,非常灵活与简洁,春节前的最后一篇文章 ...

随机推荐

  1. hdoj--2015--偶数求和(水题)

    偶数求和 Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others) Total Submi ...

  2. TCP心跳包

    所谓的心跳包就是客户端定时放送简单的信息给服务器端,告诉它我还在而已.代码就是每 隔几分钟发送一个固定信息给服务器端,服务器端回复一个固定信息.如果服务器端几分钟后没有收到客户端信息则视客户端断开.比 ...

  3. springboot整合ActiveMQ 2(主备模式,负载均衡)

    基本使用,https://www.tapme.top/blog/detail/2018-09-05-10-38 主备模式,https://www.tapme.top/blog/detail/2018- ...

  4. Hashmap 详解和迭代器问题

    重点介绍HashMap.首先介绍一下什么是Map.在数组中我们是通过数组下标来对其内容索引的,而在Map中我们通过对象来对对象进行索引,用来索引的对象叫做key,其对应的对象叫做value.在下文中会 ...

  5. 初探.net framework 下的异步多线程

    初探.net framework 下的异步多线程 目录 1.多线程的出现条件 2.Thread和ThreadPool的相关Api及用法 3.Task和Parallel的相关Api及用法 4.Async ...

  6. ES6变量的解构赋值

    变量的解构赋值 1.数组的解构赋值 2.对象的解构赋值 3.字符串的解构赋值 4.数值和布尔值的解构赋值 5.函数参数的解构赋值 6.圆括号问题 7.用途 1.数组的解构赋值 ES6 允许写成下面这样 ...

  7. java exception 异常错误记录

    //异常:Could not obtain transaction-synchronized Session for current thread 做定时器的时候用ApplicationContext ...

  8. python爬虫:读取PDF

    下面的代码可以实现用python读取PDF,包括读取本地和网络上的PDF. pdfminer下载地址:https://pypi.python.org/packages/source/p/pdfmine ...

  9. MongoDB(二)创建更新删除文档

    插入并保存文档操作 用insert向目标集合插入文档,如果没有_id键则会自动添加.最后自动保存. >db.foo.insert({"bar":"baz" ...

  10. SSM 拦截器验证权限和登录与注销的实现

    拦截器的作用在于,比如我们输入 xxx.com/admin 发起请求进入 网站后台或者其他后台页面.我们的拦截器会在 Controller  调用之前进行拦截,至于什么拦截,由我们来写.比如,判断用户 ...