最近特别喜欢用Pig，拥有能满足大部分需求的内置函数（built-in functions），支持自定义函数（user defined functions, UDF），能load 纯文本、avro等格式数据；illustrate看pig执行步骤的结果，describe看alias的schema；以轻量级脚本形式跑MapReduce任务，各种爽爆。

1. Word Count

较于中文，英文比较工整，可以根据空格、标点符号进行分词。

A = load '/user/.*/req-temp/text.txt' as (text:chararray);

B = foreach A generate flatten(TOKENIZE(text)) as word;

C = group B by word;

D = foreach C generate COUNT(B), group;

Pig的内置函数TOKENIZE用StringTokenizer来对英文文本进行分词（代码参看这里），继承于抽象类EvalFunc<T>，返回DataBag词组。为了能统计单个词词频，需要用函数flatten对词组进行打散。抽象类EvalFunc<T>为用于pig语句foreach .. generate ..中的基类，以实现对数据字段的转换操作，其中exec()方法在pig运行期间被调用。

public class TOKENIZE extends EvalFunc<DataBag> {

    TupleFactory mTupleFactory = TupleFactory.getInstance();

    BagFactory mBagFactory = BagFactory.getInstance();

    @Override

    public DataBag exec(Tuple input) throws IOException {

        ...

        DataBag output = mBagFactory.newDefaultBag();

        ...

        String delim = " \",()*";

        ...

        StringTokenizer tok = new StringTokenizer((String)o, delim, false);

        while (tok.hasMoreTokens()) {

            output.add(mTupleFactory.newTuple(tok.nextToken()));

        }

        return output;

        ...

    }

}

2. Ansj中文分词

为了写Pig的UDF，需要添加maven依赖：

<dependency>

	<groupId>org.apache.hadoop</groupId>

	<artifactId>hadoop-common</artifactId>

	<version>${hadoop.version}</version>

	<scope>provided</scope>

</dependency>

<dependency>

	<groupId>org.apache.pig</groupId>

	<artifactId>pig</artifactId>

	<version>${pig.version}</version>

	<scope>provided</scope>

</dependency>

<dependency>

	<groupId>org.ansj</groupId>

	<artifactId>ansj_seg-all-in-one</artifactId>

	<version>3.0</version>

</dependency>

输入命令hadoop version得到hadoop的版本，输入pig -i得到pig的版本。务必要保证与集群部署的pig版本一致，要不然会报错：

ERROR org.apache.pig.tools.grunt.Grunt - ERROR 1066: Unable to open iterator for alias D

然后依葫芦画瓢，根据TOKENIZE.java修改，得到中文分词Segment.java：

package com.pig.udf;

public class Segment extends EvalFunc<DataBag> {

	TupleFactory mTupleFactory = TupleFactory.getInstance();

    BagFactory mBagFactory = BagFactory.getInstance();

    @Override

    public DataBag exec(Tuple input) throws IOException {

        try {

            if (input==null)

                return null;

            if (input.size()==0)

                return null;

            Object o = input.get(0);

            if (o==null)

                return null;

            DataBag output = mBagFactory.newDefaultBag();

            if (!(o instanceof String)) {

            	int errCode = 2114;

            	String msg = "Expected input to be chararray, but" +

                " got " + o.getClass().getName();

                throw new ExecException(msg, errCode, PigException.BUG);

            }

            // filter punctuation

            FilterModifWord.insertStopNatures("w");

            List<Term> words = ToAnalysis.parse((String) o);

            words = FilterModifWord.modifResult(words);

            for(Term word: words) {

            	output.add(mTupleFactory.newTuple(word.getName()));

            }

            return output;

        } catch (ExecException ee) {

            throw ee;

        }

    }

    @SuppressWarnings("deprecation")

    @Override

    public Schema outputSchema(Schema input) {

    ...

    }

    ...

ansj支持设置词性的停用词FilterModifWord.insertStopNatures("w");，如此可以去掉标点符号的词。将源代码打包后放在hdfs上，然后通过register jar包调用该UDF：

REGISTER ../piglib/udf-0.0.1-SNAPSHOT-jar-with-dependencies.jar

A = load '/user/.*/renmin.txt' as (text:chararray);

B = foreach A generate flatten(com.pig.udf.Segment(text)) as word;

C = group B by word;

D = foreach C generate COUNT(B), group;

截取人民日报社论的一段：

树好家风，严管才是厚爱。古人说：“居官所以不能清白者，率由家人喜奢好侈使然也。”要看到，好的家风，能系好人生的“第一粒扣子”。“修身、齐家”，才能“治国、平天下”，领导干部首先要“正好家风、管好家人、处好家事”，才能看好“后院”、堵住“后门”。“父母之爱子，则为之计深远”，与其冒着风险给子女留下大笔钱财，不如给子女留下好家风、好作风，那才是让子女受益无穷的东西，才是真正的“为之计深远”。

统计词频如下：

...

(3,能)

(2,要)

(2,计)

(1,与其)

(1,作风)

(1,使然)

(1,修身)

(1,厚爱)

(1,受益)

...

可见，ansj在不加载用户自定义词表的情况下，分词效果并不理想，不能对成语等词正确地分词。

Pig + Ansj 统计中文文本词频的更多相关文章

ChineseCounter.cs 统计中文文本中常用字占比
http://www.tuicool.com/articles/qmMba2 1 using System; using System.IO; using System.Collections.Gen ...
Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
用jieba库统计文本词频及云词图的生成
一.安装jieba库 :\>pip install jieba #或者 pip3 install jieba 二.jieba库解析 jieba库主要提供提供分词功能,可以辅助自定义分词词典. j ...
[转]python进行中文文本聚类（切词以及Kmeans聚类）
简介查看百度搜索中文文本聚类我失望的发现,网上竟然没有一个完整的关于Python实现的中文文本聚类(乃至搜索关键词python 中文文本聚类也是如此),网上大部分是关于文本聚类的Kmeans聚类的原 ...
『TensotFlow』RNN中文文本_下_暨研究生开学感想
承前接上节代码『TensotFlow』RNN中文文本_上, import numpy as np import tensorflow as tf from collections import Co ...
『TensotFlow』RNN中文文本_上
中文文字预处理流程文本处理读取+去除特殊符号按照字段长度排序辅助数据结构生成生成 {字符:出现次数} 字典生成按出现次数排序好的字符list 生成 {字符:序号} 字典生成序号list ...
自然语言处理--中文文本向量化counterVectorizer()
1.载入文档 #!/usr/bin/python # -*- coding: utf-8 -*- import pandas as pd import re import jieba from skl ...
word2vec词向量训练及中文文本类似度计算
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...
万字总结Keras深度学习中文文本分类
摘要:文章将详细讲解Keras实现经典的深度学习文本分类算法,包括LSTM.BiLSTM.BiLSTM+Attention和CNN.TextCNN. 本文分享自华为云社区<Keras深度学习中文 ...

随机推荐

使用C#开发ActiveX控件（新）
前言 ActiveX控件以前也叫做OLE控件,它是微软IE支持的一种软件组件或对象,可以将其插入到Web页面中,实现在浏览器端执行动态程序功能,以增强浏览器端的动态处理能力.通常ActiveX控件都是 ...
.net程序单元测试介绍
什么是单元测试?为什么要进行单元测试?如需要进一步了解,请移步维基百科. 关于.net程序单元测试的文章,网上已经有很多,但我相信我写的这篇文章的内容是独特的,因为我在网上找了很久,都没找到关于Str ...
make file教程(转)
最近在学习Linux下的C编程,买了一本叫<Linux环境下的C编程指南>读到makefile就越看越迷糊,可能是我的理解能不行. 于是google到了以下这篇文章.通俗易懂.然后把它贴出 ...
手把手教你做一个原生js拖动滑块【兼容PC和移动端】
废话少说: 在PC端可以用mousedown来触发一个滑块滑动的效果,但在手机上,貌似无法识别这个事件,但手机上有touchstart事件,可以通过一系列"touch"事件来替代P ...
Redis主从复制问题和扩容问题的解决思路
转载于:http://www.itxuexiwang.com/a/shujukujishu/redis/2016/0216/106.html?1455867541 一.解决主从复制问题当使用Redi ...
“胡”说IC——菜鸟工程师完美进阶
“胡”说IC——菜鸟工程师完美进阶(数十位行业精英故事分享,顶级猎头十多年来经验总结,对将入或初入IC电子业“菜鸟”职业发展.规划的解惑和点拨.) 胡运旺编著 ISBN 978-7-121-22 ...
fir.im Weekly - 如何打造 Github 「爆款」开源项目
最近 Android 转用 Swift 的传闻甚嚣尘上,Swift 的 Github 主页上已经有了一次 merge>>「Port to Android」,让我们对 Swift 的想象又多 ...
salesforce 零基础开发入门学习（十五）salesforce中formula的使用（不含Date/Time）
本文参考官方的formula介绍PDF:https://resources.docs.salesforce.com/200/latest/en-us/sfdc/pdf/salesforce_usefu ...
C++生成二级制文件过程（预处理->编译->链接）
转载请注明出处 Windows下C++编程,通过VC生成工程,编写C++源文件,点运行,代码没问题直接出结果.VC什么都帮我们搞了,不了解其中过程也完全没问题. 转到linux下写c++,总觉得有点虚 ...
SQL Server Window Function 窗体函数读书笔记二 - A Detailed Look at Window Functions
这一章主要是介绍窗体中的 Aggregate 函数, Rank 函数, Distribution 函数以及 Offset 函数. Window Aggregate 函数 Window Aggrega ...

Pig + Ansj 统计中文文本词频

1. Word Count

2. Ansj中文分词

Pig + Ansj 统计中文文本词频的更多相关文章

随机推荐

热门专题