MapReduce实现词频统计

问题描述：现在有n个文本文件，使用MapReduce的方法实现词频统计。

附上统计词频的关键代码，首先是一个通用的MapReduce模块：

class MapReduce:

    __doc__ = '''提供map_reduce功能'''

    @staticmethod

    def map_reduce(i, mapper, reducer):

        """

        map_reduce方法

        :param i: 需要MapReduce的集合

        :param mapper: 自定义mapper方法

        :param reducer: 自定义reducer方法

        :return: 以自定义reducer方法的返回值为元素的一个列表

        """

        intermediate = []  # 存放所有的(intermediate_key, intermediate_value)

        for (key, value) in i.items():

            intermediate.extend(mapper(key, value))

        # sorted返回一个排序好的list，因为list中的元素是一个个的tuple，key设定按照tuple中第几个元素排序

        # groupby把迭代器中相邻的重复元素挑出来放在一起,key设定按照tuple中第几个元素为关键字来挑选重复元素

        # 下面的循环中groupby返回的key是intermediate_key，而group是个list，是1个或多个

        # 有着相同intermediate_key的(intermediate_key, intermediate_value)

        groups = {}

        for key, group in itertools.groupby(sorted(intermediate, key=lambda im: im[0]), key=lambda x: x[0]):

            groups[key] = [y for x, y in group]

        # groups是一个字典，其key为上面说到的intermediate_key，value为所有对应intermediate_key的intermediate_value

        # 组成的一个列表

        return [reducer(intermediate_key, groups[intermediate_key]) for intermediate_key in groups]

然后需要针对词频统计这个实际问题写好自己的mapper方法和reducer方法：

class WordCount:

    __doc__ = '''词频统计'''

    def mapper(self, input_key, input_value):

        """

        词频统计的mapper方法

        :param input_key: 文件名

        :param input_value: 文本内容

        :return: 以(词,1)为元素的一个列表

        """

        return [(word, 1) for word in

                self.remove_punctuation(input_value.lower()).split()]

    def reducer(self, intermediate_key, intermediate_value_list):

        """

        词频统计的reducer方法

        :param intermediate_key: 某个词

        :param intermediate_value_list: 出现记录列表，如[1,1,1]

        :return: (词,词频)

        """

        return intermediate_key, sum(intermediate_value_list)

    @staticmethod

    def remove_punctuation(text):

        """

        去掉字符串中的标点符号

        :param text: 文本

        :return: 去掉标点的文本

        """

        return re.sub(u"\p{P}+", "", text)

用3个文本文件进行测试：

text\a.tex:

　　The quick brown fox jumped over the lazy grey dogs.

text\b.txt:

　　That's one small step for a man, one giant leap for mankind.

text\c.txt:

　　Mary had a little lamb,

　　Its fleece was white as snow;

　　And everywhere that Mary went,

　　The lamb was sure to go.

调用如下：

    filenames = ["text\\a.txt", "text\\b.txt", "text\\c.txt"]

    i = {}

    for filename in filenames:

        f = open(filename)

    i[filename] = f.read()

    f.close()

    wc = WordCount()

    print(MapReduce.map_reduce(i, wc.mapper, wc.reducer))

输出结果：

[('white', 1), ('little', 1), ('sure', 1), ('snow;', 1), ('went,', 1), ('as', 1), ('lamb,', 1), ('go.', 1), ('lamb', 1), ('its', 1), ('a', 1), ('was', 2), ('to', 1), ('fleece', 1), ('that', 1), ('the', 1), ('mary', 2), ('everywhere', 1), ('had', 1), ('and', 1)]

上面提出的方法只使用了最基本的MapReduce思想，所以不支持大数据量的测试，毕竟各种调度之类的内容没有考虑到。

参考资料

1:Write your first MapReduce program in 20 minutes

MapReduce实现词频统计的更多相关文章

MapReduce词频统计
自定义Mapper实现 import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.LongWritable; impor ...
Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）
解决问题的方案 Hadoop上的中文分词与词频统计实践首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-c ...
【原创】大数据基础之词频统计Word Count
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test ...
Hive简单编程实践-词频统计
一.使用MapReduce的方式进行词频统计 (1)在HDFS用户目录下创建input文件夹 hdfs dfs -mkdir input 注意:林子雨老师的博客(http://dblab.xmu.ed ...
hive进行词频统计
统计文件信息: $ /opt/cdh-5.3.6/hadoop-2.5.0/bin/hdfs dfs -text /user/hadoop/wordcount/input/wc.input hadoo ...
Hadoop的改进实验（中文分词词频统计及英文词频统计）（4/4）
声明: 1)本文由我bitpeach原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Windows系统下的百度云(联网),和Ubuntu系统的hadoop1-2-1(自己提前配好).如不 ...
初学Hadoop之中文词频统计
1.安装eclipse 准备 eclipse-dsl-luna-SR2-linux-gtk-x86_64.tar.gz 安装 1.解压文件. 2.创建图标. ln -s /opt/eclipse/ec ...
初学Hadoop之WordCount词频统计
1.WordCount源码将源码文件WordCount.java放到Hadoop2.6.0文件夹中. import java.io.IOException; import java.util.Str ...
Hadoop之词频统计小实验
声明: 1)本文由我原创撰写,转载时请注明出处,侵权必究. 2)本小实验工作环境为Ubuntu操作系统,hadoop1-2-1,jdk1.8.0. 3)统计词频工作在单节点的伪分布上,至于真正实 ...

随机推荐

BZOJ 4833: [Lydsy1704月赛]最小公倍佩尔数（数论 + 最值反演）
题面令 ${(1+\sqrt 2)}^n=e(n)+f(n)*\sqrt2$ ,其中 $e(n),f(n)$ 都是整数,显然有 \({(1-\sqrt 2)}^n=e(n)-f(n)*\sq ...
定位现网环境中最耗费CPU的Java线程
参考:JVM性能调优监控工具jps.jstack.jmap.jhat.jstat.hprof使用详解下面通过一个实例找出某个Java进程中最耗费CPU的Java线程并定位堆栈信息,用到的命令有ps. ...
【BZOJ5324】[JXOI2018]守卫（动态规划）
[BZOJ5324][JXOI2018]守卫(动态规划) 题面 BZOJ 洛谷题解既然只能看到横坐标在左侧的点,那么对于任意一个区间$[l,r]$而言,$r$必须被选. 假设$r$看不 ...
SHOI2008仙人掌图（tarjan+dp）
Solution 好题啊没的说. 本题需要求出仙人掌的直径,但仙人掌是一个带有简单环的一张图无法直接用树形dp求解,但它有一个好东西就是没有类似环套环的东西,所以我们在处理时就方便了一些. 思路:ta ...
layui记录
layui 官网 layui 独立版 layui mobile layui 社区
牛客小白月赛12C (线性筛积性函数)
链接:https://ac.nowcoder.com/acm/contest/392/C来源:牛客网题目描述华华刚刚帮月月完成了作业.为了展示自己的学习水平之高超,华华还给月月出了一道类似的题: ...
洛谷P2486 染色
LCT的一种姿势. 题意:给定一棵树.每次把一条路径上的点染成一种颜色,求一条路径上有多少段颜色. 解: 首先可以很轻易的用树剖解决,只不过代码量让人望而却步... 有一种难以想象的LCT做法... ...
【洛谷P4878】布局
题目大意:给定一个长度为 N 的递增序列,有 M 组差分约束关系,求满足这些约束关系时,第一个数和第 N 个数的差是多少. 题解:首先,能否满足约束关系需要判断一下负环,若满足约束关系,再从第一个点 ...
（转）基于http协议的api接口对于客户端的身份认证方式以及安全措施
由于http是无状态的,所以正常情况下在浏览器浏览网页,服务器都是通过访问者的cookie(cookie中存储的 jsessionid)来辨别客户端的身份的,当客户端进行登录服务器也会将登录信息存放在 ...
jokes
先看效果如下目录如下 //index.html <!DOCTYPE html> <html lang="zh-CN"> <head> < ...

MapReduce实现词频统计

参考资料

MapReduce实现词频统计的更多相关文章

随机推荐

热门专题