499 单词计数 (Map Reduce版本)

原题网址：https://www.lintcode.com/problem/word-count-map-reduce/description

描述

使用 map reduce 来计算单词频率
https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html#Example%3A+WordCount+v1.0

您在真实的面试中是否遇到过这个题？是

样例

chunk1: "Google Bye GoodBye Hadoop code"

chunk2: "lintcode code Bye"

Get MapReduce result:

    Bye: 2

    GoodBye: 1

    Google: 1

    Hadoop: 1

    code: 2

    lintcode: 1

标签

Big Data

Map Reduce

思路：没怎么看懂这道题什么意思，参照着网上的代码捋了一遍。

Map类负责对原始数据进行处理，将字符串拆分成单词后输出到output； Reduce负责对Map输出的数据进行计数。转自此文

即：

map函数对输入的文本进行分词处理，然后输出（单词， 1）这样的结果，例如“You are a young man”，输出的就是（you， 1），（are， 1）之类的结果；

在reduce函数中，我们把具有相同key的结果聚合起来。reduce函数的第二个参数类型为Input<int>，这是一堆value的集合，他们具有相同的key，reduce函数的意义就是将这些结果聚合起来。

例如（”hello“， 1）和（”hello“， 1）聚合为（”hello“， 2），后者可能再次和（”hello“， 3）（”hello“， 1），聚合为（”hello“， 7）。转自此文

AC代码：

/**

 * Definition of Input:

 * template<class T>

 * class Input {

 * public:

 *     bool done();

 *         // Returns true if the iteration has elements or false.

 *     void next();

 *         // Move to the next element in the iteration

 *         // Runtime error if the iteration has no more elements

 *     T value();

 *        // Get the current element, Runtime error if

 *        // the iteration has no more elements

 * }

 */

class WordCountMapper: public Mapper {

public:

    void Map(Input<string>* input) {

        // Write your code here

        // Please directly use func 'output' to

        // output the results into output buffer.

        // void output(string &key, int value);

        vector<string> vecStr; //没看懂这句是干什么的……;

        while(!input->done())//为什么判断句不是input->done();

        {

            string str=input->value();

            int j=;

            for(int i=;i<=(int)str.size();i++)//注意判断句是小于等于;

            {

                if(str[i]==' '||i==str.size())

                {

                    string temp=str.substr(j,i-j);

                    output(temp,);

                    j=i+;

                }

            }

            input->next();

        }

    }

};

class WordCountReducer: public Reducer {

public:

    void Reduce(string &key, Input<int>* input) {

        // Write your code here

        // Please directly use func 'output' to

        // output the results into output buffer.

        // void output(string &key, int value);

        int sum=;

        while(!input->done())

        {

            sum+=input->value();

            input->next();

        }

        output(key,sum);

    }

};

代码中有三处不明白，

第一个是map函数中vector<string>数组的作用，将其注释掉也可以AC；

第二个是 while(!input->done())为什么不是 while(input->done())，done（）函数不是如果容器有元素就返回true吗……；

第三个是 for(int i=0;i<=(int)str.size();i++)，for循环的判断句为何是小于等于？后来这个问题想明白了，如果只是小于，会漏掉最后一个单词。因为当i为最后一个单词最后一个字符索引时，str【i】不为‘ ’，且i =size-1小于size，导致if块内语句无法执行。

其他参考：C++中substr的用法

C++中substr函数的用法

【C++】C++中substr的用法

499 单词计数 (Map Reduce版本)的更多相关文章

python实现指定目录下批量文件的单词计数：并发版本
在文章 <python实现指定目录下批量文件的单词计数:串行版本>中, 总体思路是: A. 一次性获取指定目录下的所有符合条件的文件 -> B. 一次性获取所有文件的所有文件行 - ...
python实现指定目录下JAVA文件单词计数的多进程版本
要说明的是, 串行版本足够快了, 在我的酷睿双核 debian7.6 下运行只要 0.2s , 简直是难以超越. 多进程版本难以避免大量的进程创建和数据同步与传输开销, 性能反而不如串行版本, 只能作 ...
使用Scala实现Java项目的单词计数：串行及Actor版本
其实我想找一门“具有Python的简洁写法和融合Java平台的优势, 同时又足够有挑战性和灵活性”的编程语言. Scala 就是一个不错的选择. Scala 有很多语言特性, 建议先掌握基础常用的: ...
hadoop笔记之MapReduce的应用案例(WordCount单词计数)
MapReduce的应用案例(WordCount单词计数) MapReduce的应用案例(WordCount单词计数) 1. WordCount单词计数作用: 计算文件中出现每个单词的频数输入结果 ...
分布式基础学习（2）分布式计算系统（Map/Reduce）
二. 分布式计算(Map/Reduce) 分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架.在Hadoop中,分布式文件系统,很 ...
Hadoop Map/Reduce教程
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html 目的先决条件概述输入与输出例子:WordCount v1.0 ...
分布式基础学习【二】 —— 分布式计算系统（Map/Reduce）
二. 分布式计算(Map/Reduce) 分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架.在Hadoop中,分布式文件系统,很大程 ...
Spark: 单词计数(Word Count)的MapReduce实现(Java/Python)
1 导引我们在博客<Hadoop: 单词计数(Word Count)的MapReduce实现 >中学习了如何用Hadoop-MapReduce实现单词计数,现在我们来看如何用Spark来 ...
MapReduce之单词计数
最近在看google那篇经典的MapReduce论文,中文版可以参考孟岩推荐的 mapreduce 中文版中文翻译论文中提到,MapReduce的编程模型就是: 计算利用一个输入key/value ...

随机推荐

关于web前端网站优化
不知道是哪位大牛的文章,转过来嘻嘻. 作者:斯迪链接:https://www.zhihu.com/question/21658448/answer/18903129来源:知乎著作权归作者所有.商业转载 ...
Python 迭代器与生成器及装饰器
1.迭代器(Iterator) 迭代器是访问集合元素的一种方式.有下面特点: 1)每次调用__next__()方法只访问一个元素,而且不能后退,便于循环比较大的数据集合,节省内存:(当容器中没有可访问 ...
[WPF自定义控件库]使用WindowChrome自定义RibbonWindow
原文:[WPF自定义控件库]使用WindowChrome自定义RibbonWindow 1. 为什么要自定义RibbonWindow 自定义Window有可能是设计或功能上的要求,可以是非必要的,而自 ...
Luogu P2822 组合数问题(前缀和)
P2822 组合数问题题意题目描述组合数$C_n^m$表示的是从$n$个物品中选出$m$个物品的方案数.举个例子,从$(1,2,3)$三个物品中选择两个物品可以有\((1,2), ...
cdq分治(偏序)
偏序问题: https://www.luogu.org/blog/Owencodeisking/post-xue-xi-bi-ji-cdq-fen-zhi-hu-zheng-ti-er-fen 优质题 ...
leetcode-122-买卖股票的最佳时机②
题目描述: 方法一: class Solution: def maxProfit(self, prices: List[int]) -> int: profit = 0 for i in ran ...
[JZOJ3168] 【GDOI2013模拟3】踢足球
题目描述题目大意有两个队伍,每个队伍各nnn人. 接到球的某个人会再下一刻随机地传给自己人.敌人和射门,射门有概率会中. 每次射门之后球权在对方111号选手. 某个队伍到了RRR分,或者总时间到 ...
LUOGU P1453 城市环路(基环树+dp)
传送门解题思路一道基环树上$dp$的题,这种题比较套路吧,首先第一遍$dfs$把环找出来,然后对于环上的每一个点都向它子树内做一次树形$dp$,$f[i][0/1]$表示到了$i$这个点选或不选的 ...
Ubuntu 12.04 Eclipse设置 Javadoc背景色
在Ambiance主题下,eclipse弹出的tip是黑色背景的,这样压根就看不清java doc. 当然可以在外观改变系统主题为其他主题,相应的gtk-2.0/gtkrc要重新设置,比如Ubuntu ...
php数据结构课程---5、树（树的存储方式有哪些）
php数据结构课程---5.树(树的存储方式有哪些) 一.总结一句话总结: 双亲表示法:data parent:$tree[1] = ["B",0]; 孩子表示法:data ...

499 单词计数 (Map Reduce版本)

描述

样例

499 单词计数 (Map Reduce版本)的更多相关文章

随机推荐

热门专题