499 单词计数 (Map Reduce版本)

原题网址：https://www.lintcode.com/problem/word-count-map-reduce/description

描述

使用 map reduce 来计算单词频率
https://hadoop.apache.org/docs/r1.2.1/mapred_tutorial.html#Example%3A+WordCount+v1.0

您在真实的面试中是否遇到过这个题？是

样例

chunk1: "Google Bye GoodBye Hadoop code"

chunk2: "lintcode code Bye"

Get MapReduce result:

    Bye: 2

    GoodBye: 1

    Google: 1

    Hadoop: 1

    code: 2

    lintcode: 1

标签

Big Data

Map Reduce

思路：没怎么看懂这道题什么意思，参照着网上的代码捋了一遍。

Map类负责对原始数据进行处理，将字符串拆分成单词后输出到output； Reduce负责对Map输出的数据进行计数。转自此文

即：

map函数对输入的文本进行分词处理，然后输出（单词， 1）这样的结果，例如“You are a young man”，输出的就是（you， 1），（are， 1）之类的结果；

在reduce函数中，我们把具有相同key的结果聚合起来。reduce函数的第二个参数类型为Input<int>，这是一堆value的集合，他们具有相同的key，reduce函数的意义就是将这些结果聚合起来。

例如（”hello“， 1）和（”hello“， 1）聚合为（”hello“， 2），后者可能再次和（”hello“， 3）（”hello“， 1），聚合为（”hello“， 7）。转自此文

AC代码：

/**

 * Definition of Input:

 * template<class T>

 * class Input {

 * public:

 *     bool done();

 *         // Returns true if the iteration has elements or false.

 *     void next();

 *         // Move to the next element in the iteration

 *         // Runtime error if the iteration has no more elements

 *     T value();

 *        // Get the current element, Runtime error if

 *        // the iteration has no more elements

 * }

 */

class WordCountMapper: public Mapper {

public:

    void Map(Input<string>* input) {

        // Write your code here

        // Please directly use func 'output' to

        // output the results into output buffer.

        // void output(string &key, int value);

        vector<string> vecStr; //没看懂这句是干什么的……;

        while(!input->done())//为什么判断句不是input->done();

        {

            string str=input->value();

            int j=;

            for(int i=;i<=(int)str.size();i++)//注意判断句是小于等于;

            {

                if(str[i]==' '||i==str.size())

                {

                    string temp=str.substr(j,i-j);

                    output(temp,);

                    j=i+;

                }

            }

            input->next();

        }

    }

};

class WordCountReducer: public Reducer {

public:

    void Reduce(string &key, Input<int>* input) {

        // Write your code here

        // Please directly use func 'output' to

        // output the results into output buffer.

        // void output(string &key, int value);

        int sum=;

        while(!input->done())

        {

            sum+=input->value();

            input->next();

        }

        output(key,sum);

    }

};

代码中有三处不明白，

第一个是map函数中vector<string>数组的作用，将其注释掉也可以AC；

第二个是 while(!input->done())为什么不是 while(input->done())，done（）函数不是如果容器有元素就返回true吗……；

第三个是 for(int i=0;i<=(int)str.size();i++)，for循环的判断句为何是小于等于？后来这个问题想明白了，如果只是小于，会漏掉最后一个单词。因为当i为最后一个单词最后一个字符索引时，str【i】不为‘ ’，且i =size-1小于size，导致if块内语句无法执行。

其他参考：C++中substr的用法

C++中substr函数的用法

【C++】C++中substr的用法

499 单词计数 (Map Reduce版本)的更多相关文章

python实现指定目录下批量文件的单词计数：并发版本
在文章 <python实现指定目录下批量文件的单词计数:串行版本>中, 总体思路是: A. 一次性获取指定目录下的所有符合条件的文件 -> B. 一次性获取所有文件的所有文件行 - ...
python实现指定目录下JAVA文件单词计数的多进程版本
要说明的是, 串行版本足够快了, 在我的酷睿双核 debian7.6 下运行只要 0.2s , 简直是难以超越. 多进程版本难以避免大量的进程创建和数据同步与传输开销, 性能反而不如串行版本, 只能作 ...
使用Scala实现Java项目的单词计数：串行及Actor版本
其实我想找一门“具有Python的简洁写法和融合Java平台的优势, 同时又足够有挑战性和灵活性”的编程语言. Scala 就是一个不错的选择. Scala 有很多语言特性, 建议先掌握基础常用的: ...
hadoop笔记之MapReduce的应用案例(WordCount单词计数)
MapReduce的应用案例(WordCount单词计数) MapReduce的应用案例(WordCount单词计数) 1. WordCount单词计数作用: 计算文件中出现每个单词的频数输入结果 ...
分布式基础学习（2）分布式计算系统（Map/Reduce）
二. 分布式计算(Map/Reduce) 分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架.在Hadoop中,分布式文件系统,很 ...
Hadoop Map/Reduce教程
原文地址:http://hadoop.apache.org/docs/r1.0.4/cn/mapred_tutorial.html 目的先决条件概述输入与输出例子:WordCount v1.0 ...
分布式基础学习【二】 —— 分布式计算系统（Map/Reduce）
二. 分布式计算(Map/Reduce) 分布式式计算,同样是一个宽泛的概念,在这里,它狭义的指代,按Google Map/Reduce框架所设计的分布式框架.在Hadoop中,分布式文件系统,很大程 ...
Spark: 单词计数(Word Count)的MapReduce实现(Java/Python)
1 导引我们在博客<Hadoop: 单词计数(Word Count)的MapReduce实现 >中学习了如何用Hadoop-MapReduce实现单词计数,现在我们来看如何用Spark来 ...
MapReduce之单词计数
最近在看google那篇经典的MapReduce论文,中文版可以参考孟岩推荐的 mapreduce 中文版中文翻译论文中提到,MapReduce的编程模型就是: 计算利用一个输入key/value ...

随机推荐

MFC基础类及其层次结构
从类CCmdTarget派生出绝大多数MFC中的类,其层次结构如下图: 从根类Cobject层层派生出绝大多数MFC中的类,层次结构如下图: MFC中重点类: CObject类是MFC的绝大部分类的基 ...
python模块typing的作用
一.介绍 Python是一门弱类型的语言,很多时候我们可能不清楚函数参数类型或者返回值类型,很有可能导致一些类型没有指定方法,在写完代码一段时间后回过头看代码,很可能忘记了自己写的函数需要传什么参数, ...
JS 二维数组
给一个数组元素,赋一个数组的值,那么,这个数组就是“二维数组”. 二维数组,就得用两层循环来实现.也就是说循环套循环. 二维数组的循环,与二维表格的循环一模一样. 二维数组的访问:数组名后跟多个连续的 ...
Python collection模块与深浅拷贝
collection模块是对Python的通用内置容器:字典.列表.元组和集合的扩展,它包含一些专业的容器数据类型: Counter(计数器):dict子类,用于计算可哈希性对象的个数. Ordere ...
k8s-prometheus监控
跨数据库查询——dblink
现在本地建一个dblink Create database link create public database link DBLINKTEST (名称) connect to MGP(用户名) i ...
mybatis-plus分页查询
在springboot中整合mybatis-plus 按照官方文档进行的配置:快速开始|mybatis-plus 引入依赖:  <depe ...
Spring 事务传播行为（12）
事务传播行为指定是Spring中一个事务方法调用另一个事务方法时.处理的行为使用方式: @Transactional(propagation=Propagation.REQUIRED) 事务的使用 ...
数据类中引用virtual
public class City { [Key] public int CityID { set; get; } [Display(Name = "城市名称")] [Requir ...
《代码整洁之道》ch1~ch4读书笔记 PB16110698 （~3.8 第一周）
<代码整洁之道>ch1~ch4读书笔记 <clean code>正如其书名所言,是一本关于整洁代码规范的“教科书”.作者在书中通过实例阐述了整洁代码带来的种种利处以及混乱代码 ...

499 单词计数 (Map Reduce版本)

描述

样例

499 单词计数 (Map Reduce版本)的更多相关文章

随机推荐

热门专题