wordcount 过程

hdfs原始数据

hello a

hello b

map阶段：

输入数据：<0,"hello a">

<8,"hello b">

key为偏移量

输出数据：

     map(key,value,context)

                 {

                    String[]  words = value.split("\t");

                     for(String word :words)

                           {

                            //hello
                            //a
                            //hello
                            //b
                            输出conetxt.write（key,vlaue）

                           }

                 }

　　<hello,1>

<a,1>

<hello,1>

<b,1>

reduce阶段：（分组排序,字典序排序）

输入数据：

<a,1>

<b,1>

<hello,{1,1}>

输出数据：

reduce(key,value,context)

                 {
                    int sum=0;
                    String word=key;
                    for(int i:value)
                        {
                           sum+=i;
                         }
                     context.write(key,sum);
                 }

wordcount 过程的更多相关文章

Hadoop Mapreduce中wordcount 过程解析
将文件split 文件1: 分割结果: hello world ...
Win7上Spark WordCount运行过程及异常
WordCount.Scala代码如下: package com.husor.Spark /** * Created by huxiu on 2014/11/26. */ import org.apa ...
Flink+kafka实现Wordcount实时计算
1. Flink Flink介绍: Flink 是一个针对流数据和批数据的分布式处理引擎.它主要是由 Java 代码实现.目前主要还是依靠开源社区的贡献而发展.对 Flink 而言,其所要处理的主要场 ...
c++ primer plus 第6版部分二 5- 8章
---恢复内容开始--- c++ primer plus 第6版部分二 5- 章第五章计算机除了存储外还可以对数据进行分析.合并.重组.抽取.修改.推断.合成.以及其他操作 1.for ...
WordCount示例深度学习MapReduce过程（1）
我们都安装完Hadoop之后,按照一些案例先要跑一个WourdCount程序,来测试Hadoop安装是否成功.在终端中用命令创建一个文件夹,简单的向两个文件中各写入一段话,然后运行Hadoop,Wou ...
Hadoop入门程序WordCount的执行过程
首先编写WordCount.java源文件,分别通过map和reduce方法统计文本中每个单词出现的次数,然后按照字母的顺序排列输出, Map过程首先是多个map并行提取多个句子里面的单词然后分别列出 ...
WordCount示例深度学习MapReduce过程
转自: http://blog.csdn.net/yczws1/article/details/21794873 . 我们都安装完Hadoop之后,按照一些案例先要跑一个WourdCount程序,来测 ...
MapReduce 过程详解 (用WordCount作为例子)
本文转自 http://www.cnblogs.com/npumenglei/ .... 先创建两个文本文件, 作为我们例子的输入: File 1 内容: My name is Tony My com ...
大话Spark(3)-一图深入理解WordCount程序在Spark中的执行过程
本文以WordCount为例, 画图说明spark程序的执行过程 WordCount就是统计一段数据中每个单词出现的次数, 例如hello spark hello you 这段文本中hello出现2次 ...

随机推荐

windows系统IIS环境下如何部署MVC项目
首先打开IIS:第一步:添加MVC程序映射打开其中的:处理程序映射,如下图: 点击界面右边操作中的:添加脚本映射,弹出下图: 请求路径:* 可执行文件:c:/Windows/Mi ...
Quartz2D 编程指南（三）渐变、透明层、数据管理
概览图形上下文路径颜色与颜色空间变换图案阴影渐变透明层 Quartz 2D 中的数据管理位图与图像遮罩 CoreGraphics 绘制 Layer 渐变简介渐变是从一个颜色到另外 ...
JMeter学习（三十四）测试报告优化
如果按JMeter默认设置,生成报告如下: 从上图可以看出,结果信息比较简单,对于运行成功的case,还可以将就用着.但对于跑失败的case,就只有一行assert错误信息.(信息量太少了,比较难找到 ...
xargs -I
xargs -i 参数或者-I参数配合{}即可进行文件的操作. -I replace-str Replace occurrences of replace-str ...
inotify监控目录变化重启服务器tornado项目
pycharm 配置了提交服务器项目每次pycharm修改后,虽然保存到服务器但是项目还得自己去服务器kill再启动.就花几分钟写了shell脚本用于监控项目目录变化并重启tornado项目的脚本如 ...
Windows Server 2008 R2安装子域控制器
一.实验网络拓扑图: 二.实验说明: 子域控制器安装前需要先把主域控制器安装好,然后子域控制器的DNS先指向主域控制器的IP地址 192.168.10.30,主域控制器委派DNS给子域控制器后再把子域 ...
云硬盘error、error deleting、deleting状态（数据库基本操作小记）
起因是发现云硬盘显示删光了,但还是创建不了新的云硬盘,在api节点上用cinder list可以看到已经没有硬盘了,但是创建硬盘时,还是会提示配额满了,这是因为数据库里的记录没有更新,对数据库的操作记 ...
用于svn添加当前目录下所有未追踪的文件，和删除所有手动删除的文件的脚本
由于要经常用到类似与 git 中的 git add --all 这种操作,但是发现svn中并不支持类似的操作. 虽然可以使用 wildcard 进行匹配,但是 wildcard是在shell中进行匹配 ...
YbSoftwareFactory 代码生成插件【十五】：Show 一下最新的动态属性扩展功能与键值生成器功能
YbSoftwareFactory 各种插件的基础类库中又新增了两个方便易用的功能:动态属性扩展与键值生成器,本章将分别介绍这两个非常方便的组件. 一.动态属性扩展在实际的开发过程中,你肯定会遇到数 ...
python常用小模块使用汇总
在写代码过程中常用到一些好用的小模块,现整理汇总一下: 1.获取当前的文件名和目录名,并添到系统环境变量中. file = os.path.abspath(__file__) ...

wordcount 过程

wordcount 过程的更多相关文章

随机推荐

热门专题