在Hadoop上用Python实现WordCount

一、简单说明

　　本例中我们用Python写一个简单的运行在Hadoop上的MapReduce程序，即WordCount（读取文本文件并统计单词的词频）。这里我们将要输入的单词文本input.txt和Python脚本放到/home/data/python/WordCount目录下。

cd /home/data/python/WordCount

vi input.txt

输入：

There is no denying that

hello python

hello mapreduce

mapreduce is good

二、编写Map代码

　　这里我们创建一个mapper.py脚本，从标准输入(stdin)读取数据，默认以空格分隔单词，然后按行输出单词机器词频到标准输出(stdout)，整个Map处理过程不会统计每个单词出现的总次数，而是直接输出“word 1”,以便作为Reduce的输入进行统计，确保该文件是可执行的（chmod +x /home/data/python//WordCount/mapper.py)。

cd /home/data/python//WordCount

vi mapper.py

#!/usr/bin/env python
# -*- coding:UTF-8 -*-

import sys

for line in sys.stdin: #sys.stdin为读取数据，遍历读入数据的每一行

line = line.strip() #删除开头和结尾的空格

words = line.split() #以默认空格分隔行单词到words列表

for word in words:

#输出所有单词，格式为“单词，1”以便作为Reduce的输入

print('%s\t%s' %(word,1))

#截图如下：

三、编写Reduce代码

　　这里我们创建一个reducer.py脚本，从标准输入(stdin)读取mapper.py的结果，然后统计每个单词出现的总次数并输出到标准输出(stdout)，

确保该文件是可执行的（chmod +x /home/data/python//WordCount/reducer.py)

cd /home/data/python//WordCount

vi reducer.py

#!/usr/bin/env python

# -*- coding:UTF-8 -*-

import sys

current_word = None #当前单词

current_count = 0 #当前单词频数

word = None

for line in sys.stdin:

line = line.strip() #删除开头和结尾的空格

#解析mapper.py输出作为程序的输入，以tab作为分隔符

word,count = line.split('\t',1)

try:

　　 count = int(count) #转换count从字符型为整型

except ValueError:

continue

#要求mapper.py的输出做排序操作，以便对连接的word做判断，hadoop会自动排序

if current_word == word: #如果当前的单词等于读入的单词

current_count += count #单词频数加1

else:

if current_word: #如果当前的单词不为空则打印其单词和频数

print('%s\t%s' %(current_word,current_count))

current_count = count #否则将读入的单词赋值给当前单词，且更新频数

current_word = word

if current_word == word #输出最后一个word统计

print('%s\%s' %(current_word,current_count))

#截图如下：

四、本地测试代码

　　我们可以在Hadoop平台运行之前在本地测试，校验mapper.py与reducer.py运行的结果是否正确。注意：测试reducer.py时需要对mapper.py的输出做排序(sort)操作，不过，Hadoop环境会自动实现排序。

#在本地运行mapper.py:

cd /home/data/python/WordCount/

#记得执行： chmod +x /home/data/python//WordCount/mapper.py

cat input.txt | ./mapper.py

#在本地运行reducer.py

#记得执行：chmod +x /home/data/python//WordCount/reducer.py

cat input.txt | ./mapper.py | sort -k1,1 | ./reducer.py

#这里注意：利用管道符“|”将输出数据作为mapper.py这个脚本的输入数据，并将mapper.py的数据输入到reducer.py中，其中参数sort -k 1,1是将reducer的输出内容按照第一列的第一个字母的ASCII码值进行升序排序。

五、在Hadoop平台上运行代码

在hadoop运行代码，前提是已经搭建好hadoop集群

1、创建目录并上传文件

　　首先在HDFS上创建文本文件存储目录，这里我创建为：/WordCound

hdfs dfs -mkdir /WordCound

#将本地文件input.txt上传到hdfs的/WordCount上。

hadoop fs -put /home/data/python/WordCount/input.txt /WordCount

hadoop fs -ls /WordCount #查看在hdfs中/data/WordCount目录下的内容

2、执行MapReduce程序

　　为了简化我们执行Hadoop MapReduce的命令，我们可以将Hadoop的hadoop-streaming-3.0.0.jar加入到系统环境变量/etc/profile中，在/etc/profile文件中添加如下配置：

首先在配置里导入hadoop-streaming-3.0.0.jar

vi /etc/profile

HADOOP_STREAM=$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-3.0.0.jar

export HADOOP_STREAM

source /etc/profile #刷新配置

#执行以下命令:

hadoop jar $HADOOP_STREAM -file /home/data/python/WordCount/mapper.py -mapper ./mapper.py -file /home/data/python/WordCount/reducer.py -reducer ./reducer.py -input /WordCount -output /output/word1

得到：

然后，输入以下命令查看结果：

hadoop fs -ls /output/word1

hadoop fs -cat /output/word1/part-00000 #查看分析结果

可以发现，结果与之前测试的时候是一致的，那么恭喜你，大功告成！

在Hadoop上用Python实现WordCount的更多相关文章

通过hadoop上的hive完成WordCount
1.启动hadoop 打开所有命令:start-all.sh 2.Hdfs上创建文件夹创建名为PGOne到user/hadoop 3.上传文件至hdfs 创建和修改508.txt文件,里面尽量多写一 ...
让python在hadoop上跑起来
duang~好久没有更新博客啦,原因很简单,实习啦-好吧,我过来这边上班表示觉得自己简直弱爆了.第一周,配置环境:第二周,将数据可视化,包括学习了excel2013的一些高大上的技能,例如数据透视表和 ...
hadoop学习笔记——用python写wordcount程序
尝试着用3台虚拟机搭建了伪分布式系统,完整的搭建步骤等熟悉了整个分布式框架之后再写,今天写一下用python写wordcount程序(MapReduce任务)的具体步骤. MapReduce任务以来H ...
Hadoop实战3:MapReduce编程-WordCount统计单词个数-eclipse-java-ubuntu环境
之前习惯用hadoop streaming环境编写python程序,下面总结编辑java的eclipse环境配置总结,及一个WordCount例子运行. 一下载eclipse安装包及hadoop插件 ...
在Hadoop平台跑python脚本
1.开发IDE,我使用的是PyCharm. 2.运行原理使用python写MapReduce的“诀窍”是利用Hadoop流的API,通过STDIN(标准输入).STDOUT(标准输出)在 ...
Hadoop入门实践之从WordCount程序说起
这段时间需要学习Hadoop了,以前一直听说Hadoop,但是从来没有研究过,这几天粗略看完了<Hadoop实战>这本书,对Hadoop编程有了大致的了解.接下来就是多看多写了.以Hado ...
Hadoop上的中文分词与词频统计实践（有待学习 http://www.cnblogs.com/jiejue/archive/2012/12/16/2820788.html）
解决问题的方案 Hadoop上的中文分词与词频统计实践首先来推荐相关材料:http://xiaoxia.org/2011/12/18/map-reduce-program-of-rmm-word-c ...
hadoop上C++开发两种方式的例子
百度在使用Hadoop过程中同样发现了Hadoop因为Java语言带来的低效问题,并对Hadoop进行扩展. 而在此之前,百度也尝试了 Hadoop PIPES 和 Hadoop Streamming ...
【Big Data - Hadoop - MapReduce】初学Hadoop之图解MapReduce与WordCount示例分析
Hadoop的框架最核心的设计就是:HDFS和MapReduce.HDFS为海量的数据提供了存储,MapReduce则为海量的数据提供了计算. HDFS是Google File System(GFS) ...

随机推荐

解决chrome浏览器崩溃，再次安装不上问题
上网重新下载了个安装包,发现安装包都打不来很绝望,查了很多资料很多人说要删除注册表的东西但是打开注册表,发现一堆google的东西,手动删根本不现实在绝望中看到了解决方案:google Upd ...
vscode使用sftp同步服务器文件
环境介绍服务器:腾讯云 + centos + onestack搭建好的lnmp环境本地:mac 安装openssh sudo yum install openssh-client openssh- ...
一个vue练手的小项目
编程路上的菜鸟一枚 : 最近接触了vue 然后写了一个练手的项目使用vue-cli脚手架来搭建了的项目技术: vue2 + vue-router + ES6 + axios 框架有 mint- ...
java架构之路-（spring源码篇）由浅入深-spring实战详细使用
今天我更新了一篇jvm垃圾回收的算法和垃圾回收器的内部逻辑,但是看的人不多啊......貌似大家还是比较喜欢看源码吧,毕竟实战要比理论用的多. 这篇文章不会详细的深入底层源码,只是基于注解和配置来说说 ...
【数据结构】什么是AVL树
目录什么是AVL树 1. 什么是AVL树 2. 节点的实现 3. AVL树的调整 3.1 LL旋转 3.2 RR旋转 3.3 RL旋转 3.4 LR旋转什么是AVL树二叉查找树的一个局限性就是有 ...
有关Spring事务，看这一篇就足够了
本文将按照声明式事务的五个特性进行介绍: 事务传播机制事务隔离机制只读事务超时回滚规则 Spring事务传播机制事务的特性原子性(Atomicity):事务是一个原子操作,由一系列动作组成 ...
【深入学习MySQL】MySQL的索引为什么使用B+树？
前言在MySQL中,无论是Innodb还是MyIsam,都使用了B+树作索引结构(这里不考虑hash等其他索引).本文将从最普通的二叉查找树开始,逐步说明各种树解决的问题以及面临的新问题,从而说明M ...
AppScan工具使用-实战一
本文首发于简书https://www.jianshu.com/p/639cf894838e 工具已经安装完成,废话不多说,直接拿手上的项目使用一下. 1.打开工具,点击文件-新建 2.打开新建扫描 3 ...
Java秒杀系统优化的工程要点
这篇博客是笔者学习慕课网若鱼老师的<Java秒杀系统方案优化高性能高并发实战>课程的学习笔记.若鱼老师授课循循善诱,讲解由浅入深,欢迎大家支持. 本文记录课程中的注意点,方便以后code ...
APP功能测试要点
1.功能性测试根据产品需求文档编写测试用例而进行测试,包括客户端的单个功能模块以及功能业务逻辑(功能交互)如:涉及输入的地方需要考虑等价类,边界值,异常或非法等 1.1 安装与卸载测试 >软件 ...

在Hadoop上用Python实现WordCount

在Hadoop上用Python实现WordCount的更多相关文章

随机推荐

热门专题