Mapreduce实例—

实验步骤

切换目录到/apps/hadoop/sbin下，启动hadoop。

cd /apps/hadoop/sbin

./start-all.sh

2.在linux上，创建一个目录/data/mapreduce1。

mkdir -p /data/mapreduce1

3.切换到/data/mapreduce1目录下，自行建立文本文件buyer_favorite1。

依然在/data/mapreduce1目录下，使用wget命令，从

网络下载hadoop2lib.tar.gz，下载项目用到的依赖包。

将hadoop2lib.tar.gz解压到当前目录下。

tar -xzvf hadoop2lib.tar.gz

4.将linux本地/data/mapreduce1/buyer_favorite1，上传到HDFS上的/mymapreduce1/in目录下。若HDFS目录不存在，需提前创建。

hadoop fs -mkdir -p /mymapreduce1/in
hadoop fs -put /data/mapreduce1/buyer_favorite1 /mymapreduce1/in

5.打开Eclipse，新建Java Project项目。并将项目名设置为mapreduce1。

6.在项目名mapreduce1下，新建package包。并将包命名为mapreduce 。

7.在创建的包mapreduce下，新建类。并将类命名为WordCount。

8.添加项目所需依赖的jar包，右键单击项目名，新建一个目录hadoop2lib，用于存放项目所需的jar包。

9.添加代码

10.打开终端或使用hadoop eclipse插件，查看hdfs上，程序输出的实验结果。

hadoop fs -ls /mymapreduce1/out

hadoop fs -cat /mymapreduce1/out/part-r-00000

Mapreduce实例——WordCount的更多相关文章

实验6：Mapreduce实例——WordCount
实验目的1.准确理解Mapreduce的设计原理2.熟练掌握WordCount程序代码编写3.学会自己编写WordCount程序进行词频统计实验原理MapReduce采用的是“分而治之”的 ...
大型数据库技术实验六实验6：Mapreduce实例——WordCount
现有某电商网站用户对商品的收藏数据,记录了用户收藏的商品id以及收藏日期,名为buyer_favorite1. buyer_favorite1包含:买家id,商品id,收藏日期这三个字段,数据以“\t ...
MapReduce实例2（自定义compare、partition）& shuffle机制
MapReduce实例2(自定义compare.partition)& shuffle机制实例:统计流量有一份流量数据,结构是:时间戳.手机号.....上行流量.下行流量,需求是统计每个用 ...
MapReduce实例&YARN框架
MapReduce实例&YARN框架一个wordcount程序统计一个相当大的数据文件中,每个单词出现的个数. 一.分析map和reduce的工作 map: 切分单词遍历单词数据输出 r ...
利用python操作mrjob实例---wordcount
网上利用java实现mr操作实例相对较多,现将python实现mr操作实例---Wordcount分享如下: 在操作前,需要作如下准备: 1.确保linux系统里安装有python3.5,pyt ...
Java编程MapReduce实现WordCount
Java编程MapReduce实现WordCount 1.编写Mapper package net.toocruel.yarn.mapreduce.wordcount; import org.apac ...
eclipse运行mapreduce的wordcount
1,eclipse安装hadoop插件插件下载地址:链接: https://pan.baidu.com/s/1U4_6kLFNiKeLsGfO7ahXew 提取码: as9e 下载hadoop-ec ...
Mapreduce 测试自带实例 wordcount
2.7.3版本的hadoop: jar程序所在目录:$HADOOP_HOME/shar/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar 1.本 ...
Hadoop实战2:MapReduce编程-WordCount实例-streaming-python环境
这是搭建hadoop环境后的第一个MapReduce程序: 基于hadoop streaming的python的脚本: 1 map.py文件,把文本的内容划分成单词: #!/usr/bin/pytho ...

随机推荐

[理解] C++ 中的源文件和头文件
我是学 C井的, 现在在工作中主要使用的编程语言是 Java, 还记得当初在第一次接触到 Cpp 的时候, 听到的第一个概念就是 Cpp 的头文件和源文件, 当初理解了好久, 死活都弄不明白, 现在 ...
微信跳一跳辅助JAVA 自动模拟点击
工具:ADB 原理: 开始游戏后,使用ADB工具让手机截屏发送到电脑分析图像中小人与目标中心点间的距离,根据一定比例计算出需要触屏的时间使用ADB进行模拟点击(触屏)相应的时间,完成精准跳跃程序 ...
Python实现图片识别加翻译【高薪必学】
Python使用百度AI接口实现图片识别加翻译另外很多人在学习Python的过程中,往往因为没有好的教程或者没人指导从而导致自己容易放弃,为此我建了个Python交流.裙 :一久武其而而流一思(数字 ...
Java日期时间API系列10-----Jdk8中java.time包中的新的日期时间API类的DateTimeFormatter
1.DateTimeFormatter final修饰,线程安全,用于打印和解析日期-时间对象的格式化程序. 创建DateTimeFormatter: DateTimeFormatter dateTi ...
SQL查询效率注意事项 2011.12.27
一.查询条件精确,针对有参数传入情况二.SQL逻辑执行顺序 FROM-->JOIN-->WHERE-->GROUP-->HAVING-->DISTINCT-->O ...
Java基础知识笔记第十章：输入输出流
File类文件的属性目录文件的创建与删除运行可执行文件文件字节输入流文件字节输出流文件字符输入输出流缓冲流随机流数组流数据流对象流序列化与对象克隆使用Scanner解析文件 ...
day5-2正则表达式
正则表达式: 正则表达式对象的创建 1,构造函数 var pattern =new RegExp("正则表达式","修饰符") var pattern =new ...
Linux centosVMware 自动化运维认识自动化运维、启动salt相关服务、saltstack配置认证、salt-key命令用法、saltstack远程执行命令、saltstack - grains、saltstack – pillar
一.认识自动化运维传统运维效率低,大多工作人为完成传统运维工作繁琐,容易出错传统运维每日重复做相同的事情传统运维没有标准化流程传统运维的脚本繁多,不能方便管理自动化运维就是要解决上面所有问 ...
32 commons-lang包学习
maven依赖 <dependency> <groupId>commons-lang</groupId> <artifactId>commons-lan ...
靠谱的Pycharm安装详细教程
如何在本机上下载和安装Pycharm,具体的教程如下: 1.首先去Pycharm官网,或者直接输入网址:http://www.jetbrains.com/pycharm/download/#secti ...

Mapreduce实例——WordCount

Mapreduce实例——WordCount的更多相关文章

随机推荐

热门专题