hadoop worldcount小程序

首先在hadoop中建立input文件夹放几个文件，里边写点东西。比如我放了三个，分别写的是

第一个

hello hadoop

bye hadoop

第二个

hello world

bye world

第三个

hello bigdata

然后就有下边这段代码做单词统计：

 import java.io.File;

 import java.io.IOException;

 import java.net.URI;

 import java.net.URISyntaxException;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.Mapper;

 import org.apache.hadoop.mapreduce.Reducer;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class WorldCount {    

     static final String INPUT_PATH = "hdfs://masters:9000/user/hadoop/input";

     static final String OUTPUT_PATH = "hdfs://masters:9000/user/hadoop/output";

     public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException, URISyntaxException {

         //添加以下的代码，就可以联通，不知道咋回事

         String path = new File(".").getCanonicalPath();

         System.getProperties().put("hadoop.home.dir", path);

         new File("./bin").mkdirs();

         new File("./bin/winutils.exe").createNewFile();

         Configuration conf = new Configuration();

         Path outpath = new Path(OUTPUT_PATH);

         Job job = new Job(conf, "WorldCount");

         FileInputFormat.setInputPaths(job, INPUT_PATH);

         FileOutputFormat.setOutputPath(job, outpath);

         //检测输出路径是否存在，如果存在就删除，否则会报错

         FileSystem fileSystem = FileSystem.get(new URI(OUTPUT_PATH), conf);

         if(fileSystem.exists(outpath)){

             fileSystem.delete(outpath, true);

         }

         job.setMapperClass(MyMapper.class);

         job.setReducerClass(MyReducer.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(LongWritable.class);

         job.waitForCompletion(true);

     }

     //输入，map，即拆分过程

     static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>{

         /*

          * 输入为（key,value）输出为（value,count数量）

          * 所以LongWritable, Text, Text, LongWritable分别代表 key(行号) value value count

          * 其中LongWritable和Text是hadoop定义的类型，分别代表long和string两种类型

          * */

         protected void map(LongWritable k1, Text v1, Context context)throws IOException, InterruptedException{

             String[] splits = v1.toString().split(" ");//按照空格拆分

             for(String str: splits){

                 System.out.println("---" + str);

                 context.write(new Text(str), new LongWritable(1));//拆分出来的形式为（“单词”，出现次数（这里默认为1））

             }

         }

     }

     //输出，reduce，汇总过程

     static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>{

         protected void reduce(

                 Text k2, //输出的内容，即value

                 Iterable<LongWritable> v2s, //是一个longwritable类型的数组，所以用了Iterable这个迭代器，且元素为v2s

                 org.apache.hadoop.mapreduce.Reducer<Text, LongWritable, Text, LongWritable>.Context context)

                 //这里一定设置好，不然输出会变成单个单词，从而没有统计数量

                 throws IOException, InterruptedException {

             //列表求和 初始为0

             long times = 0L;

             for(LongWritable count:v2s){

                 times += count.get();

             }

             context.write(k2, new LongWritable(times));

         }

     }

 }

然后就成了，看下结果

第23行到第27行不写就会报错，我也不知道咋回事，如果哪个大牛知道咋回事，非常期待留言解答。

hadoop worldcount小程序的更多相关文章

如何利用Hadoop存储小文件
**************************************************************************************************** ...
如何在Windows下面运行hadoop的MapReduce程序
在Windows下面运行hadoop的MapReduce程序的方法: 1.下载hadoop的安装包,这里使用的是"hadoop-2.6.4.tar.gz": 2.将安装包直接解压到 ...
Hadoop Word Count程序
Hadoop Word Count程序 pom.xml文件: <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns ...
【小程序分享篇一】开发了个JAVA小程序，用于清除内存卡或者U盘里的垃圾文件非常有用
有一种场景, 手机内存卡空间被用光了,但又不知道哪个文件占用了太大,一个个文件夹去找又太麻烦,所以我开发了个小程序把手机所有文件(包括路径下所有层次子文件夹下的文件)进行一个排序,这样你就可以找出哪个 ...
微信小程序开发心得
微信小程序也已出来有一段时间了,最近写了几款微信小程序项目,今天来说说感受. 首先开发一款微信小程序,最主要的就是针对于公司来运营的,因为,在申请appid(微信小程序ID号)时候,需要填写相关的公司 ...
微信应用号（小程序）开发IDE配置（第一篇）
2016年9月22日凌晨,微信宣布“小程序”问世,当然只是开始内测了,微信公众平台对200个服务号发送了小程序内测邀请.那么什么是“小程序”呢,来看微信之父怎么说看完之后,相信大家大概都有些明白了吧 ...
TODO：小程序开发过程之体验者
TODO:小程序开发过程之体验者 1. 小程序开发过程,先下载开发者并安装开发者工具,现在腾讯开放测试了,普通用户也可以登录开发者工具,如图普通用户登录为调试类型,但是只能建立无AppID的项目如果 ...
TODO：即将开发的第一个小程序
TODO:即将开发的第一个小程序微信小程序是一种全新的连接用户与服务的方式,它可以在微信内被便捷地获取和传播,同时具有出色的使用体验.个人理解小程序是寄宿在微信平台上的一个前端框架,具有跨平台功能, ...
微信小程序体验(2)：驴妈妈景区门票即买即游
驴妈妈因为出色的运营能力,被腾讯选为首批小程序内测单位.驴妈妈的技术开发团队在很短的时间内完成了开发任务,并积极参与到张小龙团队的内测问题反馈.驴妈妈认为,移动互联网时代,微信是巨大的流量入口,也是旅 ...

随机推荐

git使用简介（一）
附上廖雪峰老师Git教程https://www.liaoxuefeng.com/wiki/0013739516305929606dd18361248578c67b8067c8c017b000 创建版本 ...
常用的标准SQL 语句
1.创建数据库的语句如下: Create database databaseName 上述语句创建一个名字叫 databaseName 的数据库2.删除数据库的语句如下. Drop database ...
Vue+Electron实现简单桌面应用
之前一直使用C#编写桌面应用,也顺带写一些Web端应用.最近在看node时发现常用的vscode是用electron编写的,一种想吃螃蟹的念头就涌了上来. 在网上找了找electron的资料,也研究了 ...
pycharm中配置pyspark
1 下载官网spark-2.1.1-bin-hadoop2.7.tgz(版本自己选择),解压将文件放在了指定路径下,这个文件夹里面有python文件,python文件下还有两个压缩包py4j-some ...
SSM框架理解搭建（虽然是网上拼的，但是实际按照搭建是可以的）——
SpringSpring就像是整个项目中装配bean的大工厂,在配置文件中可以指定使用特定的参数去调用实体类的构造方法来实例化对象.Spring的核心思想是IoC(控制反转),即不再需要程序员去显式地 ...
python--基本类型之列表
Lest(列表): 定义和创建列表: 列表:是python以及其他语言中最常用的数据结构之一.python用 [] 来解析列表列表是可变的.--可以改变列表的内容可以用切片 a=['张三','李四', ...
Spark是什么
官方直达电梯 Spark一种基于内存的通用的实时大数据计算框架(作为MapReduce的另一个更优秀的可选的方案) 通用:Spark Core 用于离线计算,Spark SQL 用于交互式查询,Spa ...
【MySql】mysql 慢日志查询工具之mysqldumpslow
当使用--log-slow-queries[=file_name]选项启动时,mysqld写一个包含所有执行时间超过long_query_time秒的SQL语句的日志文件.获得初使表锁定的时间不算 ...
汇编实验14：访问CMOS RAM
汇编实验14:访问CMOS RAM 任务编程,以“年/月/日时:分:秒”的格式,显示当前的日期,时间. 预备知识 CMOS存储当前时间的信息:年.月.日.时.分.秒.这六个信息的长度均为1个字节, ...
WPF中ContextMenu(右键菜单)使用Command在部分控件上默认为灰色的处理方法
原文:WPF中ContextMenu(右键菜单)使用Command在部分控件上默认为灰色的处理方法问题描述今天发现如果我想在一个TextBlock弄一个右键菜单,并且使用Command绑定,结果发 ...

hadoop worldcount小程序

hadoop worldcount小程序的更多相关文章

随机推荐

热门专题