HDFS 手写mapreduce单词计数框架

一、数据处理类

package com.css.hdfs;

import java.io.BufferedReader;

import java.io.IOException;

import java.io.InputStreamReader;

import java.net.URI;

import java.net.URISyntaxException;

import java.util.HashMap;

import java.util.Map.Entry;

import java.util.Properties;

import java.util.Set;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.fs.FSDataInputStream;

import org.apache.hadoop.fs.FSDataOutputStream;

import org.apache.hadoop.fs.FileSystem;

import org.apache.hadoop.fs.LocatedFileStatus;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.fs.RemoteIterator;

/**

 * 需求：文件(hello world hello teacher hello john tom ) 统计每个单词出现的次数？

 * 数据存储在hdfs、统计出来的结果存储到hdfs

 *

 * 2004google:dfs/bigtable/mapreduce

 *

 * 大数据解决的问题？

 *  1.海量数据的存储

 *         hdfs

 *  2.海量数据的计算

 *      mapreduce

 *

 *  思路？

 *    hello 2

 *    world 1

 *    hello 1

 *    ...

 *

 *  基于用户体验：

 *   用户输入数据

 *   用户处理的方式

 *   用户指定结果数据存储位置

 */

public class HdfsWordCount {

    public static void main(String[] args) throws IOException, ClassNotFoundException, InstantiationException, IllegalAccessException, InterruptedException, URISyntaxException {

        // 反射

        Properties pro = new Properties();

        // 加载配置文件

        pro.load(HdfsWordCount.class.getClassLoader().getResourceAsStream("job.properties"));

        Path inPath = new Path(pro.getProperty("IN_PATH"));

        Path outPath = new Path(pro.getProperty("OUT_PATH"));

        Class<?> mapper_class = Class.forName(pro.getProperty("MAPPER_CLASS"));

        // 实例化

        Mapper mapper = (Mapper) mapper_class.newInstance();

        Context context = new Context();

        // 构建hdfs客户端对象

        Configuration conf = new Configuration();

        FileSystem fs = FileSystem.get(new URI("hdfs://192.168.146.132:9000/"), conf, "root");

        // 读取用户输入的文件

        RemoteIterator<LocatedFileStatus> iter = fs.listFiles(inPath, false);

        while (iter.hasNext()) {

            LocatedFileStatus file = iter.next();

            // 打开路径 获取输入流

            FSDataInputStream in = fs.open(file.getPath());

            BufferedReader br = new BufferedReader(new InputStreamReader(in, "utf-8"));

            String line = null;

            while ((line = br.readLine()) != null) {

                // 调用map方法执行业务逻辑

                mapper.map(line, context);

            }

            // 关闭资源

            br.close();

            in.close();

        }

        // 如果用户输入的结果路径不存在 则创建一个

        Path out = new Path("/wc/out/");

        if (!fs.exists(out)) {

            fs.mkdirs(out);

        }

        // 将缓存的结果放入hdfs中存储

        HashMap<Object, Object> contextMap = context.getContextMap();

        FSDataOutputStream out1 = fs.create(outPath);

        // 遍历hashmap

        Set<Entry<Object, Object>> entrySet = contextMap.entrySet();

        for (Entry<Object, Object> entry : entrySet) {

            // 写数据

            out1.write((entry.getKey().toString() + "\t" + entry.getValue() + "\n").getBytes());

        }

        // 关闭资源

        out1.close();

        fs.close();

        System.out.println("数据统计结果完成......");

    }

}

二、接口类

package com.css.hdfs;

/**

 * 思路：

 * 接口设计

 */

public interface Mapper {

    // 调用方法

    public void map(String line, Context context);

}

三、数据传输类

package com.css.hdfs;

import java.util.HashMap;

/**

 * 思路：

 * 数据传输的类

 * 封装数据

 * 集合

 * <单词,1>

 */

public class Context {

    // 数据封装

    private HashMap<Object, Object> contextMap = new HashMap<>();

    // 写数据

    public void write(Object key, Object value){

        // 放数据到map中

        contextMap.put(key, value);

    }

    // 定义根据key拿到值方法

    public Object get(Object key){

        return contextMap.get(key);

    }

    // 拿到map中的数据内容

    public HashMap<Object, Object> getContextMap(){

        return contextMap;

    }

}

四、单词计数类

package com.css.hdfs;

/**

 * 思路：

 * 添加一个map方法 单词切分 相同key的value ++

 */

public class WordCountMapper implements Mapper{

    @Override

    public void map(String line, Context context) {

        // 拿到这行数据 切分

        String[] words = line.split(" ");

        // 拿到单词 相同的key value++  hello 1 world 1

        for (String word : words) {

            Object value = context.get(word);

            if (null == value) {

                context.write(word, 1);

            }else {

                // 不为空

                int v = (int)value;

                context.write(word, v+1);

            }

        }

    }

}

五、配置文件job.properties

IN_PATH=/wc/in

OUT_PATH=/wc/out/rs.txt

MAPPER_CLASS=com.css.hdfs.WordCountMapper

HDFS 手写mapreduce单词计数框架的更多相关文章

Hadoop分布环境搭建步骤,及自带MapReduce单词计数程序实现
Hadoop分布环境搭建步骤: 1.软硬件环境 CentOS 7.2 64 位 JDK- 1.8 Hadoo p- 2.7.4 2.安装SSH sudo yum install openssh-cli ...
全命令行手写MapReduce并且打包运行
主要要讲的有3个 java中的package是干啥的? 工作了好几年的都一定真正理解java里面的package关键字,这里在写MapReduce需要进行打包的时候突然发现命令行下打包运行居然不会了, ...
纯手写SpringMVC到SpringBoot框架项目实战
引言 Spring Boot其设计目的是用来简化新Spring应用的初始搭建以及开发过程.该框架使用了特定的方式来进行配置,从而使开发人员不再需要定义样板化的配置. 通过这种方式,springboot ...
手写mini版MVC框架
目录 1, Springmvc基本原理流程 2,注解开发编写测试代码: 目录结构: 3,编写自定义DispatcherServlet中的初始化流程: 3.1 加载配置文件 3.2 扫描相关的类,扫描 ...
手写简易版RPC框架基于Socket
什么是RPC框架? RPC就是远程调用过程,实现各个服务间的通信,像调用本地服务一样. RPC有什么优点? - 提高服务的拓展性,解耦.- 开发人员可以针对模块开发,互不影响.- 提升系统的可维护性及 ...
swift项目第三天：手写代码搭建主框架
一:先配置环境:自定义Log输出(DEBUG 和 release模式),并屏蔽后台多余的打印信息 1:屏蔽后台多余的打印信息:如果写了OS_ACTIVITY_MODE = disable 还是不行.把 ...
手写ORM持久层框架（转）
工程结构: 本文测试的数据库为: 其中student的表结构为: 表数据: 配置文件 DB2.properties driver=com.mysql.jdbc.Driver url=jdbc\:mys ...
手写MyBatis ORM框架实践
一.实现手写Mybatis三个难点 1.接口既然不能被实例化?那么我们是怎么实现能够调用的? 2.参数如何和sql绑定 3.返回结果下面是Mybatis接口二.Demo实现 1.创建Maven工程 ...
手写一个简单到SpirngMVC框架
spring对于java程序员来说,无疑就是吃饭到筷子.在每次编程工作到时候,我们几乎都离不开它,相信无论过去,还是现在或是未来到一段时间,它仍会扮演着重要到角色.自己对spring有一定的自我见解, ...

随机推荐

Caliburn Micro框架快速上手（WP）
一.使用nuget添加起始工程二.修改App.xaml文件和App.xaml.cs文件 AppBootstrapper介绍: AppBootstrapper根据中文的直译可以 ...
Tablespace for table '`pomelo`.`bag`' exists. Please DISCARD the tablespace before IMPORT.
//遇到的问题是,删除数据库之后,重新创建数据库,在创建数据库表的时候,明明没有该表,却提示存在这个表.这是数据库缓存造成的 //解决方法 FLUSH TABLES; /* 安装MySql数据库(略) ...
微信小程序6 - 页面之间传参及通知系统封装
1. 简单传参 wx.navigateTo({ url: '/pages/demo/index/index?id=1' }) /pages/demo/index/index.js 中 onLoad(o ...
HTML5关于上传API的一些使用（上）
HTML5提供了很多有用的API,其中就包括上传的API,XMLHttpRequest2.0,在HTML5时代之前,需要进行二进制的上传一般都会才用flash的方案,但是当XMLHttpRequest ...
JSONObject与JSONArray
最近在学习过程中用到了稍微复杂点的json数据需要将json数据解析出来,这里就截取一部分作为例子 1.JSONObject介绍 JSONObject-lib包是一个beans,collections ...
求出每个team粉丝数最多的3个国家
有这么个表 fans(team,nationality,fanCount) 'Barcelona','Germany',12000'Barcelona','Spain',18000'Barcelona ...
漫游Kafka实战篇之搭建Kafka运行环境（2）
接下来一步一步搭建Kafka运行环境. Step 1: 下载Kafka 点击下载最新的版本并解压. > tar -xzf kafka_2.9.2-0.8.1.1.tgz > cd kafk ...
修改CFileDialog的标题
CFileDialog f(TRUE); f.m_ofn.lpstrTitle = "我的标题"; f.DoModal(); 设置标题! CFileDialog ...
《C++ Primer Plus》第8章函数探幽学习笔记
C++ 扩展了 C 语言的函数功能.通过将 inline 关键字用于函数定义,并在首次调用该函数前提供其函数定义,可以使得 C++ 编译器将该函数视为内联函数.也就是说,编译器不是让程序跳到独立的代码 ...
引入外部文件的时候为什么省略http:
[摘要]相信很多时候大家在使用网上的实例代码的时候,需要引入外部文件,然而它们通常都是省略了http:,这是为什么呢? 先给大家看一个简单的小例子,引入外部jquery文件: <script s ...

HDFS 手写mapreduce单词计数框架

HDFS 手写mapreduce单词计数框架的更多相关文章

随机推荐

热门专题