个人Hadoop编程代码记录

**WordCount

package cn.cpl.recom;

import java.io.IOException;

import java.util.StringTokenizer;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.IntWritable;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class WordCount extends Configured implements Tool{

static class WordCountMapper

extends Mapper<LongWritable, Text, Text, IntWritable>{

// 统计使用变量

private final static IntWritable one=

new IntWritable(1);

// 单词变量

private Text word=new Text();

	/**

	 * key:当前读取行的偏移量

	 * value：当前读取的行

	 * context:map方法执行时上下文

	 */

	@Override

	protected void map(LongWritable key, Text value, Context context)

			throws IOException, InterruptedException {

		// TODO Auto-generated method stub

		StringTokenizer words=

				new StringTokenizer(value.toString(), " ");

		while(words.hasMoreTokens()){

			word.set(words.nextToken());

			context.write(word, one);

		}

	}

}

static class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable>{

	private IntWritable counter = new IntWritable();

	/**

	 * key:待统计的word

	 * values:待统计word的所有统计标识

	 * context:reduce方法执行时的上下文

	 */

	@Override

	protected void reduce(Text key,

			Iterable<IntWritable> values,

			Reducer<Text, IntWritable, Text, IntWritable>.Context context) throws IOException, InterruptedException {

		// TODO Auto-generated method stub

		int count=0;

		for(IntWritable one:values){

			count+=one.get();

		}

		counter.set(count);

		context.write(key, counter);

	}

}

// @Override

public int run(String[] args) throws Exception {

//获得程序运行时的配置信息

Configuration conf=getConf();

String inputPath=conf.get("input");

String outputPath=conf.get("output");

	//构建新的作业

	Job job = Job.getInstance(conf, "Word Frequence Count");

	job.setJarByClass(WordCount.class);

	//给job设置mapper类及map方法输出的键值类型

	job.setMapperClass(WordCountMapper.class);

	job.setMapOutputKeyClass(Text.class);

	job.setMapOutputValueClass(IntWritable.class);

	//给job设置reducer类及reduce方法输出的键值类型

	job.setReducerClass(WordCountReducer.class);

	job.setOutputKeyClass(Text.class);

	job.setOutputValueClass(IntWritable.class);

	//设置数据的读取方式（文本文件）及结果的输出方式（文本文件）

	job.setInputFormatClass(TextInputFormat.class);

	job.setOutputFormatClass(TextOutputFormat.class);

	//设置输入和输出目录

	TextInputFormat.addInputPath(job, new Path(inputPath));

	TextOutputFormat.setOutputPath(job, new Path(outputPath));

	//将作业提交集群执行

	return job.waitForCompletion(true)?0:1;

}

public static void main(String[] args) throws Exception{

	int status = ToolRunner.run(new WordCount(), args);

	System.exit(status);

}

}

**删除文件夹

public static void rmr(String folder,Configuration conf) throws IOException {

Path path = new Path(folder);

FileSystem fs = FileSystem.get(conf);

fs.deleteOnExit(path);

System.out.println("Delete: " + folder);

fs.close();

}

个人Hadoop编程代码记录的更多相关文章

hadoop编程技巧（6）---处理大量的小型数据文件CombineFileInputFormat申请书
代码测试环境:Hadoop2.4 应用场景:当需要处理非常多的小数据文件,这种技术的目的,可以被应用到实现高效的数据处理. 原理:申请书CombineFileInputFormat,能够进行切片合并的 ...
Windows下Hadoop编程环境配置指南
刘勇 Email: lyssym@sina.com 本博客记录作者在工作与研究中所经历的点滴,一方面给自己的工作与生活留下印记,另一方面若是能对大家有所帮助,则幸甚至哉矣! 简介鉴于最近在研究 ...
大数据学习笔记——Hadoop编程实战之Mapreduce
Hadoop编程实战——Mapreduce基本功能实现此篇博客承接上一篇总结的HDFS编程实战,将会详细地对mapreduce的各种数据分析功能进行一个整理,由于实际工作中并不会过多地涉及原理,因此 ...
MVVM 代码记录
一.XML <Page x:Class="MVVM.MainPage" xmlns="http://schemas.microsoft.com/winfx/20 ...
php数组转成php编程代码
将php数组转成可以在php上面运行的编程代码,支持一维及多维数组 <?php //一维数组 $test1 = array(1,2,3); //二维数组 $test2[0] = array( ' ...
hadoop编程：分析CSDN注冊邮箱分布情况
版权声明:本文为博主原创文章,未经博主同意不得转载. https://blog.csdn.net/jdh99/article/details/37565825 hadoop编程:分析CSDN注冊邮箱分 ...
Hadoop运维记录系列
http://slaytanic.blog.51cto.com/2057708/1038676 Hadoop运维记录系列(一) Hadoop运维记录系列(二) Hadoop运维记录系列(三) Hado ...
Atitit.uml2 api 的编程代码实现设计uml开发使用eclipse jar java 版本
Atitit.uml2 api 的编程代码实现设计uml开发使用eclipse jar java 版本 1. clipse提供了UML的底层Java包, 1 2. MDTUML2Getting St ...
hadoop编程小技巧（5）---自定义输入文件格式类InputFormat
Hadoop代码测试环境:Hadoop2.4 应用:在对数据需要进行一定条件的过滤和简单处理的时候可以使用自定义输入文件格式类. Hadoop内置的输入文件格式类有: 1)FileInputForma ...

随机推荐

oracle 处理锁表sql
declare --类型定义 cursor c_cur is --查询锁表进程 SELECT object_name, machine, s.sid, s.serial# FROM gv$locked ...
(转)linux基本变量学习：位置变量$0 、$1 shift轮替、本地变量、环境变量、特殊变量
原文:http://blog.51cto.com/woyaoxuelinux/1863045 shell: 弱类型编程语言强:变量在使用前,必须事先声明,甚至还需要初始化: 弱:变量用时声明,甚至不 ...
谈 Python 程序和 C 程序的整合（转载）
http://www.ibm.com/developerworks/cn/linux/l-cn-pythonandc/ 概览 Python 是一种用于快速开发软件的编程语言,它的语法比较简单,易于掌握 ...
JavaScript Ajax 实现学习
创建异步对象: function createXmlHttp(){ var xhobj=false; try{ xhobj=new ActiveXObject("Msxml2.XMLHTTP ...
git学习笔记6
打标签 git tag -m "Say bye-bye to all previous practice." old_practice //引号里是注释本地删除不是真的删除,对暂 ...
[Unity3D]Shader编程之动态屏幕遮罩
转载 https://blog.csdn.net/u012741077/article/details/78425834 屏幕可视范围跟随目标物体移动,可修改可视范围大小,边缘渐变大小.以及遮罩颜色, ...
wordpress编辑器选择ckeditor、ckfinder
CKEditor for WordPress 搜索安装上传功能需要ckfinder 下载 CKFinder for PHP: http://ckfinder.com/download 上传ckfin ...
RabbitMQ入门-理论
目录 RabbitMQ简介 RabbitMQ原理简介 RabbitMQ安装 .NET Core 使用 RabbitMQ Hello World 工作队列扇型交换机直连交换机主题交换机远程过程调 ...
压缩图片或pdf
压缩图片或pdf { /// <summary> /// 压缩图片或pdf大小的Level /// </summary> public enum ReduceSizeLevel ...
查询数据库的所有列信息 sys.all_columns
一.Database.sys.tables 为每个表对象返回一行,当前仅用于 sys.objects.type = U 的表对象. 列名数据类型说明 <继承的列> 有关此视图所继承 ...

个人Hadoop编程代码记录

个人Hadoop编程代码记录的更多相关文章

随机推荐

热门专题