Hadoop基础-MapReduce的常用文件格式介绍

　　　　　　　　　　　　　　Hadoop基础-MapReduce的常用文件格式介绍　　

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

一.MR文件格式-SequenceFile

1>.生成SequenceFile文件（SequenceFileOutputFormat）

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models. It is designed to scale up from single servers to thousands of machines, each offering local computation and storage. Rather than rely on hardware to deliver high-availability, the library itself is designed to detect and handle failures at the application layer, so delivering a highly-available service on top of a cluster of computers, each of which may be prone to failures.

word.txt 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.sequencefile.output;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 import java.io.IOException;

 public class SeqMapper extends Mapper<LongWritable, Text , LongWritable, Text> {

     @Override

     protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

         context.write(key,value);

     }

 }

SeqMapper.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.sequencefile.output;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.SequenceFile;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;

 /**

  * 把wc.txt变为SequenceFile

  * k-偏移量-LongWritable

  * v-一行文本-Text

  */

 public class SeqApp {

     public static void main(String[] args) throws Exception {

         Configuration conf = new Configuration();

         conf.set("fs.defaultFS","file:///");

         FileSystem fs = FileSystem.get(conf);

         Job job = Job.getInstance(conf);

         job.setJobName("Seq-Out");

         job.setJarByClass(SeqApp.class);

         //设置输出格式，这里的输出格式要和咱们Mapper程序的格式要一致哟！

         job.setOutputKeyClass(LongWritable.class);

         job.setOutputValueClass(Text.class);

         job.setMapperClass(SeqMapper.class);

         FileInputFormat.addInputPath(job, new Path("D:\\10.Java\\IDE\\yhinzhengjieData\\MyHadoop\\word.txt"));

         Path outPath = new Path("D:\\10.Java\\IDE\\yhinzhengjieData\\MyHadoop\\seqout");

         if (fs.exists(outPath)){

             fs.delete(outPath);

         }

         FileOutputFormat.setOutputPath(job,outPath);

         //设置文件输出格式为SequenceFile

         job.setOutputFormatClass(SequenceFileOutputFormat.class);

         //设置SeqFile的压缩类型为块压缩

         SequenceFileOutputFormat.setOutputCompressionType(job,SequenceFile.CompressionType.BLOCK);

         //以上设置参数完毕后，我们通过下面这行代码就开始运行job

         job.waitForCompletion(true);

     }

 }

　　运行以上代码之后，我们可以去输出目录通过hdfs命令查看生成的SequenceFile文件内容，具体操作如下：

2>.对SequenceFile文件进行单词统计测试（SequenceFileInputFormat）

　　我们就不用去可以找具体的SequenceFile啦，我们直接用上面生成的Sequence进行测试，具体代码如下：

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.sequencefile.input;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 import java.io.IOException;

 public class SeqMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

     @Override

     protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

         String line = value.toString();

         String[] arr = line.split(" ");

         for(String word: arr){

             context.write(new Text(word),new IntWritable(1));

         }

     }

 }

SeqMapper.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.sequencefile.input;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Reducer;

 import java.io.IOException;

 public class SeqReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

     protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

         Integer sum = 0;

         for (IntWritable value : values) {

             sum += value.get();

         }

         context.write(key, new IntWritable(sum));

     }

 }

SeqReducer.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.sequencefile.input;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.FileSystem;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class SeqApp  {

     public static void main(String[] args) throws Exception {

         Configuration conf = new Configuration();

         conf.set("fs.defaultFS","file:///");

         FileSystem fs = FileSystem.get(conf);

         Job job = Job.getInstance(conf);

         job.setJobName("Seq-in");

         job.setJarByClass(SeqApp.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(IntWritable.class);

         job.setMapperClass(SeqMapper.class);

         job.setReducerClass(SeqReducer.class);

         //将我们生成的SequenceFile文件作为输入

         FileInputFormat.addInputPath(job, new Path("D:\\10.Java\\IDE\\yhinzhengjieData\\MyHadoop\\seqout"));

         Path outPath = new Path("D:\\10.Java\\IDE\\yhinzhengjieData\\MyHadoop\\out");

         if (fs.exists(outPath)){

             fs.delete(outPath);

         }

         FileOutputFormat.setOutputPath(job, outPath);

         //设置输入格式

         job.setInputFormatClass(SequenceFileInputFormat.class);

         //以上设置参数完毕后，我们通过下面这行代码就开始运行job

         job.waitForCompletion(true);

     }

 }

　　运行以上代码之后，我们可以查看输出的单词统计情况，具体操作如下：

二.MR文件格式-DB

1>.创建数据库表信息

create database yinzhengjie;

use yinzhengjie;

create table wordcount(id int,line varchar(100));

insert into wordcount values(1,'hello my name is yinzhengjie');

insert into wordcount values(2,'I am a good boy');

create table wordcount2(word varchar(100),count int);

2>.编写代码

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.dbformat;

 import org.apache.hadoop.io.Writable;

 import org.apache.hadoop.mapreduce.lib.db.DBWritable;

 import java.io.DataInput;

 import java.io.DataOutput;

 import java.io.IOException;

 import java.sql.PreparedStatement;

 import java.sql.ResultSet;

 import java.sql.SQLException;

 /**

  *  设置数据对应的格式，需要实现两个接口，即Writable, DBWritable。

  */

 public class MyDBWritable implements Writable, DBWritable {

     //注意 : 这里我们定义了2个私有属性，这两个属性分别对应的数据库中的字段，id和line

     private int id;

     private String line;

     //wrutable串行化

     public void write(DataOutput out) throws IOException {

         out.writeInt(id);

         out.writeUTF(line);

     }

     //writable反串行化，注意反串行化的顺序要和串行化的顺序保持一致

     public void readFields(DataInput in) throws IOException {

         id = in.readInt();

         line = in.readUTF();

     }

     //DB串行化，设置值的操作

     public void write(PreparedStatement st) throws SQLException {

         //指定表中的第一列为id列

         st.setInt(1, id);

         //指定表中的第二列为line列

         st.setString(2,line);

     }

     //DB反串行，赋值操作

     public void readFields(ResultSet rs) throws SQLException {

         //读取数据库的第一列，我们赋值给id

         id = rs.getInt(1);

         //读取数据库的第二列，我们赋值给line

         line = rs.getString(2);

     }

     public int getId() {

         return id;

     }

     public void setId(int id) {

         this.id = id;

     }

     public String getLine() {

         return line;

     }

     public void setLine(String line) {

         this.line = line;

     }

 }

MyDBWritable.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.dbformat;

 import org.apache.hadoop.io.Writable;

 import org.apache.hadoop.mapreduce.lib.db.DBWritable;

 import java.io.DataInput;

 import java.io.DataOutput;

 import java.io.IOException;

 import java.sql.PreparedStatement;

 import java.sql.ResultSet;

 import java.sql.SQLException;

 public class MyDBWritable2 implements Writable, DBWritable {

     //这两个属性分别对应的数据库中的字段，word和count分别对应的是输出表中的字段哟。

     private String word;

     private int count;

     //wrutable串行化

     public void write(DataOutput out) throws IOException {

         out.writeUTF(word);

         out.writeInt(count);

     }

     //writable反串行化

     public void readFields(DataInput in) throws IOException {

         word = in.readUTF();

         count = in.readInt();

     }

     //DB串行化

     public void write(PreparedStatement st) throws SQLException {

         st.setString(1,word);

         st.setInt(2,count);

     }

     //DB反串行

     public void readFields(ResultSet rs) throws SQLException {

         word = rs.getString(1);

         count = rs.getInt(2);

     }

     public String getWord() {

         return word;

     }

     public void setWord(String word) {

         this.word = word;

     }

     public int getCount() {

         return count;

     }

     public void setCount(int count) {

         this.count = count;

     }

 }

MyDBWritable2.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.dbformat;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 import java.io.IOException;

 /**

  * 注意MyDBWritable为数据库输入格式哟

  */

 public class DBMapper extends Mapper<LongWritable, MyDBWritable, Text, IntWritable> {

     @Override

     protected void map(LongWritable key, MyDBWritable value, Context context) throws IOException, InterruptedException {

         String line = value.getLine();

         String[] arr = line.split(" ");

         for(String word : arr){

             context.write(new Text(word), new IntWritable(1));

         }

     }

 }

DBMapper.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.dbformat;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.NullWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Reducer;

 import java.io.IOException;

 public class DBReducer extends Reducer<Text, IntWritable, MyDBWritable2, NullWritable> {

     protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

         Integer sum = 0;

         for (IntWritable value : values) {

             sum += value.get();

         }

         MyDBWritable2 db = new MyDBWritable2();

         //设置需要往数据表中写入数据的值

         db.setWord(key.toString());

         db.setCount(sum);

         //将数据写到到数据库中

         context.write(db,NullWritable.get());

     }

 }

DBReducer.java 文件内容

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E8%BF%9B%E9%98%B6%E4%B9%8B%E8%B7%AF/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.dbformat;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.db.DBConfiguration;

 import org.apache.hadoop.mapreduce.lib.db.DBInputFormat;

 import org.apache.hadoop.mapreduce.lib.db.DBOutputFormat;

 public class DBApp {

     public static void main(String[] args) throws Exception {

         Configuration conf = new Configuration();

         conf.set("fs.defaultFS","file:///");

         Job job = Job.getInstance(conf);

         job.setJobName("DB");

         job.setJarByClass(DBApp.class);

         job.setOutputKeyClass(Text.class);

         job.setOutputValueClass(IntWritable.class);

         job.setMapperClass(DBMapper.class);

         job.setReducerClass(DBReducer.class);

         String driver = "com.mysql.jdbc.Driver";

         String url = "jdbc:mysql://192.168.0.254:5200/yinzhengjie";

         String name = "root";

         String pass = "yinzhengjie";

         DBConfiguration.configureDB(job.getConfiguration(), driver, url, name, pass);

         DBInputFormat.setInput(job, MyDBWritable.class,"select * from wordcount", "select count(*) from wordcount");

         //指定表名为“wordcount2”并指定字段为2

         DBOutputFormat.setOutput(job,"wordcount2",2);

         //指定输入输出格式

         job.setInputFormatClass(DBInputFormat.class);

         job.setOutputFormatClass(DBOutputFormat.class);

         job.waitForCompletion(true);

     }

 }

　运行以上代码之后，我们可以查看数据库wordcount2表中的数据是否有新的数据生成，具体操作如下：

Hadoop基础-MapReduce的常用文件格式介绍的更多相关文章

Hadoop基础-MapReduce入门篇之编写简单的Wordcount测试代码
Hadoop基础-MapReduce入门篇之编写简单的Wordcount测试代码作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 本文主要是记录一写我在学习MapReduce时的一些 ...
Hadoop基础-MapReduce的工作原理第二弹
Hadoop基础-MapReduce的工作原理第二弹作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Split(切片) 1>.MapReduce处理的单位(切片) 想必 ...
Hadoop基础-MapReduce的Join操作
Hadoop基础-MapReduce的Join操作作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.连接操作Map端Join(适合处理小表+大表的情况) no001 no002 ...
Hadoop基础-MapReduce的排序
Hadoop基础-MapReduce的排序作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.MapReduce的排序分类 1>.部分排序部分排序是对单个分区进行排序,举个 ...
Hadoop基础-MapReduce的数据倾斜解决方案
Hadoop基础-MapReduce的数据倾斜解决方案作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.数据倾斜简介 1>.什么是数据倾斜答:大量数据涌入到某一节点,导致 ...
Hadoop基础-MapReduce的Partitioner用法案例
Hadoop基础-MapReduce的Partitioner用法案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.Partitioner关键代码剖析 1>.返回的分区号 ...
Hadoop基础-MapReduce的Combiner用法案例
Hadoop基础-MapReduce的Combiner用法案例作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.编写年度最高气温统计如上图说所示:有一个temp的文件,里面存放 ...
Hadoop基础-MapReduce的工作原理第一弹
Hadoop基础-MapReduce的工作原理第一弹作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 在本篇博客中,我们将深入学习Hadoop中的MapReduce工作机制,这些知识 ...
openresty开发系列13--lua基础语法2常用数据类型介绍
openresty开发系列13--lua基础语法2常用数据类型介绍一)boolean(布尔)布尔类型,可选值 true/false: Lua 中 nil 和 false 为"假" ...

随机推荐

CDH上Cloudera Management Service 各个角色迁移至其他节点
1.首先查看Cloudera Management Service下有哪些服务,cdh版本为5.9.2: 可以看到基本上有以上6个角色: 2.停止所有角色,并执行删除: 3.找到集群中另外一个节点,添 ...
vue基础项目安装教程
安装node.js 从node.js官网下载并安装node,安装过程很简单,一路“下一步”就可以了. 安装完成之后,打开命令行工具,输入 node -v,如下图,如果出现相应的版本号,则说明安装成功. ...
【DDD】业务建模实践 —— 发布帖子
本文是基于上一篇‘业务建模战术’的实践,主要讲解‘发表帖子’场景的业务建模,包括:业务建模.业务模型.示例代码:示例代码会使用java编写,文末附有github地址.相比于<领域驱动设计> ...
Markdown语言学习
看够了单一的文本文档么?或者写一个word各种调整样式?试试Markdown吧! Markdown是一种文本标记语言,通过简单的标记语法,使单一的文本内容具有一定的格式. 下面来看看常用的各种标记吧 ...
Selenium+Python自动化测试环境搭建和搭建过程遇到的问题解决
环境搭建: 第一步:安装Python 网址:https://www.python.org/ 按照如图提示安装,并且配置环境变量(安装时候选中pip会自动安装Python的包管理工具 pip,推荐选择 ...
PAT甲级题解-1047. Student List for Course (25)-排序
一开始是建立了course[2501][40001]数组,存储每节课的学生编号然后for循环两层输出,但这样复杂度为O(2500*40000),也很明显导致最后时间超时后来发现最多40000学生,每个 ...
爬虫项目之NABC
Need 在如今的互联网市场上相关的网络爬虫软件已然很多,要想赢得客户,高效.稳定.创新都必不可少的. 我们初步阅读和运行了上一届团队的项目,决定从以下几个方面修改和完善创新这一项目: 1.改善对爬取 ...
20135202闫佳歆--week6 课本第三章学习笔记
第三章进程管理一.进程 1.进程进程就是处于执行期的程序. 进程就是正在执行的程序代码的实时结果. 进程是处于执行期的程序以及相关的资源的总称. 进程包括代码段和其他资源. 2.线程执行线程, ...
20135202闫佳歆--week5 课本18章学习笔记
第十八章调试内核级开发的调试工作远比用户级开发艰难的多. 一.准备开始准备工作需要的是: 一个bug 一个藏匿bug的内核版本相关内核代码的知识和运气在这一章里,调试的主要思想是让bug重现 ...
ffmpeg格式转换
遇到有些wav文件在ubuntu下无法打开的情况,可以使用ffmpeg进行格式转换即可 ffmpeg -i 0.wav test.wav

Hadoop基础-MapReduce的常用文件格式介绍

Hadoop基础-MapReduce的常用文件格式介绍的更多相关文章

随机推荐

热门专题