Hadoop生态圈-HBase的HFile创建方式

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　　作者：尹正杰

　　废话不多说，直接上代码，想说的话都在代码的注释里面。

一.环境准备

list

create 'yinzhengjie:WordCount3','f1','f2'

list

desc 'yinzhengjie:WordCount3'

scan 'yinzhengjie:WordCount3'

二.编写HFile创建方式的代码

1>.编写Map端代码

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.hbase.hfile;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.LongWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Mapper;

 import java.io.IOException;

 public class HFileOutputMapper extends Mapper<LongWritable, Text, Text, IntWritable> {

     @Override

     protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

         //得到一行数据

         String line = value.toString();

         String[] arr = line.split(" ");

         //

         for (String word : arr){

             context.write(new Text(word),new IntWritable(1));

         }

     }

 }

2>.编写Reducer端代码

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.hbase.hfile;

 import org.apache.hadoop.hbase.Cell;

 import org.apache.hadoop.hbase.CellUtil;

 import org.apache.hadoop.hbase.KeyValue;

 import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

 import org.apache.hadoop.hbase.util.Bytes;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Reducer;

 import java.io.IOException;

 public class HFileOutputReducer extends Reducer<Text,IntWritable,ImmutableBytesWritable,Cell> {

     @Override

     protected void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {

         int sum = 0;

         for (IntWritable value : values) {

             sum += value.get();

         }

         if(key.toString().length() > 0){

             ImmutableBytesWritable outKey = new ImmutableBytesWritable(Bytes.toBytes(key.toString()));

             //创建cell

             Cell cell = CellUtil.createCell(Bytes.toBytes(key.toString()),

                     Bytes.toBytes("f1"), Bytes.toBytes("count"),System.currentTimeMillis(),

                     KeyValue.Type.Minimum,Bytes.toBytes(sum+""),null);

             context.write(outKey,cell);

         }

     }

 }

3>.编写主程序代码

 /*

 @author :yinzhengjie

 Blog:http://www.cnblogs.com/yinzhengjie/tag/Hadoop%E7%94%9F%E6%80%81%E5%9C%88/

 EMAIL:y1053419035@qq.com

 */

 package cn.org.yinzhengjie.hbase.hfile;

 import org.apache.hadoop.conf.Configuration;

 import org.apache.hadoop.fs.Path;

 import org.apache.hadoop.hbase.Cell;

 import org.apache.hadoop.hbase.HBaseConfiguration;

 import org.apache.hadoop.hbase.HTableDescriptor;

 import org.apache.hadoop.hbase.TableName;

 import org.apache.hadoop.hbase.client.Connection;

 import org.apache.hadoop.hbase.client.ConnectionFactory;

 import org.apache.hadoop.hbase.io.ImmutableBytesWritable;

 import org.apache.hadoop.hbase.mapreduce.HFileOutputFormat2;

 import org.apache.hadoop.io.IntWritable;

 import org.apache.hadoop.io.Text;

 import org.apache.hadoop.mapreduce.Job;

 import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

 import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

 public class App {

     public static void main(String[] args) throws Exception {

         System.setProperty("HADOOP_USER_NAME", "yinzhengjie");

         Configuration conf = HBaseConfiguration.create();

         conf.set("fs.defaultFS","file:///");

         Connection conn = ConnectionFactory.createConnection(conf);

         Job job = Job.getInstance(conf);

         job.setJobName("HFile WordCount");

         job.setJarByClass(App.class);

         job.setMapperClass(HFileOutputMapper.class);

         job.setReducerClass(HFileOutputReducer.class);

         //设置输出格式

         job.setOutputFormatClass(HFileOutputFormat2.class);

         //设置路径

         FileInputFormat.addInputPath(job,new Path("file:///D:\\BigData\\yinzhengjieData\\word.txt"));

         FileOutputFormat.setOutputPath(job,new Path("file:///D:\\BigData\\yinzhengjieData\\hfile"));

         //设置输出k-v

         job.setOutputKeyClass(ImmutableBytesWritable.class);

         job.setOutputValueClass(Cell.class);

         //设置map端输出k-v

         job.setMapOutputKeyClass(Text.class);

         job.setMapOutputValueClass(IntWritable.class);

         /**

          *      配置和"yinzhengjie:WordCount3"进行关联，也就是说"yinzhengjie:WordCount3"这个表必须在HBase数据库中存在，

          * 实际操作是以"yinzhengjie:WordCount3"为模板，便于生成HFile文件！

          */

         HFileOutputFormat2.configureIncrementalLoad(job, new HTableDescriptor(TableName.valueOf("yinzhengjie:WordCount3")),

                 conn.getRegionLocator(TableName.valueOf("yinzhengjie:WordCount3")) );

         job.waitForCompletion(true);

     }

 }

4>.查看测试结果

Hadoop生态圈-HBase的HFile创建方式的更多相关文章

Hadoop生态圈-基于yum源的方式部署Cloudera Manager5.15.1
Hadoop生态圈-基于yum源的方式部署Cloudera Manager5.15.1 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 我之前分享过关于离线方式部署Cloudera ...
Hadoop生态圈-hbase介绍-伪分布式安装
Hadoop生态圈-hbase介绍-伪分布式安装作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.HBase简介 HBase是一个分布式的,持久的,强一致性的存储系统,具有近似最 ...
Hadoop生态圈-HBase性能优化
Hadoop生态圈-HBase性能优化作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop生态圈-Hbase的协处理器(coprocessor)应用
Hadoop生态圈-Hbase的协处理器(coprocessor)应用作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop生态圈-Hbase的rowKey设计原则
Hadoop生态圈-Hbase的rowKey设计原则作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop生态圈-Hbase的Region详解
Hadoop生态圈-Hbase的Region详解作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop生态圈-Hbase过滤器（Filter）
Hadoop生态圈-Hbase过滤器(Filter) 作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop生态圈-Hbase的API常见操作
Hadoop生态圈-Hbase的API常见操作作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.
Hadoop生态圈-hbase常用命令
Hadoop生态圈-hbase常用命令作者:尹正杰版权声明:原创作品,谢绝转载!否则将追究法律责任.

随机推荐

我现在对Git的认识
由于时间关系,我还没能真正的了解什么是Git,只是大致的了解了一下,并且在网上查阅了资料,做了一些总结,以便进一步研读. Git是一款免费.开源的分布式版本控制系统,用于敏捷高效地处理任何或小或大的项 ...
printf in KEIL C51
转自:http://blog.csdn.net/it1988888/article/details/8821713 在keil中printf默认是向串口中发送数据的,所以,如果应用该函数,必须先初始化 ...
Linux操作系统（二）
SSD工作原理:http://www.360doc.com/content/15/0318/15/16824943_456186965.shtml HHD工作原理:http://blog.csdn.n ...
未能加载文件或程序集“Microsoft.ReportViewer.WebForms, Version=10.0.0.0, Culture=neutral, PublicKeyToken=b03f5f7f11d50a3a”或它的某一个依赖项。系统找不到指定的文件
发布的打包项目在本机测试好使,部署到客户服务器上报错分析器错误消息: 未能加载文件或程序集“Microsoft.ReportViewer.WebForms, Version=10.0.0.0, Cu ...
014 C语言文法定义与C程序的推导过程
HDU 2123 An easy problem
http://acm.hdu.edu.cn/showproblem.php?pid=2123 Problem Description In this problem you need to make ...
SEO优化之HTML代码优化最重要的5个标签
众所周知,HTML代码一直是搜索引擎抓取的重点.搜索引擎会将HTML中的某些元素标签作为影响网页排名的重要依据在我们之前的文章中也或多或少地向大家介绍了有关HTML代码的优化技巧,接下来将系统地讲解 ...
notepad++ 安装go插件
1. 想学习go语言使用notepad++ 但是发现无法安装 gonpp的插件花了很长时间. 发现问题为: 前几天将notepad++ 升级到了 7.6 的版本然后使用 plugin manag ...
spring ioc和aop的理解
IOC,依赖倒置的意思,所谓依赖,从程序的角度看,就是比如A要调用B的方法,那么A就依赖于B,反正A要用到B,则A依赖于B.所谓倒置,你必须理解如果不倒置,会怎么着,因为A必须要有B,才可以调用B,如 ...
初入码田--ASP.NET MVC4 Web应用之创建一个空白的MVC应用程序
初入码田--ASP.NET MVC4 Web应用开发之一实现简单的登录初入码田--ASP.NET MVC4 Web应用开发之二实现简单的增删改查 2016-07-29 在此之前,需要一台电脑( ...

Hadoop生态圈-HBase的HFile创建方式

Hadoop生态圈-HBase的HFile创建方式的更多相关文章

随机推荐

热门专题