hadoop执行hdfs文件到hbase表插入操作(xjl456852原创)
本例中需要将hdfs上的文本文件,解析后插入到hbase的表中.
create 'ns2:user', 'info'
1,xiejl,202,haha,303,liudehua,404,daoming,41
[hadoop@master ~]$ hdfs classpath
package com.xjl456852.mapreduce;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.hbase.mapreduce.TableOutputFormat;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import java.io.IOException;/*** 将hdfs中的文本文件写入到hbase的表中* 程序的运行需要加入hadoop的配置文件和hbase的配置文件到jar包中* 对应的hbase的表* create 'ns2:user','info'** Created by xiejl on 2016/8/10.*/public class HBaseApp {public static void main(String [] args) {try {Job job = Job.getInstance();job.setJobName("text into hbase table");job.setJarByClass(HBaseApp.class);FileInputFormat.addInputPath(job, new Path(args[0]));//设置表名job.getConfiguration().set(TableOutputFormat.OUTPUT_TABLE, args[1]);//设置输出格式为tablejob.setOutputFormatClass(TableOutputFormat.class);//设置输出的key类型为ImmutableBytesWritablejob.setOutputKeyClass(ImmutableBytesWritable.class);//设置输出的value类型为Putjob.setOutputValueClass(Put.class);//因为map输出key和reduce输出的key类型不一致,所以需要再设置map的key输出类型为Textjob.setMapOutputKeyClass(Text.class);//因为map输出value和reduce输出的value类型不一致,所以需要再设置map的value输出类型为Textjob.setMapOutputValueClass(Text.class);//Mapperjob.setMapperClass(MyMapper.class);//Reducerjob.setReducerClass(MyReducer.class);System.exit(job.waitForCompletion(true) ? 0 : 1);} catch (InterruptedException e) {e.printStackTrace();} catch (IOException e) {e.printStackTrace();} catch (ClassNotFoundException e) {e.printStackTrace();}}}
package com.xjl456852.mapreduce;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;/*** Created by xiejl on 2016/8/10.*/public class MyMapper extends Mapper<LongWritable, Text, Text, Text> {@Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {String line = value.toString();int index = line.indexOf(",");String rowKey = line.substring(0, index);//跳过逗号String valueLine = line.substring(index+1);context.write(new Text(rowKey), new Text(valueLine));}}
package com.xjl456852.mapreduce;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.hbase.util.Bytes;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;import java.io.IOException;/*** Created by xiejl on 2016/8/11.*/public class MyReducer extends Reducer<Text, Text, ImmutableBytesWritable, Put> {@Overrideprotected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {byte[] rowKey = Bytes.toBytes(key.toString());for(Text text : values) {//设置put对象的行键Put put = new Put(rowKey);String line = text.toString();int index = line.indexOf(",");String name = line.substring(0, index);String age = line.substring(index+1);//列族的是建表时固定的,列和值是插入时添加的.put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"),Bytes.toBytes(name));put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("age"),Bytes.toBytes(age));context.write(new ImmutableBytesWritable(Bytes.toBytes(key.toString())), put);}}}
将HBase的类jar包加到hadoop的classpath下, 修改${HADOOP_HOME}/etc/hadoop/hadoop-env.sh。配置好这个文件,分发到各个节点,改这个配置不用重启集群.
TEMP=`ls /opt/modules/hbase/lib/*.jar`HBASE_JARS=`echo $TEMP | sed 's/ /:/g'`HADOOP_CLASSPATH=$HBASE_JARS
<property><name>yarn.application.classpath</name><value>/opt/modules/hadoop/etc/*,/opt/modules/hadoop/etc/hadoop/*,/opt/modules/hadoop/lib/*,/opt/modules/hadoop/share/hadoop/common/*,/opt/modules/hadoop/share/hadoop/common/lib/*,/opt/modules/hadoop/share/hadoop/mapreduce/*,/opt/modules/hadoop/share/hadoop/mapreduce/lib/*,/opt/modules/hadoop/share/hadoop/hdfs/*,/opt/modules/hadoop/share/hadoop/hdfs/lib/*,/opt/modules/hadoop/share/hadoop/yarn/*,/opt/modules/hadoop/share/hadoop/yarn/lib/*,/opt/modules/hbase/lib/*</value></property>
hadoop jar hbase.jar com.xjl456852.mapreduce.HBaseApp data/hbase_input ns2:user
hbase(main):001:0> scan 'ns2:user'ROW COLUMN+CELL1 column=info:age, timestamp=1470966325326, value=201 column=info:name, timestamp=1470966325326, value=xiejl2 column=info:age, timestamp=1470966325326, value=302 column=info:name, timestamp=1470966325326, value=haha3 column=info:age, timestamp=1470966325326, value=403 column=info:name, timestamp=1470966325326, value=liudehua4 column=info:age, timestamp=1470966325326, value=414 column=info:name, timestamp=1470966325326, value=daoming4 row(s) in 0.3100 seconds
package com.xjl456852.mapreduce;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop.hbase.io.ImmutableBytesWritable;import org.apache.hadoop.hbase.mapreduce.TableReducer;import org.apache.hadoop.hbase.util.Bytes;import org.apache.hadoop.io.Text;import java.io.IOException;/*** 如果继承TableReducer,从源码中可以看到,输出的value是Mutation类型,也就是输出的值可以是Put,Delete之类的类型* Created by xiejl on 2016/8/11.*/public class MyReducer2 extends TableReducer<Text, Text, ImmutableBytesWritable> {@Overrideprotected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {byte[] rowKey = Bytes.toBytes(key.toString());for(Text text : values) {//设置put对象的行键Put put = new Put(rowKey);String line = text.toString();int index = line.indexOf(",");String name = line.substring(0, index);String age = line.substring(index+1);//列族的是建表时固定的,列和值是插入时添加的.put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"),Bytes.toBytes(name));put.addColumn(Bytes.toBytes("info"), Bytes.toBytes("age"),Bytes.toBytes(age));context.write(new ImmutableBytesWritable(Bytes.toBytes(key.toString())), put);}context.getCounter("reduce", "over").increment(1);}}
hadoop执行hdfs文件到hbase表插入操作(xjl456852原创)的更多相关文章
- BulkLoad加载本地文件到HBase表
BulkLoad加载文件到HBase表 1.功能 将本地数据导入到HBase中 2.原理 BulkLoad会将tsv/csv格式的文件编程hfile文件,然后再进行数据的导入,这样可以避免大量数据导入 ...
- Hadoop之HDFS文件操作常有两种方式(转载)
摘要:Hadoop之HDFS文件操作常有两种方式,命令行方式和JavaAPI方式.本文介绍如何利用这两种方式对HDFS文件进行操作. 关键词:HDFS文件 命令行 Java API HD ...
- Hadoop之HDFS文件操作
摘要:Hadoop之HDFS文件操作常有两种方式.命令行方式和JavaAPI方式.本文介绍怎样利用这两种方式对HDFS文件进行操作. 关键词:HDFS文件 命令行 Java API HD ...
- HDFS文件和HIVE表的一些操作
1. hadoop fs -ls 可以查看HDFS文件 后面不加目录参数的话,默认当前用户的目录./user/当前用户 $ hadoop fs -ls 16/05/19 10:40:10 WARN ...
- hadoop的hdfs文件操作实现上传文件到hdfs
这篇文章主要介绍了使用hadoop的API对HDFS上的文件访问,其中包括上传文件到HDFS上.从HDFS上下载文件和删除HDFS上的文件,需要的朋友可以参考下hdfs文件操作操作示例,包括上传文件到 ...
- Hadoop 执行 hdfs 命令烦人的警告信息
问题描述: 安装完 hadoop,执行 hdfs dfs -ls 命令时,报警告如下: -- ::, WARN util.NativeCodeLoader: Unable to load native ...
- Java 向Hbase表插入数据报(org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apac)
org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apac 代码: //1.create HTa ...
- Java 向Hbase表插入数据报(org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apac
org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apac 代码: //1.create HTa ...
- Java 向Hbase表插入数据异常org.apache.hadoop.hbase.client.HTablePool$PooledHTable cannot be cast to org.apache.client.HTable
出错代码如下: //1.create HTablePool HTablePool hp=new HTablePool(con, 1000); //2.get HTable from HTablepoo ...
随机推荐
- Javascript:sort()方法快速实现对数组排序
定义和用法: sort() 方法用于对数组的元素进行排序. 语法: arrayObject.sort(sortby) 注释:sortby,可选,规定排序顺序,必须是函数. 说明: 如果调用该方法时没有 ...
- Mac phpstorm破解版安装(简单,有效)
如果是公司作为商业用途的,还是希望你能购买正版的,如果是苦逼的穷学生,亦或是我这样的苦逼码农,那就往下看, 之前有个只需要在"License server address"里输入 ...
- oracle tkprof 工具详解
oracle tkprof 工具详解 今天是2013-09-26,进行tkprof工具使用学习,在此记录一下笔记: 一)查看需要跟踪会话信息: select s.sid,s.serial#,s.us ...
- 浙江大学PAT上机题解析之5-05. QQ帐户的申请与登陆
实现QQ新帐户申请和老帐户登陆的简化版功能.最大挑战是:据说现在的QQ号码已经有10位数了. 输入格式说明: 输入首先给出一个正整数N(<=105),随后给出N行指令.每行指令的格式为:“命令符 ...
- [Node.js] node-persist: localStorage on the server
// Save data var storage = require('node-persist'); storage.init(); var people= require('./people.js ...
- Spring学习笔记——Spring中的BeanFactory与FactoryBean
BeanFactory BeanFactory是Spring的org.springframework.beans.factory下的一个接口,是Spring IOC所遵守的基本编程规范.他的实现类有D ...
- FZU 1686 神龙的难题(DLX反复覆盖)
FZU 1686 神龙的难题 pid=1686" target="_blank" style="">题目链接 题意:中文题 思路:每个1看成列, ...
- BOM操作写法实例
浏览器相关信息 // 浏览器信息 navigator.userAgent // Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/ ...
- ORACLE用户操作的一些常用操作总结【weber出品】
一.创建一个表空间 create tablespace pioneer_data datafile '/u01/datafile/pioneer_datadbf' size 100m autoexte ...
- 完全不借助VS,编写C#控制台应用程序
(因为这个必须要借助控制台,所以必须是控制台应用程序) csc.exe是微软.NET Framework 中的C#编译器 步骤如下: 1)用记事本写一个控制台应用程序的代码,保存在E盘,test.cs ...