在不同版本号hdfs集群之间转移数据
在不同版本号hdfs集群之间转移数据
只是这有几个问题:
- 效率减少
- 占用本地磁盘空间
- 不能应付实时导数据需求
- 两个进程须要协调,复杂度添加
更好的办法是在同一个进程内一边读src数据,一边写des集群。只是这相当于在同一个进程空间内载入两个版本号的hadoop jar包。这就须要在程序中使用两个classloader来实现。
下面代码能够实现classloader载入自己定义的jar包,并生成须要的Configuration对象:
- URL[] jarUrls = new URL[1];
- jarUrls[0]=new File(des_jar_path).toURI().toURL();
- ClassLoader jarloader = new URLClassLoader(jarUrls, null);
- Class Proxy = Class.forName("yourclass", true, jarloader);
- Configuration conf = (Configuration)Proxy.newInstance();
可是因为在生成HTable对象时。须要使用这个conf对象,而载入这个conf对象的代码本身是由默认的classloader载入的,也就是0.19.2的jar包。
所以在以上代码最后一行所强制转换的Configuration对象仍然是0.19.2版本号的。
那怎么办呢?
琢磨了一会,发现假设要实现以上功能,必须将生成HTable对象,以及以后的全部hbase操作都使用这个新的classloader。因此这个新的classloader必须载入除了0.19.2的jar包外全部须要用到的jar包,然后把全部操作都封装进去。在外面用反射来调用。
这种话。通常构造函数都不为空了。因此须要用到Constructor来构造一个自己定义的构造函数
代码段例如以下:
- main.java
- void init(){
- ClassLoader jarloader = generateJarLoader();
- Class Proxy = Class.forName("test.writer.hbasewriter.HBaseProxy", true, jarloader);
- Constructor con = Proxy.getConstructor(new Class[]{String.class, String.class, boolean.class});
- Boolean autoflush = param.getBoolValue(ParamsKey.HbaseWriter.autoFlush, true);
- proxy = con.newInstance(new Object[]{path, tablename, autoflush});
- }
- void put(){
- ...
- while((line = getLine()) != null) {
- proxy.getClass().getMethod("generatePut",String.class).invoke(proxy, line.getField(rowkey));
- Method addPut = proxy.getClass().getMethod("addPut",
- new Class[]{String.class, String.class, String.class});
- addPut.invoke(proxy, new Object[]{field, column, encode});
- proxy.getClass().getMethod("putLine").invoke(proxy);
- }
- }
- ClassLoader generateJarLoader() throws IOException {
- String libPath = System.getProperty("java.ext.dirs");
- FileFilter filter = new FileFilter() {
- @Override
- public boolean accept(File pathname) {
- if(pathname.getName().startsWith("hadoop-0.19.2"))
- return false;
- else
- return pathname.getName().endsWith(".jar");
- }
- };
- File[] jars = new File(libPath).listFiles(filter);
- URL[] jarUrls = new URL[jars.length+1];
- int k = 0;
- for (int i = 0; i < jars.length; i++) {
- jarUrls[k++] = jars.toURI().toURL();
- }
- jarUrls[k] = new File("hadoop-0.20.205.jar")
- ClassLoader jarloader = new URLClassLoader(jarUrls, null);
- return jarloader;
- }
- HBaseProxy.java
- public HBaseProxy(String hbase_conf, String tableName, boolean autoflush)
- throws IOException{
- Configuration conf = new Configuration();
- conf.addResource(new Path(hbase_conf));
- config = new Configuration(conf);
- htable = new HTable(config, tableName);
- admin = new HBaseAdmin(config);
- htable.setAutoFlush(autoflush);
- }
- public void addPut(String field, String column, String encode) throws IOException {
- try {
- p.add(column.split(":")[0].getBytes(), column.split(":")[1].getBytes(),
- field.getBytes(encode));
- } catch (UnsupportedEncodingException e) {
- p.add(column.split(":")[0].getBytes(), column.split(":")[1].getBytes(),
- field.getBytes());
- }
- }
- public void generatePut(String rowkey){
- p = new Put(rowkey.getBytes());
- }
- public void putLine() throws IOException{
- htable.put(p);
- }
总之,在同一个进程中载入多个classloader时一定要注意,classloader A所载入的对象是不能转换成classloader B的对象的,当然也不能使用。
两个空间的相互调用仅仅能用java的基本类型或是反射。
很多其它精彩内容请关注:http://bbs.superwu.cn
关注超人学院微信二维码:
关注超人学院java免费学习交流群:
在不同版本号hdfs集群之间转移数据的更多相关文章
- Hadoop(四)HDFS集群详解
前言 前面几篇简单介绍了什么是大数据和Hadoop,也说了怎么搭建最简单的伪分布式和全分布式的hadoop集群.接下来这篇我详细的分享一下HDFS. HDFS前言: 设计思想:(分而治之)将大文件.大 ...
- adoop(四)HDFS集群详解
阅读目录(Content) 一.HDFS概述 1.1.HDFS概述 1.2.HDFS的概念和特性 1.3.HDFS的局限性 1.4.HDFS保证可靠性的措施 二.HDFS基本概念 2.1.HDFS主从 ...
- HDFS集群优化篇
HDFS集群优化篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 一.操作系统级别优化 1>.优化文件系统(推荐使用EXT4和XFS文件系统,相比较而言,更推荐后者,因为XF ...
- HDFS集群PB级数据迁移方案-DistCp生产环境实操篇
HDFS集群PB级数据迁移方案-DistCp生产环境实操篇 作者:尹正杰 版权声明:原创作品,谢绝转载!否则将追究法律责任. 用了接近2个星期的时间,终于把公司的需要的大数据组建部署完毕了,当然,在部 ...
- sqoop将oracle数据导入hdfs集群
使用sqoop将oracle数据导入hdfs集群 集群环境: hadoop1.0.0 hbase0.92.1 zookeeper3.4.3 hive0.8.1 sqoop-1.4.1-incubati ...
- HDFS集群中DataNode的上线与下线
在HDFS集群的运维过程中,肯定会遇到DataNode的新增和删除,即上线与下线.这篇文章就详细讲解下DataNode的上线和下线的过程. 背景 在我们的微职位视频课程中,我们已经安装了3个节点的HD ...
- vivo 万台规模 HDFS 集群升级 HDFS 3.x 实践
vivo 互联网大数据团队-Lv Jia Hadoop 3.x的第一个稳定版本在2017年底就已经发布了,有很多重大的改进. 在HDFS方面,支持了Erasure Coding.More than 2 ...
- 【Redis】集群故障转移
集群故障转移 节点下线 在集群定时任务clusterCron中,会遍历集群中的节点,对每个节点进行检查,判断节点是否下线.与节点下线相关的状态有两个,分别为CLUSTER_NODE_PFAIL和CLU ...
- HDFS集群balance(2)-- 架构概览
转载请注明博客地址:http://blog.csdn.net/suileisl HDFS集群balance,对应版本balance design 6 如需word版本,请QQ522173163联系索要 ...
随机推荐
- 先有Delphi内存对象,后有句柄(如果需要的话),最后再显示
在设计期放上一个Panel1和Button1,然后设置Panel1.Visible:=False 这时候执行: procedure TForm1.Button4Click(Sender: TObjec ...
- Troubleshooting(updating...)
记录了工作和学习中一些杂碎的问题. 问题:RDP一直处于连接状态,除非重启 描述:表面看上去是应该在一定时间还连接不上,就让它断开.深层问题是,初次连接一个新的IP地址,Win7以上的系统,会有个CA ...
- Milonga_百度百科
Milonga_百度百科 Milonga是Tango的一种.源于并盛行于阿根廷.6/8拍的舞曲.节奏为 AXX BXX CX 分别都是8分音符.由于第3组节奏音只有2个8分音符,比前2组而缺少 ...
- ARM过程调用标准---APCS简单介绍
介绍 APCS,ARM 过程调用标准(ARM Procedure Call Standard),提供了紧凑的编写例程的一种机制,定义的例程能够与其它例程交织在一起.最显著的一点是对这些例程来自哪里没有 ...
- 基于Linux的视频传输系统(上大学时參加的一个大赛的论文)
文件夹 1原创性声明----------------------------------------------------3 2 摘要-------------------------------- ...
- 在Python中使用正则表达式同时匹配邮箱和电话并进行简单的分类
在Python使用正则表达式需要使用re(regular exprssion)模块,使用正则表达式的难点就在于如何写好p=re.compile(r' 正则表达式')的内容. 下面是在Python中使用 ...
- C陷阱与缺陷代码分析之第1章词法陷阱
作者:刘昊昱 博客:http://blog.csdn.net/liuhaoyutz 编译器中负责将程序分解为一个一个符号的部分,称为“词法分析器”.下面看一个例子: if(x > big) bi ...
- unix ourhdr.h myerr.h
//在学UNIX环境高级编程时把下面两个头文件与源文件放在同一个文件下就可以正常编译了,我的是在ubuntu 12.04环境下,第一个程序编译和运行成功了,希望对大家有帮助(我已经根据网上的资料修改好 ...
- zipkin分布式链路追踪系统
基于zipkin分布式链路追踪系统预研第一篇 分布式服务追踪系统起源于Google的论文“Dapper, a Large-Scale Distributed Systems Tracing Inf ...
- TMemoryStream、String与OleVariant互转
//////////////////////////////////////////////////////////////////////////////////功能: STRING 的内容流化到 ...