Kettle 添加对应hadoop版本的支持

　　在hdp的官网上有一个ETL工具叫做Talend Open Studio，然后我就下了，并且在群里询问了一下，突然间冒出来一群ETL高手，经高人指点认识了一款叫做Kettle的软件，经过这两天的试用，从直观感受上，Kettle更容易使用和上手，资料更多，界面更友好。。。优点很多，这里不一一列举了，关键是它对hadoop的支持我觉得是很全面的。

　　但是这里面有一个问题出现了，它不支持我现在用的版本，我用的是Hortonworks的HDP1.3，好吧，经过不懈的努力，终于被我搜索到了，哈哈，原来它可以支持的，并且官方已经提供了相应的包提供使用，只是不太好找罢了！下面把更新的过程和大家分享一下。

　　先提供文中所需内容的下载地址：

　　1.插件升级包

　　https://support.pentaho.com/entries/24445558-Big-Data-Plugin-Version-1-3-3-for-Pentaho-BA-Server-4-8-1-x-and-PDI-4-4-1-x

　　2.hdp1.3的支持包

　　https://pentaho.app.box.com/s/0wqy2qty3szv7j3qt2za

　　我使用的是4.4版本的kettle，大数据插件升级到了1.3.3.1了，所以要更新一下

　　1.删除plugins下的pentaho-big-data-plugin

　　2.删除libext/JDBC/pentaho-hadoop-hive-jdbc-shim-1.3.0.jar

　　3.把pentaho-big-data-shimtastic-1.3.3.1.zip解压到plugins目录下，可以删掉pentaho-big-data-plugin\hadoop-configurations 中不要的版本

　　4. 复制pentaho-hadoop-hive-jdbc-shim-1.3.3.jar 到libext/JDBC下

　　5.解压pentaho-instaview-templates-shimtastic-1.3.3.zip 到这个目录下，实际上没有这个目录，自己创建一下吧

　　plugins/spoon/agile-bi/platform/pentaho-solutions/system/instaview/templates/Big Data

　　更新完插件之后，我们要添加hdp1.3的支持，使用CDH4的童鞋比较幸福，不需要下载这个包，因为插件默认就带有cdh42的版本，支持最新的4.2-4.3

　　1.解压pentaho-hadoop-shims-hdp13-package-1.3.4.zip放到 plugins\pentaho-big-data-plugin\hadoop-configurations下面

　　2.编辑plugins/pentaho-big-data-plugin/plugin.properties文件，设置active.hadoop.configuration为该目录的名称

　　初始值是active.hadoop.configuration=hadoop-20，我的目录名称为hdp13，所以修改为active.hadoop.configuratio=hdp13

　　经过测试，目前Hadoop Copy Files和Oozie Job Executor能正常使用，Hadoop Job Executor不能使用，并且只支持旧的mapred的api，不支持最新的mapreduce的api，它自带的demo也运行不起来，报错了。

　　详细报错如下：

 Error executing class org.pentaho.hadoop.sample.wordcount.WordCount.
 java.lang.RuntimeException: java.lang.reflect.InvocationTargetException
     at org.pentaho.di.job.entries.hadoopjobexecutor.JobEntryHadoopJobExecutor$1.run(JobEntryHadoopJobExecutor.java:377)
     at java.lang.Thread.run(Thread.java:722)
 Caused by: java.lang.reflect.InvocationTargetException
     at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
     at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
     at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
     at java.lang.reflect.Method.invoke(Method.java:601)
     at org.pentaho.di.job.entries.hadoopjobexecutor.JobEntryHadoopJobExecutor.executeMainMethod(JobEntryHadoopJobExecutor.java:660)
     at org.pentaho.di.job.entries.hadoopjobexecutor.JobEntryHadoopJobExecutor$1.run(JobEntryHadoopJobExecutor.java:360)
     ... 1 more
 Caused by: java.lang.RuntimeException: Error in configuring object
     at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:93)
     at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:64)
     at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)
     at org.apache.hadoop.mapred.JobConf.getInputFormat(JobConf.java:596)
     at org.apache.hadoop.mapred.JobClient.writeOldSplits(JobClient.java:1081)
     at org.apache.hadoop.mapred.JobClient.writeSplits(JobClient.java:1073)
     at org.apache.hadoop.mapred.JobClient.access$700(JobClient.java:179)
     at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:983)
     at org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:936)
     at java.security.AccessController.doPrivileged(Native Method)
     at javax.security.auth.Subject.doAs(Subject.java:415)
     at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1232)
     at org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:936)
     at org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:910)
     at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:1353)
     at org.pentaho.hadoop.sample.wordcount.WordCount.main(WordCount.java:79)
     ... 7 more
 Caused by: java.lang.reflect.InvocationTargetException
     at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
     at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:57)
     at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
     at java.lang.reflect.Method.invoke(Method.java:601)
     at org.apache.hadoop.util.ReflectionUtils.setJobConf(ReflectionUtils.java:88)
     ... 22 more
 Caused by: java.lang.IllegalArgumentException: Compression codec com.hadoop.compression.lzo.LzoCodec not found.
     at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:116)
     at org.apache.hadoop.io.compress.CompressionCodecFactory.<init>(CompressionCodecFactory.java:156)
     at org.apache.hadoop.mapred.TextInputFormat.configure(TextInputFormat.java:38)
     ... 27 more
 Caused by: java.lang.ClassNotFoundException: com.hadoop.compression.lzo.LzoCodec
     at java.net.URLClassLoader$1.run(URLClassLoader.java:366)
     at java.net.URLClassLoader$1.run(URLClassLoader.java:355)
     at java.security.AccessController.doPrivileged(Native Method)
     at java.net.URLClassLoader.findClass(URLClassLoader.java:354)
     at java.lang.ClassLoader.loadClass(ClassLoader.java:423)
     at java.lang.ClassLoader.loadClass(ClassLoader.java:356)
     at java.lang.Class.forName0(Native Method)
     at java.lang.Class.forName(Class.java:264)
     at org.apache.hadoop.conf.Configuration.getClassByName(Configuration.java:810)
     at org.apache.hadoop.io.compress.CompressionCodecFactory.getCodecClasses(CompressionCodecFactory.java:109)
     ... 29 more

　　这个问题可能是运行旧的mapred的api导致的，kettle自身的大数据插件上本身就支持hadoop-0.20版本以及CHD4（也是基于0.20版本的），可能是为了兼容的问题，运行hdp的程序的时候也是使用的旧的api，然后就引发了这个错误，这个错误也是报得莫名其妙，源码里面里面都没有使用压缩，我的集群本身也是配置了lzo的，例子运行的时候都能看到加载lzo的类库成功的提示信息。。。我在hadoop里面运行新版的wordcount例子也是没问题，但是在kettle上就不行，看来只能走改源码的方法了，正好oozie的插件也有不尽如人意的地方，顺便把oozie的插件也修改一下，加上重新启动流程的功能。

　　不过比较安慰的是Hadoop Copy Files和Oozie Job Executor都可以用，MapReduce我可以配置到oozie里面执行，不要它那个破玩意儿了，太让人闹心了。

　　如果有用CDH4的童鞋，帮忙试一下你们的能不能用，如果有知道怎么解决这个问题的更好，感激涕零！

　　最后发一下原始的地址，E文好的童鞋可以自己去看看，找到适合自己的版本！

　　http://wiki.pentaho.com/display/BAD/4.4+Configuring+Pentaho+for+your+Hadoop+Distro+and+Version

Kettle 添加对应hadoop版本的支持的更多相关文章

HBase各版本对Hadoop版本的支持情况
转载自:http://blog.csdn.net/sunny05296/article/details/54089194 安装HBase时,要考虑选择正确的Hadoop版本,否则可能出现不兼容的情况. ...
hadoop版本与支持的hbase版本对照…
hadoop版本与支持的hbase版本对照表分类: hbase2013-05-20 17:19 701人阅读评论(2) 收藏举报 HbaseHadoop As of Hive 0.9.0 the ...
Hadoop版本变迁
内容来自<Hadoop技术内幕:深入解析YARN架构设计与实现原理>第2章:http://book.51cto.com/art/201312/422022.htm Hadoop版本变迁当 ...
hadoop版本比较 [转]
由于Hadoop版本混乱多变,因此,Hadoop的版本选择问题一直令很多初级用户苦恼.本文总结了Apache Hadoop和Cloudera Hadoop的版本衍化过程,并给出了选择Hadoop版本的 ...
[转] 如何选择正确的Hadoop版本
Gartner:如何选择正确的Hadoop版本这份报告的全名是<How to Choose the Right Apache Hadoop Distribution>.主要介绍了企业如何 ...
Pig安装及简单使用(pig版本0.13.0,Hadoop版本2.5.0)
原文地址:http://www.linuxidc.com/Linux/2014-03/99055.htm 我们用MapReduce进行数据分析.当业务比较复杂的时候,使用MapReduce将会是一个很 ...
【转】Windows下使用VS2008编译OpenCV 2.1 添加Intel TBB和Python支持
Windows下使用VS2008编译OpenCV2.1 添加Intel TBB和Python支持步骤: 1.仔细阅读OpenCV官网上的InstallGuide:http://opencv.will ...
内核添加对yaffs2文件系统的支持
移植方法: 第一步,我们需要YAFFS2的源码,如果大家有兴趣想了解YAFFS2文件系统的驱动原理的话可以直接去访问他们的官网,地址是www.yaffs2.net,上面说的很详细的,也有源码下载地址, ...
Hadoop版本选择
刚开始学习Hadoop时就曾经一直抱怨Hadoop的安装部署为什么这么麻烦,对于一个新手需要捯饬一天才能把分布式环境安装配置好.而对于一个自学Hadoop而周围又没人交流的菜鸟来说,我对Hadoop的 ...

随机推荐

[转]java:IO流学习小结
Java流操作有关的类或接口: Java流类图结构: 流的概念和作用流是一组有顺序的,有起点和终点的字节集合,是对数据传输的总称或抽象.即数据在两设备间的传输称为流,流的本质是数据传输,根据数据传输 ...
在 Mac 上使用多点触控手势
使用多点触控触控板或妙控鼠标,可以通过轻点.轻扫.捏合或开合一根或多根手指进行有用的操作. 触控板手势有关这些手势的更多信息,请选取苹果菜单 () >“系统偏好设置”,然后点按“触控板”.您 ...
Scala java maven开发环境搭建
基于maven配置的scala开发环境,首先需要安装 idea 的scala plugin.然后就可以使用maven编译scala程序了.一般情况下都是java scala的混合,所以src下 ...
Android 设备管理API概览（Device Administration API）
原文:http://android.eoe.cn/topic/android_sdk Android 2.2通过提供Android设备管理API的支持来引入企业应用支持.在系统级的设备管理API提供了 ...
GoLang-字符串
初始化 var str string //声明一个字符串 str = "laoYu" //赋值 ch :=str[0] //获取第一个字符 len :=len(str) //字符串 ...
zabbix 对网卡的流量的监控
新建Template:Network incoming or outcoming on eth1 新建items:Network incoming on eth1 特别注意:储存值:差量(每秒速率)- ...
linux系统卡解决方案
1.查看内存使用率 free -g 运行结果: 2.查看磁盘使用率 df -h 运行结果: 3.查看磁盘IO iostat -x 1 运行结果: 60表示60秒钟刷新一次 4.查看CPU使用情况 to ...
iOS 添加功能引导图
iOS 添加功能引导图首次安装app之后,打开app首页,有一张功能引导图,其实最简单的一种做法是,直接在这个首页上加一个蒙层图片. 在蒙层上用气泡显示文字注明功能介绍,这个蒙层图片,让你们的UI设 ...
NSLOOKUP命令的使用方法
查询IP地址 nslookup最简单的用法是查询域名对应的IP地址,包括A记录.MX记录.NS记录CNAME记录. 查询A记录:nslookup 域名查询MX记录:nslookup -q=mx 域名 ...
LeetCode: Longest Common Prefix 解题报告
Longest Common Prefix Write a function to find the longest common prefix string amongst an array of ...

Kettle 添加对应hadoop版本的支持

Kettle 添加对应hadoop版本的支持的更多相关文章

随机推荐

热门专题