1 引言：

项目最近要引入大数据技术，使用其处理加工日上网话单数据，需要kettle把源系统的文本数据load到hadoop环境中

2 准备工作：

1 首先

要了解支持hadoop的Kettle版本情况，由于kettle资料网上较少，所以最好去官网找,官网的url:

http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version

打开这个url 到页面最下面的底端，如下图：

archive 下面的from PDI 4.3 、 from PDI 4.4 、 from PDI 5.0 即表示支持hadoop的pdi 版本。pdi即pentaho data integration 又称kettle。PDI 4.3 、 PDI 4.4 、 PDI 5.0 即是kettle 4.3 、4.4、 5.0 ,这个版本号包括比其更高的版本（即kettle 5.0.X ，5.1，5.2也支持hadoop）。

2 其次

不同的kettle版本支持的hadoop版本不一样，以5.1为例子，下面的链接是5.1的支持情况

http://wiki.pentaho.com/display/BAD/Configuring+Pentaho+for+your+Hadoop+Distro+and+Version

下图为链接打开的页面的中间部分：

determine the proper shim for hadoop Distro and version 大概意思是为hadoop版本选择合适的套件。表格上面的一行：apache、cloudera、hortonworks、intel、mapr指的是发行方。点击他们来选择你想连接的hadoop的发行方。上图以apache hadoop为例：

Version 指版hadoop版本号，shim 指kettle提供给该hadoop套件的名称，Download 里面的 included in 5.0,5.1 指kettle的5.0、5.1版本安装包里面已经有内置的插件，一句话来讲就是kettle5.1及5.0版本已有插件提供支持apache hadoop版本0.20.x 。不需要额外下载。NS 是不支持的意思图片下面也有解释。

上图说明的是对 cloudera的 hadoop支持的情况，Download 里面 download的蓝色字体超链接的说明是要除了下kettle的安装包外另外下载的，带 included in 5.0,5.1 说明 kettle 5.0,5.1版本的本身就支持（内置有插件）。

由上面两图得到的结论是 kettle 5.1 支持 apache hadoop 0.20.x版本及cloudera hadoop CDH4.0 到CDH5。

3 试验运行：

1 首先配置工作

当前我用的hadoop 版本是hadoop-2.2.0-cdh5.0 所以用kettle 5.1 且其内置有hadoop插件。去kettle官网下载：

解压之后就是：

下载好之后，现在就需要做配置的工作了，配置的工作在kettle安装文件里面做：

配置办法参考：http://wiki.pentaho.com/display/BAD/Hadoop

进页面之后先点击collapse 收缩所有的菜单树如上图。 Configuring Pentaho for your Hadoop Distro and Version 意思是为hadoop 版本做配置点击进去：页面的上面就是上面说过的kettle对hadoop的支持情况。

我们到页面的中间部分去，如下图：

1 意思是你想要连接的hadoop发行版已经被kettle支持了，但是没有内置插件，需要下载，这种情况最好看下：Install Hadoop Distribution Shim

2 意思是你想连接的hadoop发行版还有没有被kettle支持，可以自己填写相应的信息要求pentaho 开发一个。

还有1种情况就是上面说的hadoop发行版已经被kettle支持了且有内置的插件。

3 就是配置了。

3.1 stop application 就是如果kettle在运行先停掉他。

3.2 打开安装文件夹我们这边是kettle 所以就是spoon那个的文件路径：

3.3 编辑 plugin.properties文件

3.4 改一个配置值下图画圈的地方

改成对应你hadoop的shim值（上图的表格里面的shim）我这边是cdh50:

改之后保存：

至此配置工作做完。

2 然后开发脚本工作

下面开始开发脚本官方参考：http://wiki.pentaho.com/display/BAD/Loading+Data+into+HDFS

打开 kettle 运行spoon.bat

新建一个kjb文件拖一个开始图元

再拖一个

hadoop copy files即是 load数据到 hdfs里面。

copy files里面的配置：

意思是当前kjb脚本所在路径在我这边文件夹是：

目标文件是 hdfs://ip:hdfs端口/路径

填之前可以点击browse 按钮测试

如下图：填好server 和port后点击connect 如果没有报错出现红框里面的hdfs://......... 就说明连接成功了（如下图）。

注意只要连接成功，说明kettle对hadoop的配置就没有问题。

可以运行脚本试试了：

如上图，脚本运行成功。

在hadoop home bin下面查看:

文件成功load.

至此，kettle load文本数据到hdfs成功！

4 备注：

所有的步骤都可以参考官网：

http://wiki.pentaho.com/display/BAD/Hadoop

上图 1 是配置 2 是加载数据到hadoop 集群 3 是加载数据到hdfs 还有其他到 hive 到hbase等。

kettle连接hadoop&hdfs图文详解的更多相关文章

kettle入门(三) 之kettle连接hadoop&hdfs图文详解（转）
1 引言: 项目最近要引入大数据技术,使用其处理加工日上网话单数据,需要kettle把源系统的文本数据load到hadoop环境中 2 准备工作: 1 首先要了解支持hadoop的Kettle版本情 ...
hadoop hdfs uri详解
body{ font-family: "Microsoft YaHei UI","Microsoft YaHei",SimSun,"Segoe UI& ...
全网最详细的hive-site.xml配置文件里如何添加达到Hive与HBase的集成，即Hive通过这些参数去连接HBase（图文详解）
不多说,直接上干货! 一般,普通的情况是全网最详细的hive-site.xml配置文件里添加<name>hive.cli.print.header</name>和<na ...
Apache版本的Hadoop HA集群启动详细步骤【包括Zookeeper、HDFS HA、YARN HA、HBase HA】（图文详解）
不多说,直接上干货! 1.先每台机器的zookeeper启动(bigdata-pro01.kfk.com.bigdata-pro02.kfk.com.bigdata-pro03.kfk.com) 2. ...
大数据学习系列之七 ----- Hadoop+Spark+Zookeeper+HBase+Hive集群搭建图文详解
引言在之前的大数据学习系列中,搭建了Hadoop+Spark+HBase+Hive 环境以及一些测试.其实要说的话,我开始学习大数据的时候,搭建的就是集群,并不是单机模式和伪分布式.至于为什么先写单 ...
Hadoop集群搭建安装过程（三）（图文详解---尽情点击！！！）
Hadoop集群搭建安装过程(三)(图文详解---尽情点击!!!) 一.JDK的安装安装位置都在同一位置(/usr/tools/jdk1.8.0_73) jdk的安装在克隆三台机器的时候可以提前安装 ...
执行bin/hdfs haadmin -transitionToActive nn1时出现，Automatic failover is enabled for NameNode at bigdata-pro02.kfk.com/192.168.80.152:8020 Refusing to manually manage HA state的解决办法（图文详解）
不多说,直接上干货! 首先, 那么,你也许,第一感觉,是想到的是全网最详细的Hadoop HA集群启动后,两个namenode都是standby的解决办法(图文详解) 这里,nn1,不多赘述了.很简 ...
Flume启动报错[ERROR - org.apache.flume.sink.hdfs. Hit max consecutive under-replication rotations (30); will not continue rolling files under this path due to under-replication解决办法（图文详解）
前期博客 Flume自定义拦截器(Interceptors)或自带拦截器时的一些经验技巧总结(图文详解) 问题详情 -- ::, (SinkRunner-PollingRunner-Default ...
Hadoop集群搭建安装过程（二）（图文详解---尽情点击！！！）
Hadoop集群搭建安装过程(二)(配置SSH免密登录)(图文详解---尽情点击!!!) 一.配置ssh无密码访问 ®生成公钥密钥对 1.在每个节点上分别执行: ssh-keygen -t rsa(一 ...

随机推荐

zoj 3745 Salary Increasing（坑爹的细节题！）
题目注意题目中的,引用绝望的乐园中的进一步解释如下: 这是一道浙大月赛的题,一如既往的坑爹,好好一道水题,被搞成一道坑题!!! //注意:r(i) < l(i+1) !细节啊细节! #incl ...
POJ 2568/ZOJ 1965 Decode the Tree
题意:在树中,每次删去节点值最小的叶子结点. 每删去一个点,就给出与这相连的点的值,直到最后只剩下一个根结点,给这N-1个数,重新建立这个树. 思路: 给出的节点号按次序存入到数组a中,将未给出的数存 ...
div+css 定位浅析
在用CSS+DIV进行布局的时候,一直对position的四个属性值relative,absolute,static,fixed分的不是很清楚,以致经常会出现让人很郁闷的结果. 先看下各个属性值的定义 ...
Android学习及开发随记1：Android Studio安装配置
1.本系列仅为个人使用,概不负责.随着时间推移,部分内容可能因为软件更新而出现不能对应的情况. 本文的配置情况,仅针对Android Studio v1.1.0 windows版本全新安装. Goo ...
Android ActionBar的Overlay模式如何不遮盖顶部内容的问题
关于actionbar的overlay模式请参考如何让android的actionbar浮动且透明一文.这篇文章讲的是如何在这种模式下让actionbar不遮住顶部的内容. 这一般是这样的场景, ...
5、处理模型数据ModelAndView、Map、Model以及@SessionAttributes注解
Spring MVC提供了以下几种途径输出模型数据 —— ModelAndView: 处理方法返回值类型为ModelAndView时,方法体即可通过该对象添加模型数据.数据会添加到request域中. ...
C#中的Attribute和Java中的Annotation
在之前的博客中介绍过C#的Attribute(特性),简单的说,特性主要就是利用反射技术,在运行期获取关注类的相关标注信息,然后利用这些标注信息对关注的类进行处理,最近因为工作的原因,需要看一下Jav ...
值得珍藏的.NET源码，不保存就没机会了
很早以前,我们通过http://referencesource.microsoft.com/netframework.aspx可以下载到.NET的各版本公开源码,但如今,微软对sscli项目进行了改版 ...
ffmpeg 2.8.1 最新版本 VS2013 可调式动态库
ffmpeg 2.8.1 最新版本 VS2013 可调式动态库由于大多数初学者都在想尽各种版本寻求VC编译调试ffmpeg的版本,我也曾经移植过几个版本的ffmpeg到VC上编译.: 链接所需动态库 ...
[POJ3279]Fliptile（开关问题，枚举）
题目链接:http://poj.org/problem?id=3279 题解:http://www.cnblogs.com/helenawang/p/5538547.html /* ━━━━━┒ギリギ ...

kettle连接hadoop&hdfs图文详解