kettle集群(转换)】的更多相关文章

本文转自:http://blog.csdn.net/dqswuyundong/article/details/5952009 Kettle集群 Kettle是一款开源的ETL工具,以其高效和可扩展性而闻名于业内.其高效的一个重要原因就是其多线程和集群功能. Kettle的多线程采用的是一种流水线并发的机制,我们在另外的文章中专门有介绍.这里主要介绍的是kettle的集群. 集群允许转换以及转换中的步骤在多个服务器上并发执行.在使用kettle集群时,首先需要定义的是Cluster schema.…
一.集群的原理与优缺点 1.1集群的原理 Kettle集群是由一个主carte服务器和多个从carte服务器组成的,类似于master-slave结构,不同的是’master’处理具体任务,只负责任务的分发和收集运行结果. Master carte结点收到请求后,把任务分成多个部分交给slave carte执行,slave执行完毕后把结果交给mater 进行汇总,再由mster返回结果. 1.2集群的优点 和其它系统的集群一样,有以下优点: 1)多服务器运行,加快处理速度,对于大数据量的操作更明…
KETTLE集群搭建 说明: 本文档基于kettle5.4 一.集群的原理与优缺点 1.1集群的原理 Kettle集群是由一个主carte服务器和多个从carte服务器组成的,类似于master-slave结构,不同的是’master’处理具体任务,只负责任务的分发和收集运行结果. Master carte结点收到请求后,把任务分成多个部分交给slave carte执行,slave执行完毕后把结果交给mater 进行汇总,再由mster返回结果. 1.2集群的优点 和其它系统的集群一样,有以下优…
1.定义子服务器 新建子服务器中有一个必须为主服务器 新建集群 在需求集群运行的步骤中右键集群进行使用…
不多说,直接上干货! http://blog.csdn.net/jianglushou9763/article/details/70859616…
一.概述 kettle中3个重要的步骤: 子转换/映射 在转换里调用一个子转换,便于封装和重用. 集群 集群模式 变量和参数 变量和参数的用法 二.子转换 1.定义子转换 主要由映射输入与映射输出定义: 这里给出一个从kettle自带的samples中拿出来的示例,详情配置,参考kettle示例 保存这个转换(可以是文件,也可以在资源库),这就是子转换了! 2.调用子转换 子转换的配置: 整个调用的示例如下: // 详细,查看kettle示例 三.集群 Kettle 集群是一个分布式的运行环境,…
本片文章主要是关于使用Kettle的UI界面: Spoon来实现基于集群的对数据库中的数据表数据进行排序的试验. 以及在实验过程中所要开启的Carte服务的一些配置文件的设置, 还有基于Windows cmd 的相关Carte命令. 文章主要分为六个部分: 1.介绍carte    2.carte相关配置文件的设定 3.carte服务的开启命令 4.在kettle的图形界面中对集群进行相关的设定  5.使用kettle集群模式对相关的数据进行排序 6.有关于集群调用子服务器的java源代码调用实…
5.使用kettle集群模式对相关的数据进行排序 既然,基于Carte服务程序所搭建的集群已经在Spoon中设定好了, 可以首先,先来启动四个节点: "以管理员身份运行"打开 四个 cmd窗口,(路径要根据个人主机设置进行变更) 分别输入: 分别开启集群的各个节点. 接下来要做的就是导入数据到数据库中作为实验数据. 首先下载数据源,然后将其加载到数据库中, 下面的这个链接是可以直接下载到mysql的一个经典的数据集的, LZ的很多实验都是使用这个数据集的. http://www.mys…
下载Hadoop安装包 登录 https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/ 镜像站,找到我们要安装的版本,点击进去复制下载链接 安装Hadoop时要注意版本与后续安装的HBase.Spark等相关组件的兼容,不要安装了不匹配的版本,而导致某些组件需要重装 输入命令进行安装操作 cd /usr/local/src/ wget https://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/…
最近因为公司业务需要,刚刚接触了kettle.这不看不知道,一看才发现kettle的功能是在是太强大了,让我有种相见恨晚的感觉.由于主要是应用kettle与hadoop集群和hive连接进行数据处理.所以这里简单叙述下kettle与hadoop集群连接时的大致步骤: 1.双击kettle(即data-integeration)目录下的spoon.bat,启动kettle 2.kettle启动后,新建一个作业(job).可以命名为load_hdfs 3.在load_hdfs中有个Hadoop cl…