gobblin 0.10

想要持久化kafka到hdfs有很多种方式，比如flume、logstash、gobblin，其中flume和logstash是流式的，gobblin是批处理式的，gobblin通过定时任务触发来完成数据持久化，在任务和任务之间是没有任何读写的，这点是和flume、logstash的最大不同；

gobblin有几种部署方式：

1）standalone+cron；

2）mr+oozie/azkaban等

3）docker；

其中第3中方式最为方便，因为gobblin可以把任务的状态都写到hdfs上，所以在哪个节点启动gobblin并没有什么区别，而且只有数据同步之后才会修改元数据，保证不会因为kafka或者hdfs或者自身故障导致丢数据；

1 配置

#job

job.name=test_job

job.group=test_group

job.schedule=0 0 */1 * * ?

job.lock.enabled=false

#source

source.class=gobblin.source.extractor.extract.kafka.KafkaSimpleSource

extract.namespace=gobblin.extract.kafka

kafka.brokers=$kafka_brokers

bootstrap.with.offset=latest

topic.whitelist=$kafka_topics

mr.job.max.mappers=1

#writer

writer.builder.class=gobblin.writer.SimpleDataWriterBuilder

writer.file.path.type=tablename

writer.destination.type=HDFS

writer.output.format=txt

writer.partitioner.class=gobblin.writer.partitioner.TimeBasedWriterPartitioner
writer.partition.columns=time

writer.partition.level=hourly

writer.partition.pattern=yyyyMMdd/HH

writer.partition.timezone=Asia/Shanghai

data.publisher.type=gobblin.publisher.TimePartitionedDataPublisher

#metrics

metrics.reporting.file.enabled=true

metrics.reporting.file.suffix=txt

#fs

fs.uri=hdfs://$name_node:8020

writer.fs.uri=${fs.uri}

state.store.fs.uri=${fs.uri}

data.publisher.final.dir=${env:GOBBLIN_WORK_DIR}/job-output

metrics.log.dir=${env:GOBBLIN_WORK_DIR}/metrics

state.store.dir=${env:GOBBLIN_WORK_DIR}/state-store

mr.job.root.dir=${env:GOBBLIN_WORK_DIR}/working

task.data.root.dir=${env:GOBBLIN_WORK_DIR}/task-data

修改其中的$kafka_brokers,$kafka_topics,$name_node即可；

这里的配置为standalone每小时执行一次，每次执行时根据数据中的time字段来格式化为时间分区进行存放到hdfs上的指定目录；

2 启动

export GOBBLIN_JOB_CONFIG_DIR=/opt/gobblin/gobblin-dist/job_conf

export GOBBLIN_WORK_DIR=/opt/gobblin/gobblin-dist/work_dir

bin/gobblin-standalone.sh start

3 定制化

1）希望按照当前时间（而不是数据中的时间）进行时间分区

package gobblin.writer.partitioner;

import gobblin.configuration.State;

public class DefaultTimeBasedWriterPartitioner extends TimeBasedWriterPartitioner {

    public DefaultTimeBasedWriterPartitioner(State state, int numBranches, int branchId) {

        super(state, numBranches, branchId);

    }

    public long getRecordTimestamp(Object record) {

        return System.currentTimeMillis();

    }

}

配置：

writer.partitioner.class=gobblin.writer.partitioner.DefaultTimeBasedWriterPartitioner

2）只保存json数据，并且添加换行

package gobblin.source.extractor.extract.kafka;

import gobblin.configuration.WorkUnitState;

import gobblin.source.extractor.Extractor;

import java.io.IOException;

public class JsonKafkaSimpleSource extends KafkaSimpleSource {

    public JsonKafkaSimpleSource() {}

    @Override

    public Extractor<String, byte[]> getExtractor(WorkUnitState state) throws IOException {

        return new JsonKafkaSimpleExtractor(state);

    }

}

package gobblin.source.extractor.extract.kafka;

import gobblin.configuration.WorkUnitState;

import gobblin.kafka.client.ByteArrayBasedKafkaRecord;

import java.io.IOException;

import java.text.SimpleDateFormat;

import java.util.Date;

public class JsonKafkaSimpleExtractor extends KafkaSimpleExtractor {

    public JsonKafkaSimpleExtractor(WorkUnitState state) {

        super(state);

    }

    @Override

    protected byte[] decodeRecord(ByteArrayBasedKafkaRecord kafkaConsumerRecord) throws IOException {

        byte[] resultBytes = kafkaConsumerRecord.getMessageBytes();

        String result = new String(resultBytes, "UTF-8");

        if (result != null && result.length() > 2 && result.charAt(0) == '{' && result.charAt(result.length() - 1) == '}')

            return (result + "\n").getBytes("UTF-8");

        else {

            System.out.println("[" + new SimpleDateFormat("yyyy-MM-dd HH:mm:ss").format(new Date()) + "]found invalid json : " + result);

            return "".getBytes();

        }

    }

}

配置：

source.class=gobblin.source.extractor.extract.kafka.JsonKafkaSimpleSource

4 docker image

https://hub.docker.com/r/gobblin/gobblin-standalone

docker run -d gobblin/gobblin-standalone:ubuntu-gobblin-0.10.0

参考：

https://gobblin.readthedocs.io/en/latest/case-studies/Kafka-HDFS-Ingestion/

https://gobblin.readthedocs.io/en/latest/user-guide/Configuration-Properties-Glossary/

【原创】大数据基础之Gobblin（2）持久化kafka到hdfs的更多相关文章

【原创】大数据基础之Zookeeper（2）源代码解析
核心枚举 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING; } zookeeper服务器状态:刚启动LOOKING,f ...
大数据基础总结---HDFS分布式文件系统
HDFS分布式文件系统文件系统的基本概述文件系统定义:文件系统是一种存储和组织计算机数据的方法,它使得对其访问和查找变得容易. 文件名:在文件系统中,文件名是用于定位存储位置. 元数据(Metad ...
大数据基础知识问答----hadoop篇
handoop相关知识点 1.Hadoop是什么? Hadoop是一个由Apache基金会所开发的分布式系统基础架构.用户可以在不了解分布式底层细节的情况下,开发分布式程序.充分利用集群的威力进行高速 ...
CentOS6安装各种大数据软件第五章：Kafka集群的配置
相关文章链接 CentOS6安装各种大数据软件第一章:各个软件版本介绍 CentOS6安装各种大数据软件第二章:Linux各个软件启动命令 CentOS6安装各种大数据软件第三章:Linux基础 ...
【原创】大数据基础之词频统计Word Count
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test ...
【原创】大数据基础之Impala（1）简介、安装、使用
impala2.12 官方:http://impala.apache.org/ 一简介 Apache Impala is the open source, native analytic datab ...
【原创】大数据基础之Benchmark（2）TPC-DS
tpc 官方:http://www.tpc.org/ 一简介 The TPC is a non-profit corporation founded to define transaction pr ...
【原创】大数据基础之Flume（2）应用之kafka-kudu
应用一:kafka数据同步到kudu 1 准备kafka topic # bin/kafka-topics.sh --zookeeper $zk:2181/kafka -create --topic ...
大数据基础知识问答----spark篇，大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...

随机推荐

Nginx之进程间的通信机制（共享内存、原子操作）
1. 概述 Linux 提供了多种进程间传递消息的方式,如共享内存.套接字.管道.消息队列.信号等,而 Nginx 框架使用了 3 种传递消息的传递方式:共享内存.套接字.信号. 在进程间访问共享资源 ...
信息学竞赛一本通提高版AC题解—例题1.1活动安排
书中代码有误.书中为sort(a+1,a+n+1,Cmp). // // Created by yuxi on 19-1-13. // /* * * <信息学竞赛一本通-提高版>全部AC解 ...
apache整合tomcat中的一些注意事项
1.整合完毕后,需要把项目同时部署在apache和tomcat中,不然会报错找不到资源 2.可以把tomcat和apcahe的项目路径设置为同一个 3.使用java框架时容易出现异常:The requ ...
连接局域网mysql数据库
1.先确认mysql服务端端口在防火墙是否开放外网连接(添加): windows防火墙 >高级设置 >入站规则 >新建规则 >选择端口 >添加端口 >后面直接下一步 ...
Go项目实战：打造高并发日志采集系统（五）
前情回顾前文我们完成了如下功能1 根据配置文件启动多个协程监控日志,并启动协程监听配置文件.2 根据配置文件热更新,动态协调日志监控.3 编写测试代码,向文件中不断写入日志并备份日志,验证系统健壮性 ...
为什么单个TCP连接很难占满带宽
计算 TCP吞吐量的公式 TCP窗口大小(bits) / 延迟(秒) = 每秒吞吐量(bits) 比如说windows系统一般的窗口大小为64K, 中国到美国的网络延迟为150ms. 64KB = 6 ...
.Netcore 2.0 Ocelot Api网关教程（2）- 路由
.Netcore 2.0 Ocelot Api网关教程(1) 路由介绍上一篇文章搭建了一个简单的Api网关,可以实现简单的Api路由,本文介绍一下路由,即配置文件中ReRoutes,ReRoutes ...
vue新增属性是否会响应式更新?
原文地址在开发过程中,我们时常会遇到这样一种情况:当vue的data里边声明或者已经赋值过的对象或者数组(数组里边的值是对象)时,向对象中添加新的属性,如果更新此属性的值,是不会更新视图的. 根据官 ...
javaweb期末项目-stage1-part1-需求分析（Requirements analysis）
需求分析文档.rar-下载说明:解压密码为袁老师的全名拼音(全小写) 相关链接: 项目结构:https://www.cnblogs.com/formyfish/p/10828672.html 需求分 ...
RNN汇总
RNN(Recurrent Neural Network)循环神经网络. 对于CNN来说,比如图像处理,它逐渐从局部空间抽象到全局空间,有一种空间层次感,通道可以与空间一起卷积,也可以分开卷积.同时由 ...