应用一：kafka数据同步到kudu

1 准备kafka topic

# bin/kafka-topics.sh --zookeeper $zk:2181/kafka -create --topic test_sync --partitions 2 --replication-factor 2

WARNING: Due to limitations in metric names, topics with a period ('.') or underscore ('_') could collide. To avoid issues it is best to use either, but not both.

Created topic "test_sync".

# bin/kafka-topics.sh --zookeeper $zk:2181/kafka -describe --topic test_sync

Topic:test_sync PartitionCount:2        ReplicationFactor:2     Configs:

        Topic: test_sync        Partition: 0    Leader: 112     Replicas: 112,111       Isr: 112,111

        Topic: test_sync        Partition: 1    Leader: 110     Replicas: 110,112       Isr: 110,112

2 准备kudu表

impala-shell

CREATE TABLE test.test_sync (

id int,

name string,

description string,

create_time timestamp,

update_time timestamp,

primary key (id)

)

PARTITION BY HASH (id) PARTITIONS 4

STORED AS KUDU

TBLPROPERTIES ('kudu.master_addresses'='$kudu_master:7051');

3 准备flume kudu支持

3.1 下载jar

# wget https://repository.cloudera.com/artifactory/cloudera-repos/org/apache/kudu/kudu-flume-sink/1.7.0-cdh5.16.1/kudu-flume-sink-1.7.0-cdh5.16.1.jar

# mv kudu-flume-sink-1.7.0-cdh5.16.1.jar $FLUME_HOME/lib/

# wget http://central.maven.org/maven2/org/json/json/20160810/json-20160810.jar

# mv json-20160810.jar $FLUME_HOME/lib/

3.2 开发

代码库：https://github.com/apache/kudu/tree/master/java/kudu-flume-sink

kudu-flume-sink默认使用的producer是

org.apache.kudu.flume.sink.SimpleKuduOperationsProducer

  public List<Operation> getOperations(Event event) throws FlumeException {

    try {

      Insert insert = table.newInsert();

      PartialRow row = insert.getRow();

      row.addBinary(payloadColumn, event.getBody());

      return Collections.singletonList((Operation) insert);

    } catch (Exception e) {

      throw new FlumeException("Failed to create Kudu Insert object", e);

    }

  }

是将消息直接存放到一个payload列中

如果想要支持json格式数据，需要二次开发

package com.cloudera.kudu;

public class JsonKuduOperationsProducer implements KuduOperationsProducer {

代码详见：https://www.cnblogs.com/barneywill/p/10573221.html

打包放到$FLUME_HOME/lib下

4 准备flume conf

a1.sources = r1

a1.sinks = k1

a1.channels = c1

# Describe/configure the source

a1.sources.r1.type = org.apache.flume.source.kafka.KafkaSource

a1.sources.r1.batchSize = 5000

a1.sources.r1.batchDurationMillis = 2000

a1.sources.r1.kafka.bootstrap.servers = 192.168.0.1:9092

a1.sources.r1.kafka.topics = test_sync

a1.sources.r1.kafka.consumer.group.id = flume-consumer

# Describe the sink

a1.sinks.k1.type = logger

# Use a channel which buffers events in memory

a1.channels.c1.type = memory

a1.channels.c1.capacity = 10000

a1.channels.c1.transactionCapacity = 10000

# Bind the source and sink to the channel

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

a1.sinks.k1.type = org.apache.kudu.flume.sink.KuduSink

a1.sinks.k1.producer = com.cloudera.kudu.JsonKuduOperationsProducer

a1.sinks.k1.masterAddresses = 192.168.0.1:7051

a1.sinks.k1.tableName = impala::test.test_sync

a1.sinks.k1.batchSize = 50

5 启动flume

bin/flume-ng agent --conf conf --conf-file conf/order.properties --name a1

6 kudu确认

impala-shell

select * from test_sync limit 10;

参考：https://kudu.apache.org/2016/08/31/intro-flume-kudu-sink.html

【原创】大数据基础之Flume（2）应用之kafka-kudu的更多相关文章

【原创】大数据基础之Flume（2）kudu sink
kudu中的flume sink代码路径: https://github.com/apache/kudu/tree/master/java/kudu-flume-sink kudu-flume-sin ...
【原创】大数据基础之Flume（2）Sink代码解析
flume sink核心类结构 1 核心接口Sink org.apache.flume.Sink /** * <p>Requests the sink to attempt to cons ...
【原创】大数据基础之Zookeeper（2）源代码解析
核心枚举 public enum ServerState { LOOKING, FOLLOWING, LEADING, OBSERVING; } zookeeper服务器状态:刚启动LOOKING,f ...
大数据系列之Flume+kafka 整合
相关文章: 大数据系列之Kafka安装大数据系列之Flume--几种不同的Sources 大数据系列之Flume+HDFS 关于Flume 的一些核心概念: 组件名称功能介绍 Agent ...
【原创】大数据基础之词频统计Word Count
对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多简单: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test ...
【原创】大数据基础之Impala（1）简介、安装、使用
impala2.12 官方:http://impala.apache.org/ 一简介 Apache Impala is the open source, native analytic datab ...
【原创】大数据基础之Benchmark（2）TPC-DS
tpc 官方:http://www.tpc.org/ 一简介 The TPC is a non-profit corporation founded to define transaction pr ...
大数据基础知识问答----spark篇，大数据生态圈
Spark相关知识点 1.Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapredu ...
低调、奢华、有内涵的敏捷式大数据方案：Flume+Cassandra+Presto+SpagoBI
基于FacebookPresto+Cassandra的敏捷式大数据文件夹 1 1.1 1.1.1 1.1.2 1.2 1.2.1 1.2.2 2 2.1 2.2 2.3 2.4 2.5 2.6 3 ...

随机推荐

031、none和host网络的适用场景（2019-02-18 周一）
参考https://www.cnblogs.com/CloudMan6/p/7053617.html 本节开始,会学习docker的几种原生网络,以及如何创建自定义网络.然后探究容器之间如何通信, ...
028、限制容器对CPU的使用（2019-01-23 周三）
参考https://www.cnblogs.com/CloudMan6/p/7003199.html 默认情况下,所有容器都可以平等的使用host cpu资源,没有限制 docker 可以通过 ...
sweetalert插件的使用
sweetalert是一个漂亮的弹窗插件,使用它可以完成各种炫酷的弹窗效果链接:sweetalert 实例删除演示 urls.py from django.contrib import admin ...
adb server version (31) doesn't match this client (40); killing...
删除360的手机助手即可解决,进程名字360MoblieMgr.exe
C# 数据类型之 String（字符串）
Ø 简介在开发中最常见的数据类型就是 String 类型,即字符串类型.为什么要单独讨论下这个类型,是因为:它是系统内置的基础数据类型:它的使用频率非常高:它是一个特殊的引用类型.其实大家都会使用 ...
linux 测试 get 请求跳过SSL证书验证
Linux 下测试 get 请求: curl : curl "http://www.qq.com" # 标准输出页面内容 curl -i "http://www.qq.c ...
HTML字体自动换行第二行缩进一格
p {text-indent: -2em; margin-left: 2em;}设置text-indent: -2em;以后p标签中第一行文字向左偏移,这样第二行开始的文字就等于缩进了,但是这样设置会 ...
Android 5.0以上Material Design 沉浸式状态栏
偶然在知乎上看到这个问题,Android 5.0 如何实现将布局的内容延伸到状态栏,之前也见过多个应用的这个功能,但是知乎上的答案却没有一个真正实现此功能的一类是把标题栏设置App主题颜色,一类是提取 ...
P5239 回忆京都
题目地址:P5239 回忆京都杨辉三角即组合数的"打表"形式再求一个二维前缀和然后处理一下负数即可(因为在求前缀和的过程中有减法) #include <bits/std ...
20145215《网络对抗》Exp4 恶意代码分析
20145215<网络对抗>Exp4 恶意代码分析基础问题回答如果在工作中怀疑一台主机上有恶意代码,但只是猜想,所有想监控下系统一天天的到底在干些什么.请设计下你想监控的操作有哪些,用 ...

【原创】大数据基础之Flume（2）应用之kafka-kudu