1.概述

对于数据的转发，Kafka是一个不错的选择。Kafka能够装载数据到消息队列，然后等待其他业务场景去消费这些数据，Kafka的应用接口API非常的丰富，支持各种存储介质，例如HDFS、HBase等。如果不想使用Kafka API编写代码去消费Kafka Topic，也是有组件可以去集成消费的。下面笔者将为大家介绍如何使用Flume快速消费Kafka Topic数据，然后将消费后的数据转发到HDFS上。

2.内容

在实现这套方案之间，可以先来看看整个数据的流向，如下图所示：

业务数据实时存储到Kafka集群，然后通过Flume Source组件实时去消费Kafka业务Topic获取数据，将消费后的数据通过Flume Sink组件发送到HDFS进行存储。

2.1 准备基础环境

按照上图所示数据流向方案，需要准备好Kafka、Flume、Hadoop（HDFS可用）等组件。

2.1.1 启动Kafka集群并创建Topic

Kafka目前来说，并没有一个批量的管理脚本，不过我们可以对kafka-server-start.sh脚本和kafka-server-stop.sh脚本进行二次封装。代码如下所示：

#! /bin/bash

# Kafka代理节点地址, 如果节点较多可以用一个文件来存储

hosts=(dn1 dn2 dn3)

# 打印启动分布式脚本信息

mill=`date "+%N"`

tdate=`date "+%Y-%m-%d %H:%M:%S,${mill:0:3}"`

echo [$tdate] INFO [Kafka Cluster] begins to execute the $ operation.

# 执行分布式开启命令

function start()

{

    for i in ${hosts[@]}

        do

            smill=`date "+%N"`

            stdate=`date "+%Y-%m-%d %H:%M:%S,${smill:0:3}"`

            ssh hadoop@$i "source /etc/profile;echo [$stdate] INFO [Kafka Broker $i] begins to execute the startup operation.;kafka-server-start.sh $KAFKA_HOME/config/server.properties>/dev/null" &

            sleep

        done

}    

# 执行分布式关闭命令

function stop()

{

    for i in ${hosts[@]}

        do

            smill=`date "+%N"`

            stdate=`date "+%Y-%m-%d %H:%M:%S,${smill:0:3}"`

            ssh hadoop@$i "source /etc/profile;echo [$stdate] INFO [Kafka Broker $i] begins to execute the shutdown operation.;kafka-server-stop.sh>/dev/null;" &

            sleep

        done

}

# 查看Kafka代理节点状态

function status()

{

    for i in ${hosts[@]}

        do

            smill=`date "+%N"`

            stdate=`date "+%Y-%m-%d %H:%M:%S,${smill:0:3}"`

            ssh hadoop@$i "source /etc/profile;echo [$stdate] INFO [Kafka Broker $i] status message is :;jps | grep Kafka;" &

            sleep

        done

}

# 判断输入的Kafka命令参数是否有效

case "$1" in

    start)

        start

        ;;

    stop)

        stop

        ;;

    status)

        status

        ;;

    *)

        echo "Usage: $0 {start|stop|status}"

        RETVAL=

esac

启动Kafka集群后，在Kafka集群可用的情况下，创建一个业务Topic，执行命令如下：

# 创建一个flume_collector_data主题

kafka-topics.sh --create --zookeeper dn1:,dn2:,dn3: --replication-factor  --partitions  --topic flume_collector_data

2.2 配置Flume Agent

然后，开始配置Flume Agent信息，让Flume从Kafka集群的flume_collector_data主题中读取数据，并将读取到的数据发送到HDFS中进行存储。配置内容如下：

# ------------------- define data source ----------------------

# source alias

agent.sources = source_from_kafka

# channels alias

agent.channels = mem_channel

# sink alias

agent.sinks = hdfs_sink  

# define kafka source

agent.sources.source_from_kafka.type = org.apache.flume.source.kafka.KafkaSource

agent.sources.source_from_kafka.channels = mem_channel

agent.sources.source_from_kafka.batchSize =   

# set kafka broker address

agent.sources.source_from_kafka.kafka.bootstrap.servers = dn1:,dn2:,dn3:

# set kafka topic

agent.sources.source_from_kafka.kafka.topics = flume_collector_data

# set kafka groupid

agent.sources.source_from_kafka.kafka.consumer.group.id = flume_test_id

# defind hdfs sink

agent.sinks.hdfs_sink.type = hdfs 

# specify the channel the sink should use

agent.sinks.hdfs_sink.channel = mem_channel

# set store hdfs path

agent.sinks.hdfs_sink.hdfs.path = /data/flume/kafka/%Y%m%d  

# set file size to trigger roll

agent.sinks.hdfs_sink.hdfs.rollSize =

agent.sinks.hdfs_sink.hdfs.rollCount =

agent.sinks.hdfs_sink.hdfs.rollInterval =

agent.sinks.hdfs_sink.hdfs.threadsPoolSize =

agent.sinks.hdfs_sink.hdfs.fileType=DataStream

agent.sinks.hdfs_sink.hdfs.writeFormat=Text    

# define channel from kafka source to hdfs sink

agent.channels.mem_channel.type = memory  

# channel store size

agent.channels.mem_channel.capacity =

# transaction size

agent.channels.mem_channel.transactionCapacity =

然后，启动Flume Agent，执行命令如下：

# 在Linux后台执行命令
flume-ng agent -n agent -f $FLUME_HOME/conf/kafka2hdfs.properties &

2.3 向Kafka主题中发送数据

启动Kafka Eagle监控系统（执行ke.sh start命令），填写发送数据。如下图所示：

然后，查询Topic中的数据是否有被写入，如下图所示：

最后，到HDFS对应的路径查看Flume传输的数据，结果如下图所示：

3.Kafka如何通过Flume传输数据到HBase

3.1 创建新主题

创建一个新的Topic，执行命令如下：

# 创建一个flume_kafka_to_hbase主题

kafka-topics.sh --create --zookeeper dn1:,dn2:,dn3: --replication-factor  --partitions  --topic flume_kafka_to_hbase

3.2 配置Flume Agent

然后，配置Flume Agent信息，内容如下：

# ------------------- define data source ----------------------

# source alias

agent.sources = kafkaSource

# channels alias

agent.channels = kafkaChannel

# sink alias

agent.sinks = hbaseSink

# set kafka channel

agent.sources.kafkaSource.channels = kafkaChannel

# set hbase channel

agent.sinks.hbaseSink.channel = kafkaChannel

# set kafka source

agent.sources.kafkaSource.type = org.apache.flume.source.kafka.KafkaSource

# set kafka broker address

agent.sources.kafkaSource.kafka.bootstrap.servers = dn1:,dn2:,dn3:

# set kafka topic

agent.sources.kafkaSource.kafka.topics = flume_kafka_to_hbase

# set kafka groupid

agent.sources.kafkaSource.kafka.consumer.group.id = flume_test_id

# set channel

agent.channels.kafkaChannel.type = org.apache.flume.channel.kafka.KafkaChannel

# channel queue

agent.channels.kafkaChannel.capacity=

# transaction size

agent.channels.kafkaChannel.transactionCapacity=

# set hbase sink

agent.sinks.hbaseSink.type = asynchbase

# hbase table

agent.sinks.hbaseSink.table = flume_data

# set table column

agent.sinks.hbaseSink.columnFamily= info

# serializer sink

agent.sinks.hbaseSink.serializer=org.apache.flume.sink.hbase.SimpleAsyncHbaseEventSerializer

# set hbase zk

agent.sinks.hbaseSink.zookeeperQuorum = dn1:,dn2:,dn3:

3.3 创建HBase表

进入到HBase集群，执行表创建命令，如下所示：

hbase(main)::> create 'flume_data','info'

3.4 启动Flume Agent

接着，启动Flume Agent实例，命令如下所示：

# 在Linux后台执行命令

flume-ng agent -n agent -f $FLUME_HOME/conf/kafka2hbase.properties &

3.5 在Kafka Eagle中向Topic写入数据

然后，在Kafka Eagle中写入数据，如下图所示：

3.6 在HBase中查询传输的数据

最后，在HBase中查询表flume_data的数据，验证是否传输成功，命令如下：

hbase(main)::> scan 'flume_data'

预览结果如下所示：

4.总结

至此，Kafka中业务Topic的数据，经过Flume Source组件消费后，再由Flume Sink组件写入到HDFS，整个过程省略了大量的业务编码工作。如果实际工作当中不涉及复杂的业务逻辑处理，对于Kafka的数据转发需求，不妨可以试试这种方案。

5.结束语

这篇博客就和大家分享到这里，如果大家在研究学习的过程当中有什么问题，可以加群进行讨论或发送邮件给我，我会尽我所能为您解答，与君共勉！

另外，博主出书了《Kafka并不难学》，喜欢的朋友或同学，可以在公告栏那里点击购买链接购买博主的书进行学习，在此感谢大家的支持。

使用Flume消费Kafka数据到HDFS的更多相关文章

spark streaming从指定offset处消费Kafka数据
spark streaming从指定offset处消费Kafka数据 -- : 770人阅读评论() 收藏举报分类: spark() 原文地址:http://blog.csdn.net/high ...
Flink消费Kafka数据并把实时计算的结果导入到Redis
1. 完成的场景在很多大数据场景下,要求数据形成数据流的形式进行计算和存储.上篇博客介绍了Flink消费Kafka数据实现Wordcount计算,这篇博客需要完成的是将实时计算的结果写到redis. ...
flume 读取kafka 数据
本文介绍flume读取kafka数据的方法代码: /************************************************************************* ...
Flume同时输出数据到HDFS和kafka
cd /usr/local/flume/conf vim flume-exec-total.conf ## Explain #通过sink把数据分别输出到kafka和HDFS上 # Name the ...
使用flume将kafka数据sink到HBase【转】
1. hbase sink介绍 1.1 HbaseSink 1.2 AsyncHbaseSink 2. 配置flume 3. 运行测试flume 4. 使用RegexHbaseEventSeriali ...
Logstash读取Kafka数据写入HDFS详解
强大的功能,丰富的插件,让logstash在数据处理的行列中出类拔萃通常日志数据除了要入ES提供实时展示和简单统计外,还需要写入大数据集群来提供更为深入的逻辑处理,前边几篇ELK的文章介绍过利用lo ...
Sprak2.0 Streaming消费Kafka数据实时计算及运算结果保存数据库代码示例
package com.gm.hive.SparkHive; import java.util.Arrays; import java.util.Collection; import java.uti ...
Spark Steaming消费kafka数据条数变少问题
对于基于Receiver 形式,我们可以通过配置 spark.streaming.receiver.maxRate 参数来限制每个 receiver 每秒最大可以接收的记录的数据:对于 Direct ...
Spark Streaming消费Kafka Direct方式数据零丢失实现
使用场景 Spark Streaming实时消费kafka数据的时候,程序停止或者Kafka节点挂掉会导致数据丢失,Spark Streaming也没有设置CheckPoint(据说比较鸡肋,虽然可以 ...

随机推荐

【C语言编程练习】5.12 兔子产仔问题
1. 题目要求把一对新生的兔子关在屋子里,已知一对两个月大的兔子以后买一个月可以生一对小兔子,而这一对心生的小兔子初生两个月以后才可以生小兔子,假如一年内没有死亡,一年可以繁殖成多少对? 2. 题目 ...
彻底卸载Windows Service
前言,我使用Quartz.net + quartz.config + quartz_jobs.xml 写了个Windows Service,使用如下bat脚本执行服务的安装,启动,暂停,卸载 @ech ...
hanlp大辞典
hanlp加一个很大的词典时候遇到的问题: ,然后改为5g,5g,问题得到解决. 但是运行后还有一个问题是: 重新改为10g,10g,问题得到解决. 也就是给java虚拟机分配的内存大点.
《SpringMVC从入门到放肆》十三、SpringMVC数据校验
上一章,我们学习了SpringMVC的自定义类型转换器,但是如果转换后的数据传递到Controller的方法中,忽然发现有某些属性为Null了,这怎么办?我们需要一种有效的数据校验机制,来对数据进行有 ...
弄懂CNN，然后提升准确率4.21-4.27
英语: 1.每天背单词,75起步.(这周没怎么背,考虑调整了) 2.并背王江涛图画作文一:传统文化(这周没背,但肯定要做) 学校: 0.吴恩达ML 1.毕设一:可视化,肺癌基因突变,深度学习(那么作图 ...
Prometheus 企业微信报警/inhibit抑制 /静默（二）
创建企业微信应用注册企业微信:访问https://work.weixin.qq.com/,注册企业,随便填,不需要认证创建应用创建告警配置 vim /usr/local/prometheus-2 ...
A_B_Good Bye 2018_cf
A. New Year and the Christmas Ornament time limit per test 1 second memory limit per test 256 megaby ...
List集合和JSON互转工具类
public class JsonListUtil { /** * List<T> 转 json 保存到数据库 */ public static <T> String list ...
java枚举使用总结
补充几点: 1.枚举对象是可以用 == 比较. 2. TestEnum3反编译结果: F:\tree\Test\src\test>javap TestEnum3* Compiled from & ...
JavaWeb学习路线
一.三大组件介绍 javaweb在开发中有三大组件分别提供不同的功能,这三大组件为servlet,filter,listener 1.servlet 简单来说就是客户端请求服务器和接受服务器的响应,狭 ...

使用Flume消费Kafka数据到HDFS