大数据系列之Flume+kafka 整合

关于Flume 的一些核心概念：

组件名称	功能介绍
Agent代理	使用JVM 运行Flume。每台机器运行一个agent，但是可以在一个agent中包含多个sources和sinks。
Client客户端	生产数据，运行在一个独立的线程。
Source源	从Client收集数据，传递给Channel。
Sink接收器	从Channel收集数据，进行相关操作，运行在一个独立线程。
Channel通道	连接 sources 和 sinks ，这个有点像一个队列。
Events事件	传输的基本数据负载。

文章和大数据系列之Flume+HDFS 非常相似，不同的在于flume安装目录conf下新建了kafka.properties文件，启动时也应当用此配置文件作为参数启动。下面看具体内容：

1. kafka.properties：

agent.sources = s1

agent.channels = c1

agent.sinks = k1                                                                                                                     

agent.sources.s1.type=exec

agent.sources.s1.command=tail -F /tmp/logs/kafka.log

agent.sources.s1.channels=c1

agent.channels.c1.type=memory

agent.channels.c1.capacity=10000

agent.channels.c1.transactionCapacity=100                                                                                            

#设置Kafka接收器

agent.sinks.k1.type= org.apache.flume.sink.kafka.KafkaSink

#设置Kafka的broker地址和端口号

agent.sinks.k1.brokerList=master:9092

#设置Kafka的Topic

agent.sinks.k1.topic=kafkatest

#设置序列化方式

agent.sinks.k1.serializer.class=kafka.serializer.StringEncoder                                                                       

agent.sinks.k1.channel=c1

关于配置文件中注意3点：

　　a. agent.sources.s1.command=tail -F /tmp/logs/kafka.log

　　b. agent.sinks.k1.brokerList=master:9092

　　c . agent.sinks.k1.topic=kafkatest

2.很明显，由配置文件可以了解到:

　　a.我们需要在/tmp/logs下建一个kafka.log的文件，且向文件中输出内容（下面会说到）;

　　b.flume连接到kafka的地址是 master:9092，注意不要配置出错了；

　　c.flume会将采集后的内容输出到Kafka topic 为kafkatest上，所以我们启动zk,kafka后需要打开一个终端消费topic kafkatest的内容。这样就可以看到flume与kafka之间玩起来了~~

3.具体操作：

　　a.在/tmp/logs下建立空文件kafka.log。在mfz 用户目录下新建脚本kafkaoutput.sh(一定要给予可执行权限)，用来向kafka.log输入内容: kafka_test***

for((i=0;i<=1000;i++));

do echo "kafka_test-"+$i>>/tmp/logs/kafka.log;

done

　　b. 在kafka安装目录下执行如下命令，启动zk,kafka 。(不明白此处可参照大数据系列之Flume+HDFS)

bin/zookeeper-server-start.sh -daemon config/zookeeper.properties &

bin/kafka-server-start.sh -daemon config/server.properties &

　c.新增Topic kafkatest

bin/kafka-topics.sh --create --zookeeper localhost:2181 --replication-factor 1 --partitions 1 --topic kafkatest

　　d.打开新终端，在kafka安装目录下执行如下命令，生成对topic kafkatest 的消费

bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic kafkatest --from-beginning --zookeeper master

　　e.启动flume

bin/flume-ng agent --conf-file  conf/kafka.properties -c conf/ --name agent -Dflume.root.logger=DEBUG,console

　 d.执行kafkaoutput.sh脚本（注意观察kafka.log内容及消费终端接收到的内容）

　　e.查看新终端消费信息

整体流程如图：

完~~

后续将介绍Java代码对于Flume+HDFS ，Flume+Kafka的实现。敬请期待~

大数据系列之Flume+kafka 整合的更多相关文章

大数据入门第十八天——kafka整合flume、storm
一.实时业务指标分析 1.业务业务: 订单系统---->MQ---->Kakfa--->Storm 数据:订单编号.订单时间.支付编号.支付时间.商品编号.商家名称.商品价格.优惠 ...
大数据系列之Flume+HDFS
本文将介绍Flume(Spooling Directory Source) + HDFS,关于Flume 中几种Source详见文章 http://www.cnblogs.com/cnmenglang ...
Flume+Kafka整合
脚本生产数据---->flume采集数据----->kafka消费数据------->storm集群处理数据日志文件使用log4j生成,滚动生成! 当前正在写入的文件在满足一定的数 ...
大数据系列之分布式数据库HBase-0.9.8安装及增删改查实践
若查看HBase-1.2.4版本内容及demo代码详见大数据系列之分布式数据库HBase-1.2.4+Zookeeper 安装及增删改查实践 1. 环境准备: 1.需要在Hadoop启动正常情况下安 ...
12.Linux软件安装 (一步一步学习大数据系列之 Linux)
1.如何上传安装包到服务器有三种方式: 1.1使用图形化工具,如: filezilla 如何使用FileZilla上传和下载文件 1.2使用 sftp 工具: 在 windows下使用CRT 软件 ...
大数据系列（5）——Hadoop集群MYSQL的安装
前言有一段时间没写文章了,最近事情挺多的,现在咱们回归正题,经过前面四篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,相关的两款软件VSFTP和SecureCRT也已经正常安装了. ...
大数据系列（4）——Hadoop集群VSFTP和SecureCRT安装配置
前言经过前三篇文章的介绍,已经通过VMware安装了Hadoop的集群环境,当然,我相信安装的过程肯定遇到或多或少的问题,这些都需要自己解决,解决的过程就是学习的过程,本篇的来介绍几个Hadoop环 ...
大数据系列（3）——Hadoop集群完全分布式坏境搭建
前言上一篇我们讲解了Hadoop单节点的安装,并且已经通过VMware安装了一台CentOS 6.8的Linux系统,咱们本篇的目标就是要配置一个真正的完全分布式的Hadoop集群,闲言少叙,进入本 ...
大数据系列（2）——Hadoop集群坏境CentOS安装
前言前面我们主要分析了搭建Hadoop集群所需要准备的内容和一些提前规划好的项,本篇我们主要来分析如何安装CentOS操作系统,以及一些基础的设置,闲言少叙,我们进入本篇的正题. 技术准备 VMwa ...

随机推荐

[poi2011]bzoj 2277 —— strongbox·[洛谷3518]
·问题描述· 有一个密码箱,0到n-1中的某些数是它的密码.且满足:如果a和b都是它的密码,那么(a+b)%n也是它的密码.某人试了k次密码,前k-1次都失败了,最后一次成功. 问:该密码箱最多有多少 ...
用Racket语言写了一个万花筒的程序
用Racket语言写了一个万花筒的程序来源:https://blog.csdn.net/chinazhangyong/article/details/79362394 https://github. ...
浅谈Android发展趋势分析
去年11月16.17日,我有幸参加了北京2017安卓技术大会,做了关于车载Android系统的演讲,并主持了诸多大咖参与的圆桌讨论,对Android未来几年的发展趋势进行了一番讨论.来自小米.百度.高 ...
第三周——构建一个简单的Linux系统MenuOS
[洪韶武原创作品转载请注明出处 <Linux内核分析>MOOC课程http://mooc.study.163.com/course/USTC-1000029000 ] 第三周构建一个 ...
linux安全第二周学习总结
一.实验过程 cd LinuxKernel/linux-3.9.4 qemu -kernel arch/x86/boot/bzImage 然后cd mykernel 您可以看到qemu窗口输出的内容的 ...
HikariPool-1 - Connection is not available, request timed out after XXXXms.
hikaripool-0-连接不可用,请求在30000ms之后超时.意思是池等待30000ms的免费连接,但是您的应用程序没有返回任何连接. 原因一:连接泄漏(在从池中借用之后连接没有关闭).解决方法 ...
python基础----元类metaclass
1 引子 class Foo: pass f1=Foo() #f1是通过Foo类实例化的对象 python中一切皆是对象,类本身也是一个对象,当使用关键字class的时候,python解释器在加载cl ...
Oracle中rank() over, dense_rank(), row_number() 的区别
摘自:http://www.linuxidc.com/Linux/2015-04/116349.htm Oracle 中 rank() over, dense_rank(), row_number() ...
子序列 sub sequence问题，例：最长公共子序列，[LeetCode] Distinct Subsequences(求子序列个数)
引言子序列和子字符串或者连续子集的不同之处在于,子序列不需要是原序列上连续的值. 对于子序列的题目,大多数需要用到DP的思想,因此,状态转移是关键. 这里摘录两个常见子序列问题及其解法. 例题1, ...
关闭eclipse自动弹出console功能
使用eclipse时经常会用到最大化窗口,而如果此时是开着tomcat等服务的话,一段后台有打印什么东西出来都会自己弹出 console挺烦人的.可以使用以下操作关闭这个功能. Preferences ...

大数据系列之Flume+kafka 整合

文章和 大数据系列之Flume+HDFS 非常相似，不同的在于flume安装目录conf下新建了kafka.properties文件，启动时也应当用此配置文件作为参数启动。下面看具体内容：

大数据系列之Flume+kafka 整合的更多相关文章

随机推荐

热门专题

文章和大数据系列之Flume+HDFS 非常相似，不同的在于flume安装目录conf下新建了kafka.properties文件，启动时也应当用此配置文件作为参数启动。下面看具体内容：