kafka+flume+HDFS日志采集项目框架

1，项目图如下：

2，实现过程

启动HDFS：

sbin/start-dfs.sh

启动zookeeper（三台）：

 bin/zkServer.sh start

启动kafka（三台）：

root@Ubuntu-:/usr/local/kafka# bin/kafka-server-start.sh config/server.properties >logs/kafka3.log >&

在131中创建access的topic：

root@Ubuntu-:/usr/local/kafka# bin/kafka-topics.sh --create --topic access --zookeeper 192.168.22.131:,192.168.22.132:,192.168.22.135: --replication-factor  --partitions

查看创建的主题：

root@Ubuntu-:/usr/local/kafka# bin/kafka-topics.sh --list --zookeeper localhost:

131启动flume：

bin/flume-ng agent --conf conf/ --conf-file conf/access.conf  --name a1 -Dflume.root.logger=INFO,console &

内容：

#定义各个模块

a1.sources = exec

a1.sinks = hdfs_sink kafka_sink

a1.channels = hdfs_channel kafka_channel

#配置 exec source

a1.sources.exec.type = exec

a1.sources.exec.command = tail -F /usr/local/apache-flume/logs/hu.log

#配置拦截器

a1.sources.exec.interceptors = i1

a1.sources.exec.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

# 配置 channel

a1.channels.hdfs_channel.type = memory

a1.channels.hdfs_channel.capacity =

a1.channels.hdfs_channel.transactionCapacity = 

a1.channels.kafka_channel.type = memory

a1.channels.kafka_channel.capacity =

a1.channels.kafka_channel.transactionCapacity = 

# 配置hdfs sink

a1.sinks.hdfs_sink.type = hdfs

a1.sinks.hdfs_sink.hdfs.path =hdfs://Ubuntu-1:9000/source/%{type}/%Y%m%d

a1.sinks.hdfs_sink.hdfs.filePrefix = events-

a1.sinks.hdfs_sink.hdfs.fileType = DataStream

#a1.sinks.hdfs_sink.hdfs.fileType = CompressedStream

#a1.sinks.hdfs_sink.hdfs.codeC = gzip

#不按照条数生成文件

a1.sinks.hdfs_sink.hdfs.rollCount =

#HDFS上的文件达到64M时生成一个文件

a1.sinks.hdfs_sink.hdfs.rollSize =

a1.sinks.hdfs_sink.hdfs.rollInterval =

a1.sinks.hdfs_sink.hdfs.batchSize=

# 配置 kafka sink

a1.sinks.kafka_sink.type = org.apache.flume.sink.kafka.KafkaSink

a1.sinks.kafka_sink.topic = access

a1.sinks.kafka_sink.brokerList = 192.168.22.131:,192.168.22.132:,192.168.22.135:

a1.sinks.kafka_sink.requiredAcks =

a1.sinks.kafka_sink.batchSize = 

# 绑定三种组件的关系

a1.sources.exec.channels = hdfs_channel kafka_channel

a1.sinks.hdfs_sink.channel = hdfs_channel

a1.sinks.kafka_sink.channel = kafka_channel

132中创建kafka的producer：

root@Ubuntu-:/usr/local/kafka# bin/kafka-console-consumer.sh --zookeeper 192.168.22.131:,192.168.22.132:,192.168.22.135: --topic access

kafka+flume+HDFS日志采集项目框架的更多相关文章

项目01-flume、kafka与hdfs日志流转
项目01-flume.kafka与hdfs日志流转 1.启动kafka集群 $>xkafka.sh start 3.创建kafka主题 kafka-topics.sh --zookeeper s ...
大数据软件安装之Flume（日志采集）
一.安装地址 1) Flume官网地址 http://flume.apache.org/ 2)文档查看地址 http://flume.apache.org/FlumeUserGuide.html 3) ...
基于Flume+LOG4J+Kafka的日志采集架构方案
本文将会介绍如何使用 Flume.log4j.Kafka进行规范的日志采集. Flume 基本概念 Flume是一个完善.强大的日志采集工具,关于它的配置,在网上有很多现成的例子和资料,这里仅做简单说 ...
flink---实时项目--day02-----1. 解析参数工具类 2. Flink工具类封装 3. 日志采集架构图 4. 测流输出 5. 将kafka中数据写入HDFS 6 KafkaProducer的使用 7 练习
1. 解析参数工具类(ParameterTool) 该类提供了从不同数据源读取和解析程序参数的简单实用方法,其解析args时,只能支持单只参数. 用来解析main方法传入参数的工具类 public c ...
日志采集框架Flume
前言在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集.结果数据导出.任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中 ...
日志采集框架 Flume
日志采集框架 Flume 1 概述 Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. Flume可以采集文件,socket数据包等各种形式源数据,又可以将采集到的数据输出到H ...
Flume日志采集框架的使用
文章作者:foochane 原文链接:https://foochane.cn/article/2019062701.html Flume日志采集框架安装和部署 Flume运行机制采集静态文件到h ...
一次flume exec source采集日志到kafka因为单条日志数据非常大同步失败的踩坑带来的思考
本次遇到的问题描述,日志采集同步时,当单条日志(日志文件中一行日志)超过2M大小,数据无法采集同步到kafka,分析后,共踩到如下几个坑.1.flume采集时,通过shell+EXEC(tail -F ...
01_日志采集框架Flume简介及其运行机制
离线辅助系统概览: 1.概述: 在一个完整的大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集.结果数据导出. 任务调度等不可或缺的辅助系统,而这些辅助 ...

随机推荐

Delphi中客户端获取数据库更新信息（更新条数）
1.SQL语句 from tb where xxx='XXX') //不存在,则插入数据 begin insert into tb(xxx) values('XXX') //这里自己定义,插入或更新都 ...
3124: [Sdoi2013]直径
3124: [Sdoi2013]直径 https://www.lydsy.com/JudgeOnline/problem.php?id=3124 分析: 所有直径都经过的边,一定都是连续的一段.(画个 ...
Hive数据倾斜和解决办法
转自:https://blog.csdn.net/xinzhi8/article/details/71455883 操作: 关键词情形后果 Join 其中一个表较小,但是key集中 ...
【连载】Bootstrap开发漂亮的前端界面之自定义右键菜单
连载: 1<教你用Bootstrap开发漂亮的前端界面> 2.<Bootstrap开发漂亮的前端界面之实现原理> 网页中的自定义右键菜单越来越普遍,自定义右键菜单可以增强用户体 ...
Python 3基础教程24-读取csv文件
本文来介绍用Python读取csv文件.什么是csv(Comma-Separated Values),也叫逗号分割值,如果你安装了excel,默认会用excel打开csv文件. 1. 我们先制作一个c ...
u盘中毒后文件夹没显示了
今日,我的U盘插了有毒的电脑,直接中毒了,先是显示有木马,后是自行产生一些文件,接着文件夹没了,后来自己终于解决了,分享一下,自己先用工具将有嫌疑的文件提炼出来,经自行检查后处理,接着打开文件夹选项, ...
chrome谷歌浏览器导致的密码被修改现象
版本 68.0.3440.106(正式版本) (32 位)记住密码功能有个缺陷,会把自己的密码自动填写到别人的密码框中,假如这个时候点击保存密码,就会导致其他用户的密码被修改为登录用户的密码. 很 ...
指针C语言
一.PTA实验作业题目一:6-7输出月份英文名 1.PTA提交列表 2.设计思路和流程图这题只需补充子函数,定义指针数组month[12],分别从一月到十二月,再定义一个字符,让它为NULL,当输 ...
Python创建目录文件夹
Python对文件的操作还算是方便的,只需要包含os模块进来,使用相关函数即可实现目录的创建. 主要涉及到三个函数 1.os.path.exists(path) 判断一个目录是否存在 2.os.mak ...
MongoDB 存储日志数据
MongoDB 存储日志数据 https://www.cnblogs.com/nongchaoer/archive/2017/01/11/6274242.html 线上运行的服务会产生大量的运行及访问 ...

kafka+flume+HDFS日志采集项目框架

1，项目图如下：

2， 实现过程

kafka+flume+HDFS日志采集项目框架的更多相关文章

随机推荐

热门专题

2，实现过程