浅谈flume

flume
做日志收集的工具，将数据源导入到指定目标中。flume之间可以相互连接
组件
   source：如何从数据源中取数据，可以认为是两种主动source（主动取数据）和被动source（推给source，source作为服务接收数据）
   channel：数据缓冲区
   sink：如何将数据写到目标中
   上面3个组件都在一个agent中，agent是一个任务
安装（依赖jdk）
使用netcat Source做个示例
vi test     # 创建一个agent配置文件，用来配置sink，source，channel
内容如下
   a1.sources = r1     # agent组件名字叫做a1，sources组件名字叫做r1
   a1.sinks = k1       # sinks组件叫做k1
   a1.channels = c1
   a1.sources.r1.type = netcat   # source的类型是netcat
   a1.sources.r1.bind = localhost   # 监听地址
   a1.sources.r1.port = 44444       # 监听端口
   a1.sinks.k1.type = logger       # sink类型是logger
   a1.channels.c1.type = memory   # channel的类型是内存缓冲区
   a1.channels.c1.capacity = 1000   # 大小（字节为单位）
   a1.channels.c1.transactionCapacity = 100
   a1.sources.r1.channels = c1
    a1.sinks.k1.channel = c1
如果要做flume负载均衡，可以设置多个sink，比如：a1.sinks=k1 k2，默认是轮询策略（round_robin）
启动
./bin/flume-ng agent --conf conf --conf-file example.conf --name a1 -Dflume.root.logger=INFO,console
   --conf或者-c     # flume的整个配置目录（这里是目录不是文件，就是flume的conf目录）
   --conf-file或者-f    # agent的配置文件
   --name或者-n       # agent名字
   -Dflume.root.logger   # logger的日志级别（info级别）和logger输出日志到哪里去（console表示控制台）
可以用 telnet ip 端口命令进行测试
常用source配置
   1.avro（被动的）基于rpc协议进行数据传输，它传输的数据格式是avro格式，只能接收传过来avro格式的数据
       a1.sources.r1.type = avro
       a1.sources.r1.bind = 192.168.237.130    # 配置监听的ip
       a1.sources.r1.port = 4444       # 配置监听的端口
   2.Spooling Directory（主动）主动读目录中的数据
       a1.sources.r1.type = spooldir
       a1.sources.r1.spoolDir=/opt/flume   # 指定目录
   3.netcat（被动）是个服务，所以一定会监听某个端口，基于tcp协议的
       a1.sources.r1.type = netcat   # source的类型是netcat
       a1.sources.r1.bind = localhost   # 监听地址
       a1.sources.r1.port = 44444       # 监听端口
   4.exec（主动）通过命令主动从本地获取数据
       a1.sources.r1.type = exec
       a1.sources.r1.port = tail -F /opt/data/access.log       # 通过什么命令来读数据
   5.kafka
   6.netcat
   7.syslog（被动）
常用sink配置
   1.avro
       a1.sinks.k1.type = avro
       a1.sinks.k1.hostname = 192.168.237.130        # 服务端的主机名
       a1.sinks.k1.type = 4444           # 服务端的端口
   2.file roll写到目录中
       a1.sinks.k1.type = file_roll
       a1.sinks.k1.sink.directory = /opt/sink       # 指定写到哪个目录中，需要手动创建目录
       a1.sinks.k1.sink.rollInterval = 600           # 每10分钟写成一个文件
   3.HDFS
       a1.sinks.k1.type = hdfs
       a1.sinks.k1.hdfs.path = hdfs://node1:900/flume/data # 只当hdfs目录，如果是高可用的HDFS直接使用服务名就可以
       下面三个配置一定要配置，如果不配置生成的文件会很乱
       a1.sinks.k1.hdfs.rollInterval = 0           # 根据时间间隔生成文件，0表示不启用，秒作为单位
       a1.sinks.k1.hdfs.rollSize = 10240000                # 根据文件大小生产文件，kb作为单位，0为不启用，这里用10M
       a1.sinks.k1.hdfs.rollCount = 0               # 根据写的次数生成文件，0表示不启用
       a1.sinks.k1.hdfs.idleTimeout = 5       # 超时多少秒后把这个文件关闭，0是不关闭的，在tmp目录中一直会有个文件，这里设置5s，如果5s后没有新数据来就关闭
       a1.sinks.k1.hhdfs.fileType = DataStream # 文件类型，默认是SequenceFile，DataStream 不压缩的
       a1.sinks.k1.hdfs.batchSize = 1000       # 批处理的数据大小，可以加快写的速度
       为了方便管理可以设置以日期作为目录结构
       a1.sinks.k1.hdfs.useLocalTimeStamp = true # 默认false，开启使用本地时间戳作为格式，然后a1.sinks.k1.hdfs.path = hdfs://node1:900/flume/data/%Y/%m/%d以年月日做目录
   4.null就是Linux中/dev/null
   5.ElasticSearch
    6.hbase
   7.kafka（需要flume1.6.0及以上，因为之前的版本需要额外下载插件）
       a1.sinks.k1.type = org.apache.flume.sink.kafka.KafkaSink
       a1.sinks.k1.topic = test           # 设置topic
       a1.sinks.k1.kafka.bootstrap.servers = 192.168.237.130:9092,192.168.237.129:9092,192.168.237.128:9092   # 设置kafka的zookeeper
       a1.sinks.k1.requiredAcks = 1
       a1.sinks.k1.batchSize = 20
补充
1.flume占用的内存是jvm的，如果flume内存不够了，修改conf/flume-env.sh设置堆内存和栈内存export JAVA_OPTS="-Xms100m -Xmx2000m -Dcom.sun.management.jmxremote"并打开
2.如果想写到数据库中就需要自定义sink了，需要写个类继承某个类实现方法，里面的process就是写数据方法，打包放到flume中lib目录中，然后就配置
a1.channels = c1
a1.sinks = k1
a1.sinks.k1.type = org.example.MySink
a1.sinks.k1.channel = c1
具体可以看开发向导中找sink，也可以自定义source，process方法就是读数据
网址http://flume.apache.org/releases/content/1.9.0/FlumeDeveloperGuide.html的Client
3.flume通过环境变量找到Hadoop的配置文件和jar包，所以flume所在的机器上一定要配置Hadoop_home，但是可以不跑Hadoop进程。如果Hadoop高可用还要配置zookeeper的环境变量

浅谈flume的更多相关文章

浅谈 Fragment 生命周期
版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰源码:AndroidDemo/Fragment 文中如有纰漏,欢迎大家留言指出. Fragment 是在 Android 3.0 中 ...
浅谈 LayoutInflater
浅谈 LayoutInflater 版权声明:本文为博主原创文章,未经博主允许不得转载. 微博:厉圣杰源码:AndroidDemo/View 文中如有纰漏,欢迎大家留言指出. 在 Android 的 ...
浅谈Java的throw与throws
转载:http://blog.csdn.net/luoweifu/article/details/10721543 我进行了一些加工,不是本人原创但比原博主要更完善~ 浅谈Java异常以前虽然知道一 ...
浅谈SQL注入风险 - 一个Login拿下Server
前两天,带着学生们学习了简单的ASP.NET MVC,通过ADO.NET方式连接数据库,实现增删改查. 可能有一部分学生提前预习过,在我写登录SQL的时候,他们鄙视我说:“老师你这SQL有注入,随便都 ...
浅谈WebService的版本兼容性设计
在现在大型的项目或者软件开发中,一般都会有很多种终端, PC端比如Winform.WebForm,移动端,比如各种Native客户端(iOS, Android, WP),Html5等,我们要满足以上所 ...
浅谈angular2+ionic2
浅谈angular2+ionic2 前言: 不要用angular的语法去写angular2,有人说二者就像Java和JavaScript的区别. 1. 项目所用:angular2+ionic2 ...
iOS开发之浅谈MVVM的架构设计与团队协作
今天写这篇博客是想达到抛砖引玉的作用,想与大家交流一下思想,相互学习,博文中有不足之处还望大家批评指正.本篇博客的内容沿袭以往博客的风格,也是以干货为主,偶尔扯扯咸蛋(哈哈~不好好工作又开始发表博客啦 ...
Linux特殊符号浅谈
Linux特殊字符浅谈我们经常跟键盘上面那些特殊符号比如(?.!.~...)打交道,其实在Linux有其独特的含义,大致可以分为三类:Linux特殊符号.通配符.正则表达式. Linux特殊符号又可 ...
浅谈Angular的 $q, defer, promise
浅谈Angular的 $q, defer, promise 时间 2016-01-13 00:28:00 博客园-原创精华区原文 http://www.cnblogs.com/big-snow/ ...
浅谈Hybrid技术的设计与实现第三弹——落地篇
前言接上文:(阅读本文前,建议阅读前两篇文章先) 浅谈Hybrid技术的设计与实现浅谈Hybrid技术的设计与实现第二弹根据之前的介绍,大家对前端与Native的交互应该有一些简单的认识了,很多 ...

随机推荐

cmd/批处理常用命令
启动新窗口执行命令 ::执行完毕以后,新开的窗口不会自动关闭 start cmd /k echo 123 ::执行完毕以后,新开的窗口会自动关闭 start cmd /C "echo 123 ...
uniapp如何打包wgt格式
打包 build 首次打包,需要配置AppId 登录dcloud开发者中心点击直达创建应用将生成的AppId配置到项目manifest.json中开始打包打包成功
创建型模式 - 简单工厂模式StaticFactoryMethod
简单工厂模式的定义创建型模式: 我们把被创建的对象称为产品,把创建产品的对象称为工厂.如果要创建的产品不多,只要一个工厂类就可以完成,这种模式叫简单工厂模式. 在简单 ...
分布式配置nacos搭建踩坑指南(下)
上一篇介绍了在配置nacos中的碰到的坑,这一篇介绍一下如何正确进行nacos的环境搭建和配置,所以本文分为两部分,第一部分为环境搭建,介绍如何安装和运行.第二部分为alibaba Sprint Bo ...
源码下载teb
git clone https://github.com/rst-tu-dortmund/teb_local_planner.git git checkout <ros版本分支> git ...
Windows下x86和x64平台的Inline Hook介绍
前言我在之前研究文明6的联网机制并试图用Hook技术来拦截socket函数的时候,熟悉了简单的Inline Hook方法,但是由于之前的方法存在缺陷,所以进行了深入的研究,总结出了一些有关Windo ...
微信小程序项目中使用icon图标
效果: 步骤: 1.先让ui负责人把你的账号加入到项目中,加入到项目中后就可以在icon图标库中看到该项目 2.在小程序中使用新建一个view,在上面加一个class,复制icon名字上去即可,注意 ...
题解 P5072 【[Ynoi2015] 盼君勿忘】
在太阳西斜的这个世界里,置身天上之森.等这场战争结束之后,不归之人与望眼欲穿的众人, 人人本着正义之名,长存不灭的过去.逐渐消逝的未来.我回来了,纵使日薄西山,即便看不到未来,此时此刻的光辉,盼君勿忘 ...
系统提权之：Unix 提权
郑重声明: 本笔记编写目的只用于安全知识提升,并与更多人共享安全知识,切勿使用笔记中的技术进行违法活动,利用笔记中的技术造成的后果与作者本人无关.倡导维护网络安全人人有责,共同维护网络文明和谐. 系统 ...
new Date(time).getTime()在ios返回NaN
解决: IOS识别(年月日时分秒) new Date(2010,0,1,0,0,0).getTime() 1.问题出在: 日期转成时间戳getTime(): var time = "2017 ...

浅谈flume

浅谈flume的更多相关文章

随机推荐

热门专题