首页
Python
Java
IOS
Andorid
NodeJS
JavaScript
HTML5
【
flume中Source
】的更多相关文章
flume中Source
Spooling Directory Source: 以下2组参数解释: fileHeader及fileHeaderKey:fileHeader是个布尔值,可配置为true或者false,表示在flume读取数据之后,是否在封装出来的event中将文件名添加到event的header中.fileHeaderKey表示,如果event中有了header(当fileHeader配置为true)时,header中存储文件名的<key,value>中,key命名是什么.比如,如果将fileHeader…
flume中的agent配置和启动
首先创建一个文件example.conf(touch example.conf) 然后在文件中,进行agent文件的如下的配置(vi example.conf) agent文件的配置:(配置agent文件的时候主要配置flume三个'零部件'的重要的属性,三个部件分别为sources,channels,sinks)配置如下的默认值: a1.sources=r1 a1.sinks=s1 a1.channels=c1 Flume模块source配置: a1.sources.r1.type=ne…
关于flume中的几个疑惑
文章发自http://www.cnblogs.com/hark0623/p/4205756.html 转载请注明 flume越用越有一些疑惑,这个月中按计划是要阅读flume源码的,我希望能解决我的疑惑,另外,当疑惑解决后,我也会把过程和结论发到博客中,最终会把链接更新至当前帖子中的,疑惑如下: 1.通过阅读官网,发现如何请求json获取flume的监控信息,但对于监控信息我不太理解,需要阅读源码来搞清楚. 2.我的spark streaming监控了每次从flume推送来的数据量的大小,发现…
把Flume的Source设置为 Spooling directory source
把Flume的Source设置为 Spooling directory source,在设定的目录下放置需要读取的文件,一些文件在读取过程中会报错. 文件格式和报错如下: 实验一 读取汉子和“:"符号的TXT文档 会报一下错误 2015-11-06 22:16:02,386 (pool-3-thread-1) [ERROR - org.apache.flume.source.SpoolDirectorySource$SpoolDirectoryRunnable.run(SpoolDirector…
Flume学习——Flume中事务的定义
首先要搞清楚的问题是:Flume中的事务用来干嘛? Flume中的事务用来保证消息的可靠传递. 当使用继承自BasicChannelSemantics的Channel时,Flume强制在操作Channel时采用特定的程序结构,并且强制channel实现特定的方法以使得Channel本身可以应对存入或取出失败的情况,并且使得channel的使用者有可能根据操作是否成功采取适当的方法. Channel在Flume的架构中主要起了缓存的作用,当使用FileChannel时,它是一个持久化的缓存. 若把…
flume中sink到hdfs,文件系统频繁产生文件,文件滚动配置不起作用?
在测试hdfs的sink,发现sink端的文件滚动配置项起不到任何作用,配置如下: a1.sinks.k1.type=hdfs a1.sinks.k1.channel=c1 a1.sinks.k1.hdfs.useLocalTimeStamp=true a1.sinks.k1.hdfs.path=hdfs://192.168.11.177:9000/flume/events/%Y/%m/%d/%H/%M a1.sinks.k1.hdfs.filePrefix=XXX a1.sinks.k1.hd…
flume中的拦截器
Flume中的拦截器(interceptor),用户Source读取events发送到Sink的时候,在events header中加入一些有用的信息,或者对events的内容进行过滤,完成初步的数据清洗.这在实际业务场景中非常有用,Flume-ng 1.6中目前提供了以下拦截器: Timestamp Interceptor: Host Interceptor: Static Interceptor: UUID Interceptor: Morphline Interceptor: Search…
flume http source示例讲解
一.介绍 flume自带的Http Source可以通过Http Post接收事件. 场景:对于有些应用程序环境,它可能不能部署Flume SDK及其依赖项,或客户端代码倾向于通过HTTP而不是Flume的PRC发送数据的情况,此时HTTP SOURCE可以用来将数据接收到Flume中. 从客户端的角度看,HTTP SOURCE表现的像web服务器一样能接收flume事件 二.参数 配置参数 默认值 描述 type http (org.apache.fluem.source.httpSour…
Flume自定义Source、Sink和Interceptor(简单功能实现)
1.Event event是flume传输的最小对象,从source获取数据后会先封装成event,然后将event发送到channel,sink从channel拿event消费. event由头headers和身体(body)两部分组成:Headers部分是一个map,body部分可以是String或者byte[]等.其中body部分是真正存放数据的地方,headers部分用于本节所讲的interceptor. 2.Source 自定义Source,自定义的Event需要继承PollableS…
Flume:source和sink
Flume – 初识flume.source和sink 目录基本概念常用源 Source常用sink 基本概念 什么叫flume? 分布式,可靠的大量日志收集.聚合和移动工具. events 事件,是一行数据的字节数据,是flume发送文件的基本单位. flume配置文件 重命名flume-env.sh.template为flume-env.sh,并添加[export JAVA_HOME=/soft/jdk] flume的Agent source //从哪儿读数据. 负责监控并收…
FLUME KAFKA SOURCE 和 SINK 使用同一个 TOPIC
FLUME KAFKA SOURCE 和 SINK 使用同一个 TOPIC 最近做了一个事情,过滤下kakfa中的数据后,做这个就用到了flume,直接使用flume source 和 flume sink,中间再加一个过滤的intercetpor就可以了. 要做的事情很简单,但是遇到了一个问题,就是sink中指定的topic不起作用. 过程是这样的: KafkaSource.doProcess方法会给event的header中添加一个topic信息,里面保存了消费的topic. if (!he…
一次flume exec source采集日志到kafka因为单条日志数据非常大同步失败的踩坑带来的思考
本次遇到的问题描述,日志采集同步时,当单条日志(日志文件中一行日志)超过2M大小,数据无法采集同步到kafka,分析后,共踩到如下几个坑.1.flume采集时,通过shell+EXEC(tail -F xxx.log 的方式) source来获取日志时,当单条日志过大超过1M时,source端无法从日志中获取到Event.2.日志超过1M后,flume的kafka sink 作为生产者发送给日志给kafka失败,kafka无法收到消息.以下针对踩的这两个坑做分析,flume 我使用的是1.9.0…
VC中Source Files, Header Files, Resource Files,External Dependencies的区别
VC中Source Files, Header Files, Resource Files,External Dependencies的区别 区别: Source Files 放源文件(.c..cpp)程序的实现代码全放在这里: Header Files 放头文件(.h)声明放在这里: Resource Files 资源文件(.rc)放图标.图片.菜单.文字之类的,主要用来做界面的东东一般都放这里: External Dependencies 除上三种以外的,程序编译时用到的文件全放这里. 头文…
解决win7 中source insight没有courier new字节的问题
解决win7 中source insight没有courier new字节的问题 http://blog.csdn.net/season_hangzhou/article/details/18665815 在win7下新装source insight 3.5,发现字体里面没有Courier New的选项?那么自己动手解决: 1. “控制面板:--->“字体”--->找到Courier New 然后选中该字体,点击上面的显示. { 对于英文系统:control panel--> font…
Flume中的HDFS Sink配置参数说明【转】
转:http://lxw1234.com/archives/2015/10/527.htm 关键字:flume.hdfs.sink.配置参数 Flume中的HDFS Sink应该是非常常用的,其中的配置参数也比较多,在这里记录备忘一下. channel type hdfs path 写入hdfs的路径,需要包含文件系统标识,比如:hdfs://namenode/flume/webdata/ 可以使用flume提供的日期及%{host}表达式. filePrefix 默认值:FlumeData 写…
Flume中的flume-env.sh和log4j.properties配置调整建议(图文详解)
GC是内存的回收的意思. Flume中的flume-env.sh配置调整建议 [hadoop@master conf_HostInterceptor]$ pwd /home/hadoop/app/flume-/conf_HostInterceptor [hadoop@master conf_HostInterceptor]$ ll total -rw-r--r-- hadoop hadoop Jul : flume-conf.properties -rw-r--r-- hadoop hadoop…
Flume组件source,channel,sink源码分析
LifeCycleState: IDLE, START, STOP, ERROR [Source]: org.apache.flume.Source 继承LifeCycleAware{stop() + start() + getLifeCycleState()} + NamedComponent{getName() + setName()} 产生事件(Event),调用通道处理器(ChannelProcessor)的方法,将事件(Event)持久化到通道(Channel)中. [Channel]…
flume自定义Source(taildirSource),自定义Sink(数据库),开发完整步骤
一.flume简单了解推荐网站(简介包括简单案例部署): http://www.aboutyun.com/thread-8917-1-1.html 二.我的需求是实现从ftp目录下采集数据,目录下文件名称要符合特定正则,要求文件要一行一行读取并解析后写入数据库.且实现断点续传(服务重启后会从上次读的位置继续). flume1.7.0中taildirSource实现的是监控目录下文件并且一行一行的读取,我只需选用这个source就可以实现.但是服务并不能直接部署在数据所在的服务器上,所以涉及到ft…
Flume的Source
source学习网址: http://flume.apache.org/FlumeUserGuide.html 一.Avro 类型的Source 监听Avro 端口来接收外部avro客户端的事件流.和netcat不同的是,avro-source接收到的是经过avro序列化后的数据,然后反序列化数据继续传输.所以,如果是avro-source的话,源数据必须是经过avro序列化后的数据.而netcat接收的是字符串格式. 利用Avro source可以实现多级流动.扇出流.扇入流等效果. 另外,也…
Flume学习之路 (二)Flume的Source类型
一.概述 官方文档介绍:http://flume.apache.org/FlumeUserGuide.html#flume-sources 二.Flume Sources 描述 2.1 Avro Source 2.1.1 介绍 监听Avro端口,从Avro client streams接收events.当与另一个(前一跳)Flume agent内置的Avro Sink配对时,它可以创建分层收集拓扑.字体加粗的属性必须进行设置. 2.1.2 示例 示例一:示例请参考官方文档 示例二: #配置一个a…
关于Flume中Chanel.Selector.header解释
flume内置的ChannelSelector有两种,分别是Replicating和Multiplexing. Replicating类型的ChannelSelector会针对每一个Event,拷贝到所有的Channel中,这是默认的ChannelSelector. replicating类型的ChannelSelector例子如下 a1.sources = r1 a1.channels = c1 c2 # 如果有100个Event,那么c1和c2中都会有这100个事件 a1.channels.…
Flume(二)Flume的Source类型
一.概述 官方文档介绍:http://flume.apache.org/FlumeUserGuide.html#flume-sources 二.Flume Sources 描述 2.1 Avro Source 2.1.1 介绍 监听Avro端口,从Avro client streams接收events.当与另一个(前一跳)Flume agent内置的Avro Sink配对时,它可以创建分层收集拓扑.字体加粗的属性必须进行设置. 2.1.2 示例 示例一:参考官方文档 #配置一个agent,age…
Flume Netcat Source
1.cd /usr/local2/flume/conf sudo vim netcat.conf # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 8888 #…
聊聊自学大数据flume中容易被人忽略的细节
前言:老刘不敢保证说的有多好,但绝对是非常良心地讲述自学大数据开发路上的一些经历和感悟,保证会讲述一些不同于别人技术博客的细节. 01 自学flume的细节 老刘现在想写点有自己特色的东西,讲讲自学大数据遇到的一些事情,保证讲一些别人技术博客里忽略的知识点. 很多自学编程的人都会有一个问题,特别是研二即将找工作的小伙伴,因为马上就要找工作了,自学时间不多了,所以在自学的路上,常常会忽略很多细小但很重要的知识点,很多伙伴都是直接背一些机构的资料. 自己没有静下心来好好研究各个知识点,也没有考虑这…
关于flume中涉及到时间戳的错误解决,Expected timestamp in the Flume even
在搭建flume集群收集日志写入hdfs时发生了下面的错误: java.lang.NullPointerException: Expected timestamp in the Flume event headers, but it was null at com.google.common.base.Preconditions.checkNotNull(Preconditions.java:204) at org.apache.flume.formatter.o…
myeclipse中source not found问题解决办法
myeclipse中出现source not found是因为你所引用的JavaEE Generic Library没有关联源码,如下图: 下面给出该问题的解决办法: 步骤一:去下载apache-tomcat-7.0.57-src.zip源码文件,百度或者去apache-tomcat官网下载 步骤二:将源码进行关联.有两种方法: 方法1:可以在source not found页面直接点击Attach Source,选择步骤一中下载的源码文件后,确定.如下图: 方法2:在项目工程上点击鼠标右键,选…
Linux中source是什么指令?
命令用法: source FileName 作用:在当前bash环境下读取并执行FileName中的命令. 注:该命令通常用命令“.”来替代. 如:source /etc/profile 与 . /etc/profile 是等效的. 注意:source命令与shell scripts的区别是: source在当前bash环境下执行命令,而scripts是启动一个子shell来执行命令.这样如果把设置环境变量(或alias等等)的命令写进scripts中,就只会影响子shell,无法改变当前的B…
Flume笔记--source端监听目录,sink端上传到HDFS
官方文档参数解释:http://flume.apache.org/FlumeUserGuide.html#hdfs-sink 需要注意:文件格式,fileType=DataStream 默认为SequenceFile,是hadoop的文件格式,改为DataStream就可直接读了(SqeuenceFile怎么用还不知道..)配置文件: hdfs.conf a1.sources = r1a1.sinks = k1a1.channels = c1 # Describe/configure the s…
shell中source与sh区别
shell中使用source conf.sh,是直接运行conf.sh的命令,不创建子shell,类似与html中include,而sh是则创建子shell, 子shell里面 的变量父shell无法使用,对环境变量的修改也不影响父shell.父shell中的局部变量,子shell也无法使用, 只有父shell的环境变量, 子shell能够使用.还有一个exec conf.sh,这个与source类似,区别是exec执行完,不再执行后面的语句. source命令的作用就是用来执行一个脚本,那…
MyEclipse中Source Folder,package,folder的区别
1.在eclipse下,package, source folder, folder都是文件夹. 但它们有区别如: 2. package:当你在建立一个package时,它自动建立到source folder下,也只能建立在这个目录之下. 3.source folder:存放java源代码的文件夹,当然也包括一些package文件夹,还可以包含其他文件. 4.项目构建后,source folder里面的java自动编译成class文件到相应的bin文件夹中,其他文件也会移到到相应的目录下. 5.…