Flume学习——BasicChannelSemantics】的更多相关文章

public class MemoryChannel extends BasicChannelSemantics public abstract class BasicChannelSemantics extends AbstractChannel public abstract class AbstractChannel implements Channel, LifecycleAware, Configurable AbstractChannel只在实现了LifecycleAware,Nam…
Flume学习总结 flume是一个用来采集数据的软件,它可以从数据源采集数据到一个集中存放的地方. 最常用flume的数据采集场景是对日志的采集,不过,lume也可以用来采集其他的各种各样的数据,因为flume是以行为单位从文件或者数据库中采集数据的. 提纲 1.flume简介 介绍flume的开发商.用途.主要特点 2.flume的安装配置 3.flume的主要概念 4.flume的使用demo 5.flume的设计原理 参考资料: 1.https://blog.csdn.net/wing_…
原文链接:flume学习(三):flume将log4j日志数据写入到hdfs 在第一篇文章中我们是将log4j的日志输出到了agent的日志文件当中.配置文件如下: tier1.sources=source1 tier1.channels=channel1 tier1.sinks=sink1 tier1.sources.source1.type=avro tier1.sources.source1.bind=0.0.0.0 tier1.sources.source1.port=44444 tie…
概述 Windows平台:Java写日志到Flume,Flume最终把日志写到MongoDB. 系统环境 操作系统:win7 64 JDK:1.6.0_43 资源下载 Maven:3.3.3下载.安装.入门参考:1. Maven - 开始和2. 创建一个简单的Maven项目 Flume:1.6.0下载apache-flume-1.6.0-bin.tar.gz,并解压到合适的目录(e.g. F:\temp\apache-flume-1.6.0-bin) MongoDB:3.2.3下载mongodb…
正在学习这篇文章: http://blog.csdn.net/ymh198816/article/details/51998085 和工作中接触的电商.订单.分析,可以结合起来. 开宗明义,这幅图片: Strom是一个非常快的实时计算框架,至于快到什么程度呢? 官网首页给出的数据是每一个Storm集群上的节点每一秒能处理一百万条数据.相比Hadoop的"Mapreduce"计算框架,Storm使用的是"Topology":Mapreduce程序在计算完成后最终会停下…
org.apache.flume.channel.BasicTransactionSemantics An implementation of basic Transaction semantics designed to work in concert with BasicChannelSemantics to simplify creation of robust Channel implementations. This class ensures that each transactio…
首先要搞清楚的问题是:Flume中的事务用来干嘛? Flume中的事务用来保证消息的可靠传递. 当使用继承自BasicChannelSemantics的Channel时,Flume强制在操作Channel时采用特定的程序结构,并且强制channel实现特定的方法以使得Channel本身可以应对存入或取出失败的情况,并且使得channel的使用者有可能根据操作是否成功采取适当的方法. Channel在Flume的架构中主要起了缓存的作用,当使用FileChannel时,它是一个持久化的缓存. 若把…
近期项目组有需求点击流日志须要自己收集,学习了一下flume而且成功安装了.相关信息记录一下. 1)下载flume1.5版本号  wget http://www.apache.org/dyn/closer.cgi/flume/1.5.0.1/apache-flume-1.5.0.1-bin.tar.gz 2) 解压flume1.5 tar -zxvf apache-flume-1.5.0.1-bin.tar.gz 3) 配置环境变量 jdk已装 export FLUME_HOME=/XXX/XX…
python3.6hdfs的使用 https://blog.csdn.net/qq_29863961/article/details/80291654 https://pypi.org/  官网直接搜索hdfs就好  https://www.cnblogs.com/dachenzi/p/8676104.html   flume官网http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 最下方 一.Flume 简介1)…
下载 自定义sink(mysql) 1.ide打开下载后的源码 2.代码如下: /** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright owner…
Flume有三个组件:Source.Channel 和 Sink.在源码中对应同名的三个接口. When a Flume source receives an event, it stores it into one or more channels. The channel is a passive store that keeps the event until it’s consumed by a Flume sink. public interface Source extends Li…
Flume是一个分布式.可靠.和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力. Flume是一个专门设计用来从大量的源,推送数据到Hadoop生态系统中各种各样存储系统中去的,例如HDFS和HBase. Guide: http://flume.apache.org/FlumeUserGuide.html 体系架构 Flume的数据流由事件(Event)贯穿始终.事件是Flume的基本数据单位…
# 从http://flume.apache.org/download.html 下载flume ############################################# # 概述:Flume 是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的软件. # Flume的核心是把数据从数据源(source)收集过来,送到指定的目的地(sink).为了保证输送的过程一定 # 成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正…
flume 总结 flume 总结 下载配置安装 1 下载 2 配置安装 flume 架构 agent 配置 1 source 配置 11 监听网络端口 12 监控文件 2 channel 配置 3 sink 配置 failover 和 load balancing failover load balancing 扇出 二次开发 启动 flume 总结 1 下载.配置.安装 1.1 下载 在官网 http://flume.apache.org/download.html 下载 apache-fl…
一.单一代理流配置 1.1 官网介绍 http://flume.apache.org/FlumeUserGuide.html#avro-source 通过一个通道将来源和接收器链接.需要列出源,接收器和通道,为给定的代理,然后指向源和接收器及通道.一个源的实例可以指定多个通道,但只能指定一个接收器实例.格式如下: 实例解析:一个代理名为agent_foo,外部通过avro客户端,并且发送数据通过内存通道给hdfs.在配置文件foo.config的可能看起来像这样: 案例说明:这将使事件流从avr…
一.概述 官方文档介绍:http://flume.apache.org/FlumeUserGuide.html#flume-sources 二.Flume Sources 描述 2.1 Avro Source 2.1.1 介绍 监听Avro端口,从Avro client streams接收events.当与另一个(前一跳)Flume agent内置的Avro Sink配对时,它可以创建分层收集拓扑.字体加粗的属性必须进行设置. 2.1.2 示例 示例一:示例请参考官方文档 示例二: #配置一个a…
一.背景 Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步. 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征: (1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦: (2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统: (3) 具有高可扩展性.即:当数据量增加时,…
Apache Flume,又称Flume NG (next generation),前身是Cloudera公司的Flume项目 -- 又称Flume OG. 这货的功能就是从源中将数据收集到指定的目的地,例如从日志文件中收集日志信息,发送到数据库中或其他地方. Apache Flume的三大块:source.channel.sink:也就是 数据源.通道.目的地. 两个主要的channel:①in-memory channel 非持久.速度快:②JDBC-based channel 持久.速度慢…
#################################################################################################################################################################################################################### flume安装,解压后修改flume_env.sh配置文件,指定java_…
转载:http://blog.csdn.net/xiao_jun_0820/article/details/38111305 对于flume拦截器,我的理解是:在app(应用程序日志)和 source 之间的,对app日志进行拦截处理的.也即在日志进入到source之前,对日志进行一些包装.清新过滤等等动作. 官方上提供的已有的拦截器有: Timestamp Interceptor Host Interceptor Static Interceptor Regex Filtering Inter…
Flume NG集群+Kafka集群整合: 修改Flume配置文件(flume-kafka-server.conf),让Sink连上Kafka hadoop1: #set Agent name a1.sources = r1 a1.channels = c1 a1.sinks = k1 #set channel a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 a1.channels.c1.transactionCapacit…
Flume NG高可用集群搭建: 架构总图: 架构分配: 角色 Host 端口 agent1 hadoop3 52020 collector1 hadoop1 52020 collector2 hadoop2 52020 agent1配置(flume-client.conf): #agent1 name agent1.channels = c1 agent1.sources = r1 agent1.sinks = k1 k2 #set gruop agent1.sinkgroups = g1 #…
Flume NG概述: Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中.轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均衡.其中Agent包含Source,Channel和 Sink,三者组建了一个Agent.三者的职责如下所示: Source:用来消费(收集)数据源到Channel组件中 Channel:中转临时存储,保存所有Source组件信息 Sink:从Channel中读取,读取成功后会删除Channel中的…
环境 apache-flume-1.6.0 一.多agent连接 1.node101配置 option2 # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = netcat a1.sources.r1.bind = node101 a1.sources.r1.port = # De…
环境 apache-flume-1.6.0 Flume是分布式日志收集系统.可以将应用产生的数据存储到任何集中存储器中,比如HDFS,HBase:同类工具:Facebook Scribe,Apache chukwa,淘宝Time Tunnel 应用场景图 一.Flume核心组件1.Event: 一个数据单元,消息头和消息体组成.(Events可以是日志记录. avro 对象等.)Flume的数据流由事件(Event)贯穿始终.事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带…
Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传 输的系统.Flume 基于流式架构,灵活简单. Flume基础架构 Agent Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的. Agent 主要有 3 个部分组成,Source.Channel.Sink. Source Source 是负责接收数据到 Flume Agent 的组件.Source 组件可以处理各种类型.各种 格式的日志数据,包括 avro.thrift.exec…
一. fluem中出现,transactionCapacity查询一下,得出一下这些: 最近在做flume的实时日志收集,用flume默认的配置后,发现不是完全实时的,于是看了一下,原来是memeryChannel的transactionCapacity在作怪,因为他默认是100,也就是说收集端的sink会在收集到了100条以后再去提交事务(即发送到下一个目的地),于是我修改了transactionCapacity到10,想看看是不是会更加实时一点,结果发现收集日志的agent启动的时候报错了.…
不说过程了,直接说结果!一对相连接的channel-HdfsSink,无意间配置如下:...agent.channels.common-channel.transactionCapacity=10...agent.sinks.hdfs-sink.hdfs.batchSize=20 简单测试之后发现flume报如下异常,倒也正常…… [2015-12-17 11:42:09:694 ERROR][org.apache.flume.sink.hdfs.HDFSEventSink.process(HD…
为什么翻flume的代码,一方面是确实遇到了问题,另一方面是想翻一下flume的源码,看看有什么收获,现在收获还谈不上,因为要继续总结.不够已经够解决问题了,而且确实有好的代码,后续会继续慢慢分享,这里先把启动的流程分析一下,这也是找到问题症结的关键. 至于遇到的问题如下: Caused by: org.apache.flume.ChannelException: Put queue for MemoryTransaction of capacity 100 full, consider com…
Spark版本1.5.2,Flume版本:1.6 Flume agent配置文件:spool-8.51.conf agent.sources = source1 agent.channels = memoryChannel agent.sinks = sink1 agent.sources.source1.type = spooldir agent.sources.source1.spoolDir=/data/apache-flume-1.6.0-bin/spooldir agent.sourc…