Flume学习总结

Flume学习总结 flume是一个用来采集数据的软件,它可以从数据源采集数据到一个集中存放的地方. 最常用flume的数据采集场景是对日志的采集,不过,lume也可以用来采集其他的各种各样的数据,因为flume是以行为单位从文件或者数据库中采集数据的. 提纲 1.flume简介介绍flume的开发商.用途.主要特点 2.flume的安装配置 3.flume的主要概念 4.flume的使用demo 5.flume的设计原理参考资料: 1.https://blog.csdn.net/wing_…

flume学习（三）：flume将log4j日志数据写入到hdfs（转）

原文链接:flume学习(三):flume将log4j日志数据写入到hdfs 在第一篇文章中我们是将log4j的日志输出到了agent的日志文件当中.配置文件如下: tier1.sources=source1 tier1.channels=channel1 tier1.sinks=sink1 tier1.sources.source1.type=avro tier1.sources.source1.bind=0.0.0.0 tier1.sources.source1.port=44444 tie…

Flume学习应用：Java写日志数据到MongoDB

概述 Windows平台:Java写日志到Flume,Flume最终把日志写到MongoDB. 系统环境操作系统:win7 64 JDK:1.6.0_43 资源下载 Maven:3.3.3下载.安装.入门参考:1. Maven - 开始和2. 创建一个简单的Maven项目 Flume:1.6.0下载apache-flume-1.6.0-bin.tar.gz,并解压到合适的目录(e.g. F:\temp\apache-flume-1.6.0-bin) MongoDB:3.2.3下载mongodb…

Flume学习 & Kafka & Storm 等 & Log4J 配置

正在学习这篇文章: http://blog.csdn.net/ymh198816/article/details/51998085 和工作中接触的电商.订单.分析,可以结合起来. 开宗明义,这幅图片: Strom是一个非常快的实时计算框架,至于快到什么程度呢? 官网首页给出的数据是每一个Storm集群上的节点每一秒能处理一百万条数据.相比Hadoop的"Mapreduce"计算框架,Storm使用的是"Topology":Mapreduce程序在计算完成后最终会停下…

flume学习安装

近期项目组有需求点击流日志须要自己收集,学习了一下flume而且成功安装了.相关信息记录一下. 1)下载flume1.5版本号 wget http://www.apache.org/dyn/closer.cgi/flume/1.5.0.1/apache-flume-1.5.0.1-bin.tar.gz 2) 解压flume1.5 tar -zxvf apache-flume-1.5.0.1-bin.tar.gz 3) 配置环境变量 jdk已装 export FLUME_HOME=/XXX/XX…

flume学习以及ganglia(若是要监控hive日志，hive存放在/tmp/hadoop/hive.log里，只要运行过hive就会有)

python3.6hdfs的使用 https://blog.csdn.net/qq_29863961/article/details/80291654 https://pypi.org/ 官网直接搜索hdfs就好 https://www.cnblogs.com/dachenzi/p/8676104.html flume官网http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 最下方一.Flume 简介1)…

flume学习

下载自定义sink(mysql) 1.ide打开下载后的源码 2.代码如下: /** * Licensed to the Apache Software Foundation (ASF) under one * or more contributor license agreements. See the NOTICE file * distributed with this work for additional information * regarding copyright owner…

Flume学习——BasicTransactionSemantics

org.apache.flume.channel.BasicTransactionSemantics An implementation of basic Transaction semantics designed to work in concert with BasicChannelSemantics to simplify creation of robust Channel implementations. This class ensures that each transactio…

Flume学习——Flume中事务的定义

首先要搞清楚的问题是:Flume中的事务用来干嘛? Flume中的事务用来保证消息的可靠传递. 当使用继承自BasicChannelSemantics的Channel时,Flume强制在操作Channel时采用特定的程序结构,并且强制channel实现特定的方法以使得Channel本身可以应对存入或取出失败的情况,并且使得channel的使用者有可能根据操作是否成功采取适当的方法. Channel在Flume的架构中主要起了缓存的作用,当使用FileChannel时,它是一个持久化的缓存. 若把…

Flume学习——Flume的架构

Flume有三个组件:Source.Channel 和 Sink.在源码中对应同名的三个接口. When a Flume source receives an event, it stores it into one or more channels. The channel is a passive store that keeps the event until it’s consumed by a Flume sink. public interface Source extends Li…

flume学习笔记——安装和使用

Flume是一个分布式.可靠.和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力. Flume是一个专门设计用来从大量的源,推送数据到Hadoop生态系统中各种各样存储系统中去的,例如HDFS和HBase. Guide: http://flume.apache.org/FlumeUserGuide.html 体系架构 Flume的数据流由事件(Event)贯穿始终.事件是Flume的基本数据单位…

Apache Flume 学习笔记

# 从http://flume.apache.org/download.html 下载flume ############################################# # 概述:Flume 是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的软件. # Flume的核心是把数据从数据源(source)收集过来,送到指定的目的地(sink).为了保证输送的过程一定 # 成功,在送到目的地(sink)之前,会先缓存数据(channel),待数据真正…

flume 学习总结

flume 总结 flume 总结下载配置安装 1 下载 2 配置安装 flume 架构 agent 配置 1 source 配置 11 监听网络端口 12 监控文件 2 channel 配置 3 sink 配置 failover 和 load balancing failover load balancing 扇出二次开发启动 flume 总结 1 下载.配置.安装 1.1 下载在官网 http://flume.apache.org/download.html 下载 apache-fl…

Flume学习之路（三）Flume的配置方式

一.单一代理流配置 1.1 官网介绍 http://flume.apache.org/FlumeUserGuide.html#avro-source 通过一个通道将来源和接收器链接.需要列出源,接收器和通道,为给定的代理,然后指向源和接收器及通道.一个源的实例可以指定多个通道,但只能指定一个接收器实例.格式如下: 实例解析:一个代理名为agent_foo,外部通过avro客户端,并且发送数据通过内存通道给hdfs.在配置文件foo.config的可能看起来像这样: 案例说明:这将使事件流从avr…

Flume学习之路（二）Flume的Source类型

一.概述官方文档介绍:http://flume.apache.org/FlumeUserGuide.html#flume-sources 二.Flume Sources 描述 2.1 Avro Source 2.1.1 介绍监听Avro端口,从Avro client streams接收events.当与另一个(前一跳)Flume agent内置的Avro Sink配对时,它可以创建分层收集拓扑.字体加粗的属性必须进行设置. 2.1.2 示例示例一:示例请参考官方文档示例二: #配置一个a…

Flume学习之路（一）Flume的基础介绍

一.背景 Hadoop业务的整体开发流程: 从Hadoop的业务开发流程图中可以看出,在大数据的业务处理过程中,对于数据的采集是十分重要的一步,也是不可避免的一步. 许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征: (1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦: (2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统: (3) 具有高可扩展性.即:当数据量增加时,…

Apache Flume 学习

Apache Flume,又称Flume NG (next generation),前身是Cloudera公司的Flume项目 -- 又称Flume OG. 这货的功能就是从源中将数据收集到指定的目的地,例如从日志文件中收集日志信息,发送到数据库中或其他地方. Apache Flume的三大块:source.channel.sink:也就是数据源.通道.目的地. 两个主要的channel:①in-memory channel 非持久.速度快:②JDBC-based channel 持久.速度慢…

flume学习笔记

#################################################################################################################################################################################################################### flume安装,解压后修改flume_env.sh配置文件,指定java_…

flume学习（四）：Flume Interceptors的使用

转载:http://blog.csdn.net/xiao_jun_0820/article/details/38111305 对于flume拦截器,我的理解是:在app(应用程序日志)和 source 之间的,对app日志进行拦截处理的.也即在日志进入到source之前,对日志进行一些包装.清新过滤等等动作. 官方上提供的已有的拦截器有: Timestamp Interceptor Host Interceptor Static Interceptor Regex Filtering Inter…

Flume 学习笔记之 Flume NG+Kafka整合

Flume NG集群+Kafka集群整合: 修改Flume配置文件(flume-kafka-server.conf),让Sink连上Kafka hadoop1: #set Agent name a1.sources = r1 a1.channels = c1 a1.sinks = k1 #set channel a1.channels.c1.type = memory a1.channels.c1.capacity = 1000 a1.channels.c1.transactionCapacit…

Flume 学习笔记之 Flume NG高可用集群搭建

Flume NG高可用集群搭建: 架构总图: 架构分配: 角色 Host 端口 agent1 hadoop3 52020 collector1 hadoop1 52020 collector2 hadoop2 52020 agent1配置(flume-client.conf): #agent1 name agent1.channels = c1 agent1.sources = r1 agent1.sinks = k1 k2 #set gruop agent1.sinkgroups = g1 #…

Flume 学习笔记之 Flume NG概述及单节点安装

Flume NG概述: Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中.轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均衡.其中Agent包含Source,Channel和 Sink,三者组建了一个Agent.三者的职责如下所示: Source:用来消费(收集)数据源到Channel组件中 Channel:中转临时存储,保存所有Source组件信息 Sink:从Channel中读取,读取成功后会删除Channel中的…

【Flume学习之二】Flume 使用场景

环境 apache-flume-1.6.0 一.多agent连接 1.node101配置 option2 # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = netcat a1.sources.r1.bind = node101 a1.sources.r1.port = # De…

【Flume学习之一】Flume简介

环境 apache-flume-1.6.0 Flume是分布式日志收集系统.可以将应用产生的数据存储到任何集中存储器中,比如HDFS,HBase:同类工具:Facebook Scribe,Apache chukwa,淘宝Time Tunnel 应用场景图一.Flume核心组件1.Event: 一个数据单元,消息头和消息体组成.(Events可以是日志记录. avro 对象等.)Flume的数据流由事件(Event)贯穿始终.事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带…

Flume学习记录

Flume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统.Flume 基于流式架构,灵活简单. Flume基础架构 Agent Agent 是一个 JVM 进程,它以事件的形式将数据从源头送至目的. Agent 主要有 3 个部分组成,Source.Channel.Sink. Source Source 是负责接收数据到 Flume Agent 的组件.Source 组件可以处理各种类型.各种格式的日志数据,包括 avro.thrift.exec…

Flume学习——BasicChannelSemantics

public class MemoryChannel extends BasicChannelSemantics public abstract class BasicChannelSemantics extends AbstractChannel public abstract class AbstractChannel implements Channel, LifecycleAware, Configurable AbstractChannel只在实现了LifecycleAware,Nam…

flume的memeryChannel中transactionCapacity和sink的batchsize需要注意事项

一. fluem中出现,transactionCapacity查询一下,得出一下这些: 最近在做flume的实时日志收集,用flume默认的配置后,发现不是完全实时的,于是看了一下,原来是memeryChannel的transactionCapacity在作怪,因为他默认是100,也就是说收集端的sink会在收集到了100条以后再去提交事务(即发送到下一个目的地),于是我修改了transactionCapacity到10,想看看是不是会更加实时一点,结果发现收集日志的agent启动的时候报错了.…

【Flume学习总结】的更多相关文章