Flume NetCat Demo

准备工作: 1.apache官网下载flume 2.解压flume 3.修改flume-env.sh,配置JAVA_HOME NetCat采集Demo: 1.在conf中创建netcat-logger.conf # 定义这个agent中各组件的名字 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # 描述和配置source组件:r1 a1.sources.r1.type = netcat a1.sources.r1.bind = localhost…

Flume Netcat Source

1.cd /usr/local2/flume/conf sudo vim netcat.conf # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources.r1.port = 8888 #…

flume＋kafka＋hbase＋ELK

一.架构方案如下图: 二.各个组件的安装方案如下: 1).zookeeper+kafka http://www.cnblogs.com/super-d2/p/4534323.html 2)hbase http://www.cnblogs.com/super-d2/p/4755932.html 3)flume安装: 安装安装JDK Flume 运行系统要求1.6以上的Java 运行环境,从oracle网站下载JDK 安装包,解压安装: $tar zxvf jdk-8u65-linux-x64.t…

Flume（3）source组件之NetcatSource使用介绍

一.概述: 本节首先提供一个基于netcat的source+channel(memory)+sink(logger)的数据传输过程.然后剖析一下NetcatSource中的代码执行逻辑. 二.flume配置文件: 下面的配置文件netcat.conf中定义了source使用netcat,它会监听44444端口. # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe…

Flume学习应用：Java写日志数据到MongoDB

概述 Windows平台:Java写日志到Flume,Flume最终把日志写到MongoDB. 系统环境操作系统:win7 64 JDK:1.6.0_43 资源下载 Maven:3.3.3下载.安装.入门参考:1. Maven - 开始和2. 创建一个简单的Maven项目 Flume:1.6.0下载apache-flume-1.6.0-bin.tar.gz,并解压到合适的目录(e.g. F:\temp\apache-flume-1.6.0-bin) MongoDB:3.2.3下载mongodb…

Flume具体应用(多案例)

日志采集对于flume的原理其实很容易理解,我们更应该掌握flume的具体使用方法,flume提供了大量内置的Source.Channel和Sink类型.而且不同类型的Source.Channel和Sink可以自由组合—–组合方式基于用户设置的配置文件,非常灵活.比如:Channel可以把事件暂存在内存里,也可以持久化到本地硬盘上.Sink可以把日志写入HDFS, HBase,甚至是另外一个Source等等.下面我将用具体的案例详述flume的具体用法. 其实flume的用法很简单—-书写一个…

[ETL] Flume 理论与demo（Taildir Source & Hdfs Sink）

一.Flume简介 1. Flume概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据:同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力. 2. Flume系统功能日志收集 Flume最早是Cloudera提供的日志收集系统,目前是Apache下的一个孵化项目,Flume支持在日志系统中定制各类数据发送方,用于收集数据. 数据处理 Flume提供对数据进行…

Flume NG中的Netcat Source

NetCat是一个非常简单的Unix工具,可以读.写TCP或UDP网络连接(network connection)中数据在Flume中的netcat支持Flume与NetCat整合,flume可以使用netcat读取网络中的数据,其主要配置项如下 a1.sources = r1 a1.sinks = k1 a1.channels = c1 # source a1.sources.r1.type = netcat a1.sources.r1.bind = localhost a1.sources…

flume将数据发送到kafka、hdfs、hive、http、netcat等模式的使用总结

1.source为http模式,sink为logger模式,将数据在控制台打印出来. conf配置文件如下: # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = http #该设置表示接收通过http方式发送过来的数据 a1.sources.r1.bind = hadoop-…

FLUME安装&环境（一）:netcat类型配置

1.下载软件在 /opt/deploy 下新建 flume 文件夹: # mkdir / opt/deploy / flume 到Flume官网上http://flume.apache.org/download.html下载软件包,例如: wget "http://mirrors.cnnic.cn/apache/flume/1.8.0/apache-flume-1.8.0-bin.tar.gz" 解压命令: tar -xzvf apache-flume-1.8.0-bin.tar…

flume+sparkStreaming实例实时监控文件demo

1,flume所在的节点不和spark同一个集群 v50和 10-15节点 flume在v50里面 flume-agent.conf spark是开的work节点,就是单点计算节点,不涉及到master发送管理只是用到了sparkStreming的实时功能开启的是spark-shell不是spark-submit 提交jar的形式,提交jar的形式还需要后面研究下如下在结算节点下和flume的jar包要在各个节点上的spark 都要放入:bin/spark-shell \--jar…

flume系列之—flume ng使用demo

摘自:http://rjhym.blog.163.com/blog/static/28130232201263042013972/…

基于Flume+LOG4J+Kafka的日志采集架构方案

本文将会介绍如何使用 Flume.log4j.Kafka进行规范的日志采集. Flume 基本概念 Flume是一个完善.强大的日志采集工具,关于它的配置,在网上有很多现成的例子和资料,这里仅做简单说明不再详细赘述.Flume包含Source.Channel.Sink三个最基本的概念: Source——日志来源,其中包括:Avro Source.Thrift Source.Exec Source.JMS Source.Spooling Directory Source.Kafka Source.…

Flume 实战(1) -- 初体验

前言: Flume-ng是数据收集/聚合/传输的组件, Flume-ng抛弃了Flume OG原本繁重的zookeeper和Master, Collector, 其整体的架构更加的简洁和明了. 其基础组件就Agent进程, 内部又可以细分为Source, Channel, Sink三个组件, Source是数据的输入源, channel作为消息的管道, 而sink是作为数据流的输出, Source可以配置多个channel, sink和channel一一对应. *) 初体验Flume-ng 以C…

Flume+LOG4J+Kafka

基于Flume+LOG4J+Kafka的日志采集架构方案本文将会介绍如何使用 Flume.log4j.Kafka进行规范的日志采集. Flume 基本概念 Flume是一个完善.强大的日志采集工具,关于它的配置,在网上有很多现成的例子和资料,这里仅做简单说明不再详细赘述.Flume包含Source.Channel.Sink三个最基本的概念: Source——日志来源,其中包括:Avro Source.Thrift Source.Exec Source.JMS Source.Spooling D…

Spark的Streaming + Flume进行数据采集（flume主动推送或者Spark Stream主动拉取）

1.针对国外的开源技术,还是学会看国外的英文说明来的直接,迅速,这里简单贴一下如何看: 2.进入到flume的conf目录,创建一个flume-spark-push.sh的文件: [hadoop@slaver1 conf]$ vim flume-spark-push.sh 配置一下这个文件,flume使用avro的. # example.conf: A single-node Flume configuration # Name the components on this agent #定义这…

Nginx+Flume+Hadoop日志分析，Ngram+AutoComplete

配置Nginx yum install nginx (在host99和host101) service nginx start开启服务 ps -ef |grep nginx看一下进程 ps -ef |grep nginx root 28230 1 0 14:54 ? 00:00:00 nginx: master process /usr/sbin/nginx -c /etc/nginx/nginx.conf nginx 28231 28230 0 14:54 ? 00:00:00 nginx:…

Flume Channel Selectors + kafka

http://flume.apache.org/FlumeUserGuide.html#custom-channel-selector 官方文档上channel selectors 有两种类型: Replicating Channel Selector (default) Multiplexing Channel Selector 这两种selector的区别是:Replicating 会将source过来的events发往所有channel,而Multiplexing 可以选择该发往哪些cha…

讲解Flume

Spark Streaming通过push模式和pull模式两种模式来集成Flume push模式:Spark Streaming端会启动一个基于Avro Socket Server的Receiver来接收Flume中的avro sink发来的数据,这个时候Flume avro sink就是作为客户端 pull模式:这种模式是Spark自定义了一个Flume的sink作为Avro Server,flume收集到的数据发往这个sink,然后数据存储在这个sink的缓存中,然后Spark Strea…

flume实时采集mysql数据到kafka中并输出

环境说明 centos7(运行于vbox虚拟机) flume1.9.0(flume-ng-sql-source插件版本1.5.3) jdk1.8 kafka(版本忘了后续更新) zookeeper(版本忘了后续更新) mysql5.7.24 xshell 准备工作 flume安装暂略,后续更新 flume简介 Apache Flume是一个分布式的.可靠的.可用的系统,用于有效地收集.聚合和将大量日志数据从许多不同的源移动到一个集中的数据存储.在大数据生态圈中,flume经常用于完成数据采集的…

Flume1 初识Flume和虚拟机搭建Flume环境

前言: 工作中需要同步日志到hdfs,以前是找运维用rsync做同步,现在一般是用flume同步数据到hdfs.以前为了工作简单看个flume的一些东西,今天下午有时间自己利用虚拟机搭建了flume环境,并简单做了几个练习.学习过程中还是比较顺利的,现在将学习的过程记录与此,供以后自己查阅,如果能帮助到其他人,自然是更好的. ===============================================================长长的分割线===========…

Flume（2）组件概述与列表

上一节搭建了flume的简单运行环境,并提供了一个基于netcat的演示.这一节继续对flume的整个流程进行进一步的说明. 一.flume的基本架构图: 下面这个图基本说明了flume的作用,以及flume中的基本组件:source.channel.sink. Source:完成对日志数据的收集,分成transtion 和 event 打入到channel之中. Channel:主要提供一个队列的功能,对source提供中的数据进行简单的缓存. Sink:取出Channel中的数据,进…

Flume（1）使用入门

一.概述: Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统. 当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng.由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分. 先来看几张数据流图: 从上面的图大致可以知道,flume就是将source数据导入到输出中的一个工具.source可以有多个,输出也可以有多个. 二.环境说明: 本文中使用的flume是1…

flume+kafka+spark streaming整合

1.安装好flume2.安装好kafka3.安装好spark4.流程说明: 日志文件->flume->kafka->spark streaming flume输入:文件 flume输出:kafka的输入 kafka输出:spark 输入5.整合步骤: (1).将插件jar拷贝到flume的lib目录下 a. flumeng-kafka-plugin.jar b. metrics-annotation-2.2.0.jar (2).将配置文件producer.properties拷贝到flu…

Hadoop学习笔记—19.Flume框架学习

START:Flume是Cloudera提供的一个高可用的.高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地.这里的日志是一个统称,泛指文件.操作记录等许多数据. 一.Flume基础理论 1.1 常见的分布式日志收集系统 Scribe是facebook开源的日志收集系统,在facebook内部已经得到大量的应用. Chukwa 是一个开源的用于监控大型分布式系统的数据收集系统.这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的,继承了…

Flume NG Getting Started（Flume NG 新手入门指南）

Flume NG Getting Started(Flume NG 新手入门指南)翻译新手入门 Flume NG是什么? 有什么改变? 获得Flume NG 从源码构建配置 flume-ng全局选项 flume-ng agent选项 flume-ng avro-client 选项提供反馈 Flume NG是什么? Flume NG的目标是比Flume OG在简单性,大小和容易部署上有显著性地提高.为了实现这个目标,Flume NG将不会兼容Flume OG.我们目前在征求那些对测试Flum…

Flume官方文档翻译——Flume 1.7.0 User Guide （unreleased version）（二）

Flume官方文档翻译--Flume 1.7.0 User Guide (unreleased version)(一) Logging raw data(记录原始数据) Logging the raw stream of data flowing through the ingest pipeline is not desired behaviour in many production environments because this may result in leaking sensit…

flume的使用

1.flume的安装和配置 1.1 配置java_home,修改/opt/cdh/flume-1.5.0-cdh5.3.6/conf/flume-env.sh文件…

flume安装及配置介绍(二)

注: 环境: skylin-linux Flume的下载方式: wget http://www.apache.org/dyn/closer.lua/flume/1.6.0/apache-flume-1.6.0-bin.tar. 下载完成之后,使用tar进行解压 tar -zvxf apache-flume-1.6..0-bin.tar. 进入flume的conf配置包中,使用命令touch flume.conf,然后cp flume-conf.properties.template flume.…

Apache Flume 1.7.0 发布，日志服务器

Apache Flume 1.7.0 发布了,Flume 是一个分布式.可靠和高可用的服务,用于收集.聚合以及移动大量日志数据,使用一个简单灵活的架构,就流数据模型.这是一个可靠.容错的服务. 本次更新如下: 新特性 [FLUME-2498] - Implement Taildir Source 改进 [FLUME-1899] - Make SpoolDir work with Sub-Directories [FLUME-2526] - Build flume by jdk 7 in defa…

【Flume NetCat Demo】的更多相关文章