flume复习(一)

flume复习(二)

一.简介:flume是一种分布式.可靠且可用的系统,能够用于有效的从不同的源收集.聚合和移动大量的日志数据到集中式数据存储.它具有基于流数据的简单灵活的架构,它具有健壮的可靠性机制和许多故障转移和恢复机制,具有强大的容错性,使用简单的可扩展的数据模型,允许在线分析的应用程序.flume不仅能用于日志数据的收集.由于数据源是可以指定的,因此flume可用于传输大量事件数据,包括但是不限于网络流量数据,社交媒体生成的数据,电子邮件消息以及几乎任何可能的数据源 1.flume运行的核心是Agent.是…

关于flume官方文档介绍可以去:http://flume.apache.org/看看.接下来就介绍一下关于我个人对flume的理解一.flume介绍: 1.flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统并且可以进行在线分析. 2.支持在日志系统中定制各类数据发送方,用于收集数据,同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本.HDFS.Hbase等)的能力 . 3.flume的数据流由事件(Event)贯穿始终.事件是Flume的基本数据单位,…

kafka复习(1)

一:flume复习 0.JMS(java message service )java消息服务 -------------------------------------------------------------- queue(队列模式):点对点服务只能有一个消费者.也叫做点对点模式 publish-subscribe(发布-订阅模式,也叫做主题模式): 1.flume是收集,聚合,移动日志的框架 2.agent: source: //接受数据的,生产者 //netcat //Exec…

大数据入门第二十四天——SparkStreaming（二）与flume、kafka整合

前一篇中数据源采用的是从一个socket中拿数据,有点属于“旁门左道”,正经的是从kafka等消息队列中拿数据! 主要支持的source,由官网得知如下: 获取数据的形式包括推送push和拉取pull 一.spark streaming整合flume 1.push的方式更推荐的是pull的拉取方式引入依赖: <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streami…

[CDH] Acquire data: Flume and Kafka

Flume 基本概念一.是什么 Ref: http://flume.apache.org/ 数据源获取:Flume.Google Refine.Needlebase.ScraperWiki.BloomReach 开源的日志系统,包括facebook的scribe,apache的chukwa,Linkedin 的Kafka 和 Cloudera的Flume等. Flume is a distributed, reliable, and available service for efficien…

Hadoop期末复习

Hadoop期末复习选择题以下选项中,哪个程序负责HDFS数据存储. B A.NameNode B.DataNode C.Secondary NameNode D.ResourceManager 下列哪项通常是集群的最主要的性能瓶颈? C A.CPU B. 网络 C.磁盘 D.内存下面哪项是Hadoop的作者?B A.Martin Fowler B.Doug cutting C.Mark Elliot Zuckerberg D.Kent Beck HDFS默认备份数量?D A.0 B.1…

iOS总结_UI层自我复习总结

UI层复习笔记在main文件中,UIApplicationMain函数一共做了三件事根据第三个参数创建了一个应用程序对象默认写nil,即创建的是UIApplication类型的对象,此对象看成是整个应用程序的一个抽象,负责存储应用程序的状态. 根据第四个参数创建了一个应用程序代理类对象所谓代理,及帮助另一个对象做事情.上面第一步中创建的应用程序对象只负责存储应用程序的状态,但不提供响应,而是给代理发消息,由代理负责针对不同的状态提供响应.比如说:程序一启动,代理就要响应一下,说明弹出的第…

Flume1 初识Flume和虚拟机搭建Flume环境

前言: 工作中需要同步日志到hdfs,以前是找运维用rsync做同步,现在一般是用flume同步数据到hdfs.以前为了工作简单看个flume的一些东西,今天下午有时间自己利用虚拟机搭建了flume环境,并简单做了几个练习.学习过程中还是比较顺利的,现在将学习的过程记录与此,供以后自己查阅,如果能帮助到其他人,自然是更好的. ===============================================================长长的分割线===========…

vuex复习方案

这次复习vuex,发现官方vuex2.0的文档写得太简略了,有些看不懂了.然后看了看1.0的文档,感觉很不错.那以后需要复习的话,还是先看1.0的文档吧.…

我的操作系统复习——I/O控制和系统调用

上篇博客介绍了存储器管理的相关知识——我的操作系统复习——存储器管理,本篇讲设备管理中的I/O控制方式和操作系统中的系统调用. 一.I/O控制方式 I/O就是输入输出,I/O设备指的是输入输出设备和存储设备.I/O控制方式值得就是CPU对内存资源与I/O设备之间输入输出的控制.I/O的控制方式按照发展有下面几种: (1).程序I/O方式. 这个最原始的方式的特点是I/O过程中,CPU全程阻塞.CPU向I/O控制器发送指令,要求读取一个字节,IO控制器取一个字节,存入自身的数据寄存器中,存入完毕后…

复习（1）【Maven】

终于开始复习旧知识了,有输入必然要有输出.输入和输出之间的内化过程尤为重要,在复习的同时,真正把学到的东西积淀下来,加深理解. Maven项目概念与配置 Maven是一个项目管理和综合工具.Maven提供了开发人员构建一个完整的生命周期框架.开发团队可以自动完成项目的基础工具建设,Maven使用标准的目录结构和默认构建生命周期.项目构建过程:清理.编译.测试.打包.集成测试.验证.部署. java世界中主要有三大构建工具:Ant.Maven和Gradle.经过几年的发展,Ant几乎销声匿迹.Ma…

Flume（4）实用环境搭建：source(spooldir)+channel(file)+sink(hdfs)方式

一.概述: 在实际的生产环境中,一般都会遇到将web服务器比如tomcat.Apache等中产生的日志倒入到HDFS中供分析使用的需求.这里的配置方式就是实现上述需求. 二.配置文件: #agent1 name agent1.sources=source1 agent1.sinks=sink1 agent1.channels=channel1 #Spooling Directory #set source1 agent1.sources.source1.type=spooldir agent1.…

Flume（3）source组件之NetcatSource使用介绍

一.概述: 本节首先提供一个基于netcat的source+channel(memory)+sink(logger)的数据传输过程.然后剖析一下NetcatSource中的代码执行逻辑. 二.flume配置文件: 下面的配置文件netcat.conf中定义了source使用netcat,它会监听44444端口. # Name the components on this agent a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe…

Flume（2）组件概述与列表

上一节搭建了flume的简单运行环境,并提供了一个基于netcat的演示.这一节继续对flume的整个流程进行进一步的说明. 一.flume的基本架构图: 下面这个图基本说明了flume的作用,以及flume中的基本组件:source.channel.sink. Source:完成对日志数据的收集,分成transtion 和 event 打入到channel之中. Channel:主要提供一个队列的功能,对source提供中的数据进行简单的缓存. Sink:取出Channel中的数据,进…

Flume（1）使用入门

一.概述: Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统. 当前Flume有两个版本Flume 0.9X版本的统称Flume-og,Flume1.X版本的统称Flume-ng.由于Flume-ng经过重大重构,与Flume-og有很大不同,使用时请注意区分. 先来看几张数据流图: 从上面的图大致可以知道,flume就是将source数据导入到输出中的一个工具.source可以有多个,输出也可以有多个. 二.环境说明: 本文中使用的flume是1…

大数据平台架构（flume＋kafka＋hbase＋ELK+storm+redis+mysql）

上次实现了flume+kafka+hbase+ELK:http://www.cnblogs.com/super-d2/p/5486739.html 这次我们可以加上storm: storm-0.9.5简单配置如下: 安装依赖 wget http://download.oracle.com/otn-pub/java/jdk/8u45-b14/jdk-8u45-linux-x64.tar.gz tar zxvf jdk-8u45-linux-x64.tar.gz cd jdk-8u45-linux-…

flume+kafka+spark streaming整合

1.安装好flume2.安装好kafka3.安装好spark4.流程说明: 日志文件->flume->kafka->spark streaming flume输入:文件 flume输出:kafka的输入 kafka输出:spark 输入5.整合步骤: (1).将插件jar拷贝到flume的lib目录下 a. flumeng-kafka-plugin.jar b. metrics-annotation-2.2.0.jar (2).将配置文件producer.properties拷贝到flu…

flume使用示例

flume的特点: flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统.支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本.HDFS.Hbase等)的能力 . flume的数据流由事件(Event)贯穿始终.事件是Flume的基本数据单位,它携带日志数据(字节数组形式)并且携带有头信息,这些Event由Agent外部的Source生成,当Source捕获事件后会进行特定的格式化,然后Source会把事件推入…

Hadoop学习笔记—19.Flume框架学习

START:Flume是Cloudera提供的一个高可用的.高可靠的开源分布式海量日志收集系统,日志数据可以经过Flume流向需要存储终端目的地.这里的日志是一个统称,泛指文件.操作记录等许多数据. 一.Flume基础理论 1.1 常见的分布式日志收集系统 Scribe是facebook开源的日志收集系统,在facebook内部已经得到大量的应用. Chukwa 是一个开源的用于监控大型分布式系统的数据收集系统.这是构建在 hadoop 的 hdfs 和 map/reduce 框架之上的,继承了…

Flume NG Getting Started（Flume NG 新手入门指南）

Flume NG Getting Started(Flume NG 新手入门指南)翻译新手入门 Flume NG是什么? 有什么改变? 获得Flume NG 从源码构建配置 flume-ng全局选项 flume-ng agent选项 flume-ng avro-client 选项提供反馈 Flume NG是什么? Flume NG的目标是比Flume OG在简单性,大小和容易部署上有显著性地提高.为了实现这个目标,Flume NG将不会兼容Flume OG.我们目前在征求那些对测试Flum…

Flume官方文档翻译——Flume 1.7.0 User Guide （unreleased version）中一些知识点

Flume官方文档翻译--Flume 1.7.0 User Guide (unreleased version)(一) Flume官方文档翻译--Flume 1.7.0 User Guide (unreleased version)(二) Flume Properties Property Name Default Description flume.called.from.service – If this property is specified then the…

Flume官方文档翻译——Flume 1.7.0 User Guide （unreleased version）（二）

Flume官方文档翻译--Flume 1.7.0 User Guide (unreleased version)(一) Logging raw data(记录原始数据) Logging the raw stream of data flowing through the ingest pipeline is not desired behaviour in many production environments because this may result in leaking sensit…

基于Flume+LOG4J+Kafka的日志采集架构方案

本文将会介绍如何使用 Flume.log4j.Kafka进行规范的日志采集. Flume 基本概念 Flume是一个完善.强大的日志采集工具,关于它的配置,在网上有很多现成的例子和资料,这里仅做简单说明不再详细赘述.Flume包含Source.Channel.Sink三个最基本的概念: Source——日志来源,其中包括:Avro Source.Thrift Source.Exec Source.JMS Source.Spooling Directory Source.Kafka Source.…

flume：spooldir采集日志，kafka输出的配置问题

flume配置: #DBFile DBFile.sources = sources1 DBFile.sinks = sinks1 DBFile.channels = channels1 # DBFile-DB-Source DBFile.sources.sources1.type = spooldir DBFile.sources.sources1.spoolDir =/var/log/apache/flumeSpool//db DBFile.sources.sources1.inputChar…

Flume组件source，channel，sink源码分析

LifeCycleState: IDLE, START, STOP, ERROR [Source]: org.apache.flume.Source 继承LifeCycleAware{stop() + start() + getLifeCycleState()} + NamedComponent{getName() + setName()} 产生事件(Event),调用通道处理器(ChannelProcessor)的方法,将事件(Event)持久化到通道(Channel)中. [Channel]…

实时事件统计项目：优化flume:用file channel代替mem channel

背景:利用kafka+flume+morphline+solr做实时统计. solr从12月23号开始一直没有数据.查看日志发现,因为有一个同事加了一条格式错误的埋点数据,导致大量error. 据推断,是因为使用mem channel占满,消息来不及处理,导致新来的数据都丢失了. 修改flume使用file channel: kafka2solr.sources = source_from_kafka kafka2solr.channels = file_channel kafka2solr.s…

大数据系统之监控系统(二)Flume的扩展

一些需求是原生Flume无法满足的,因此,基于开源的Flume我们增加了许多功能. EventDeserializer的缺陷 Flume的每一个source对应的deserializer必须实现接口EventDeserializer,该接口定义了readEvent/readEvents方法从各种日志源读取Event. flume主要支持两种反序列化器: (1)AvroEventDeserializer:解析Avro容器文件的反序列化器.对Avro文件的每条记录生成一个flume Event,并将…

【flume复习(一)】的更多相关文章