Flume - [01] 概述】的更多相关文章

一.flume架构概述 1.flume简介 Flume是一种分布式,可靠且可用的服务,用于有效地收集,聚合和移动大量日志数据.它具有基于流数据流的简单灵活的架构.它具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错性.它使用简单的可扩展数据模型,允许在线分析应用程序. flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用. Flume参考资料: 官方网站: http://flume.apache.org/ 用户文档: http://flume.apac…
Flume NG概述: Flume NG是一个分布式,高可用,可靠的系统,它能将不同的海量数据收集,移动并存储到一个数据存储系统中.轻量,配置简单,适用于各种日志收集,并支持 Failover和负载均衡.其中Agent包含Source,Channel和 Sink,三者组建了一个Agent.三者的职责如下所示: Source:用来消费(收集)数据源到Channel组件中 Channel:中转临时存储,保存所有Source组件信息 Sink:从Channel中读取,读取成功后会删除Channel中的…
kafka详解(01) - 概述 定义:Kafka是一个分布式的基于发布/订阅模式的消息队列(Message Queue),主要应用于大数据实时处理领域. 消息队列 MQ传统应用场景之异步处理 使用消息队列的好处 1)解耦 允许独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束. 2)可恢复性 系统的一部分组件失效时,不会影响到整个系统.消息队列降低了进程间的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理. 3)缓冲 有助于控制和优化数据流经过系统…
Zookeeper详解(01) -概述 概念 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目. Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应. Zookeeper = 文件系统 + 通知机制 特点 1)Zookeeper:一个领导者(Leader),多…
一.Flume概述 Flume是一种分布式.可靠且可用的服务,用于有效的收集.聚合和移动大量日志文件数据.Flume具有基于流数据流的简单灵活的框架,具有可靠的可靠性机制和许多故障转移和恢复机制,具有强大的容错能力.Flume使用简单的的可扩展数据模型,循环在线分析应用程序. 二.Flume的作用 数据的来源大致有三类: 1.爬虫 2.日志数据 =>使用Flume进行获取传输 3.传统数据库 =>使用Sqoop进行数据迁移 三.Flume架构 1.source:数据源 接收webser端的数据…
一.概述 1.定义 日志采集.聚合.传输的系统,基于流式结构 即:读取本地磁盘数据,写入HDFS或kafka 2.架构 Agent:JVM进程,以事件形式将数据送到目的地. Agent由三部分组成:Source.Channel.Sink Source:接受各类日志格式的数据,如avro.thrift.exec.jms.spooling directory.netcat.sequence generator.syslog.http.legacy Sink:轮询Channel事件并移除,从而写入存储…
摘要 对vtk版本4和5的管道机制重新架架构的主要目的是:迁移数据对象和算法对象中的管道执行逻辑到一个新集合的类中,我们称这个集合类叫executives.分离数据和执行模型的代码后,可以双双简化修改或者扩展管道机制的难度及工作量.VTK4和5之间的更改相当好取得的第一个目标,但不是解决第二个目标.本文所述的工作有两个主要目标: 删除在vtk5中为了兼容vtk4而引入的兼容层,简化vtk6 的可视化工具包. 继续开展在vtk5中开始的工作,完全分离数据模型和执行模型. 这项工作是要付出代价:该文…
1.NoSQL数据库简介 解决应用服务器的CPU和内存压力:解决数据库服务的IO压力: ----->>> ① session存在缓存数据库(完全在内存里),速度快且数据结构简单: 打破了传统关系型数据库以业务逻辑为依据的存储模式,而针对不同数据结构类型改为以性能为最优先的存储方式--非关系型数据库K, V. ② 缓存数据库:减少io的读操作(缓存数据库中有的直接从缓存数据库里边去取,没有再去数据库里边查找,减少了IO的操作): 列式数据库如Hbase.文档数据库Mongodb:水平切分.…
一. 定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统.Flume基于流式架构,灵活简单. 二. 优点 1. 可以和任意集中式存储进程集成. 2. 输入的的数据速率大于写入目的存储的速率,flume会进行缓冲,减小hdfs的压力. 3. flume中的事务基于channel,使用了两个事务模型(sender + receiver),确保消息被可靠发送. Flume使用两个独立的事务分别负责从soucrce到channel,以及从channel…
概述 数据仓库:是一个面向主题的.集成的.不可更新的.随时间不变化的数据集合,它用于支持企业或组织的决策分析处理. 数据仓库的结构和建立过程: 数据源 数据存储及管理 ETL Extract 提取 Transform 转换 Load 装载 数据仓库引擎 前端展示 数据查询 数据报表 数据分析 1)产生背景 MapReduce编程的不便性 HDFS上的文件缺少schema 2)是什么 The Apache Hive ™ data warehouse software facilitates rea…