FusionInsight大数据开发---Flume应用开发

Flume应用开发

要求：

了解Flume应用开发适用场景
掌握Flume应用开发

Flume应用场景
Flume的核心是把数据从数据源收集过来，在送到目的地。为了保证输送一定成功，发送到目的地之前，会先缓存数据，待数据真正的到达目的地后，删除自己缓存的数据。
Flume采用流式方法采集和传输数据，程序配置好后，不需要外部条件触发下，一直监控数据源，源源不断地采集、传送数据到目的地。

主要应用于一下几种场景：

将分布式节点上大量数据实时采集、汇总和转移
将集群内、外地本地文件、实时数据流采集到FusionInsight集群内的HDFS、HBase,Kafka,Solr中。
将Avro、System,http,Thrift,JMS、Log4j协议发送过来地数据采集到FusionInsight集群内

Flume基本概念

Source：数据源，即是产生日志信息地源头，Flume会将原始数据建模抽象成自己处理地数据对象：event
Channel：通道，主要作用是临时缓存Source发过来地数据
Sink：主要是从channel中取出数据并将数据放到不同地目的地
event：一个数据单元，带有一个可选地消息头，Flume传输地数据地基本单位是event，如果是文本文件，通常是一行记录。event从Source，流向Channel，再到Sink,Sink将数据写入目的地

方案设计：
1）首先确定数据源：集群外
2）数据最终流向：KafKa(集群内)

FusionInsight大数据开发---Flume应用开发的更多相关文章

FusionInsight大数据开发学习总结（1）
FusionInsight大数据开发 FusionInsight HD是一个大数据全栈商用平台,支持各种通用大数据应用场景. 技能需求扎实的编程基础 Java/Scala/python/SQL/sh ...
大数据全栈式开发语言 – Python
前段时间,ThoughtWorks在深圳举办一次社区活动上,有一个演讲主题叫做“Fullstack JavaScript”,是关于用JavaScript进行前端.服务器端,甚至数据库(MongoDB) ...
为什么说Python 是大数据全栈式开发语言
欢迎大家访问我的个人网站<刘江的博客和教程>:www.liujiangblog.com 主要分享Python 及Django教程以及相关的博客交流QQ群:453131687 原文链接 h ...
FusionInsight大数据开发---Hive应用开发
Hive应用开发了解Hive的基本架构原理掌握JDBC客户端开发流程了解ODBC客户端的开发流程了解python客户端的开发流程了解Hcatalog/webHcat开发接口掌握Hive开发 ...
FusionInsight大数据开发---MapReduce与YARN应用开发
MapReduce MapReduce的基本定义及过程搭建开发环境代码实例及运行程序 MapReduce开发接口介绍 1. MapReduce的基本定义及过程 MapReduce是面向大数据并行处 ...
FusionInsight大数据开发---HDFS应用开发
HDFS应用开发 HDFS(Dadoop Distributed File System) HDFS概述高容错性高吞吐量大文件存储 HDFS架构包含三部分 Name Node DataNode ...
FusionInsight大数据开发---Redis应用开发
Redis应用开发要求: 了解Redis应用场景掌握Redis二次开发环境搭建掌握Redis业务开发 Redis简介 Redis是一个基于网络的,高性能key-value内存数据库 Redis根 ...
一文总结高并发大数据量下MySQL开发规范【军规】
在互联网公司中,MySQL是使用最多的数据库,那么在并发量大.数据量大的互联网业务中,如果高效的使用MySQL才能保证服务的稳定呢?根据本人多年运维管理经验的总结,梳理了一些核心的开发规范,希望能给大 ...
大数据(9) - Flume的安装与使用
Flume简介 --(实时抽取数据的工具) 1) Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集.聚集.移动的服务,Flume只能在Unix环境下运行. 2) Flume基于流式架构 ...

随机推荐

qt 操作串口
第三方类下载 https://sourceforge.net/projects/qextserialport/files/ 目录介绍搭建工程拷贝qextserialbase.cpp.qextser ...
记录一个h5页面生成canvas画布做签名的js插件--signature_pad
demo地址:https://jsfiddle.net/02dLn15g/5/ GitHub地址:https://github.com/szimek/signature_pad 配置项: dotSiz ...
django-URL路由系统
配置 URL配置(URLconf)就像Django 所支撑网站的目录.它的本质是URL与要为该URL调用的视图函数之间的映射表.你就是以这种方式告诉Django,对于这个URL调用这段代码,对于那个U ...
四步理解GloVe！(附代码实现)
1. 说说GloVe 正如GloVe论文的标题而言,GloVe的全称叫Global Vectors for Word Representation,它是一个基于全局词频统计(count-based & ...
UGUI:窗口限制以及窗口缩放
版权申明: 本文原创首发于以下网站: 博客园『优梦创客』的空间:https://www.cnblogs.com/raymondking123 优梦创客的官方博客:https://91make.top ...
[TJOI2015]弦论（后缀自动机）
传送门题意: 对给定字符串\(s\),求其第\(k\)小子串,重复串被计入以及不被计入这两种情况都需考虑. 思路: 首先构建后缀自动机,之后就考虑在后缀自动机上\(dp\). 我们知道如果要考虑重复 ...
python3用turtle库进行绘制小猪佩奇图案
晚上闲着无事,深入学习这个turtle用法,就做了小猪佩奇图附上代码: # coding: utf-8 #功能:绘画小猪佩奇 import turtle as t t.screensize(400, ...
bootstrap ui样例
http://demo.codedefault.com/demo/ui/theadmin/samples/invoicer/settings.html
Linux环境配置与项目部署
简介: Linux是一类Unix计算机操作系统的统称.Linux操作系统的内核的名字也是“Linux”.Linux操作系统也是自由软件和开放源代码发展中最著名的例子.严格来讲,Linux这个词本身只表 ...
靶场sql注入练手----sqlmap篇（纯手打）
靶场地址:封神台方法一.首先尝试手工找注入点判断第一步,判断是否存在sql注入漏洞构造 ?id=1 and 1=1 ,回车,页面返回正常构造 ?id=1 and 1=2 ,回车,页面不正常,初 ...

FusionInsight大数据开发---Flume应用开发

Flume应用开发

FusionInsight大数据开发---Flume应用开发的更多相关文章

随机推荐

热门专题