Flume - [03] HDFS Sink

一、概述

将事件写入 Hadoop 分布式文件系统（HDFS）。目前支持创建文本和序列文件。支持两种文件类型的压缩。可以根据经过的时间、数据大小或事件数周期性地滚动文件（关闭当前文件并创建文件）。根据事件起源的时间戳或机器等属性对数据进行存储/分区。HDFS目录路径可能包好格式转义序列，这些转义序列将被 HDFS 接收器替换，以生成目录/文件名来存储事件。

HDFS Sink 会将监控到的目录中新文件（大文件）切分成多个小文件上传到 HDFS中。

二、配置

1、首先在flume-env.sh中配置HADOOP_HOME

2、配置HDFS sink的properties文件

# flume配置的例子

# Name the components on this agent

# source:起一个别名

# properties文件它是java的配置文件,=左边就是键,=右边是值;键的开头都是以a1(就是flume的名字--agent的名字就是a1);a1随便起

a1.sources = r1

# sink:起一个别名

a1.sinks = k1

# channels;:起一个别名

a1.channels = c1

 

# Describe/configure the source

# spooldir:监控硬盘上指定的某个目录,如果文件发生变化,会被flume捕获;

a1.sources.r1.type = spooldir

# 要监控的目录,此目录必须存在

a1.sources.r1.spoolDir =/root/flume/

# 已经完成的文件,会加上一个后缀

a1.sources.r1.fileSuffix =.ok

# 已经完成的文件,会立即删除,默认值是never;(永不删除)

# a1.sources.r1.deletePolicy =immediate

# 是否添加存储绝对路径文件名的标题

a1.sources.r1.fileHeader =true

# 只处理此目录下面的txt文件;

a1.sources.r1.includePattern =^[\\w]+\\.txt$

 

# Describe the sink

# 描述一个sink: logger日志(打印到控制台上)

a1.sinks.k1.type = hdfs

# hdfs的路径;配置hdfs一定要是大哥的路径;(必须是active)

a1.sinks.k1.hdfs.path =hdfs://node-1:8020/flume/%Y-%m-%d/

# 文件的前缀

a1.sinks.k1.hdfs.filePrefix =event

# 文件的后缀

a1.sinks.k1.hdfs.fileSuffix =.txt

# hdfs.inUsePrefix临时文件的前缀,hdfs.inUseSuffix临时文件的后缀

# hdfs.codeC 文件压缩

# 输出原来的文件内容,不要压缩

a1.sinks.k1.hdfs.fileType=DataStream

# 设置文件的格式为textFile

a1.sinks.k1.hdfs.writeFormat=Text

# 如果路径里面有时间,必须要加上hdfs.useLocalTimeStamp=true

a1.sinks.k1.hdfs.useLocalTimeStamp=true

# 时间舍去法;%y,%m,%d(机器的本地时间),集群中所有时间是一样的;(如果集中所有的服务器时间不一样,允许时间有误差;统一是当前时间-误差)

# 当前的时间允许的误差是20s;

a1.sinks.k1.hdfs.round = true

# 每隔多长时间

a1.sinks.k1.hdfs.roundValue = 20

# 时间单位

a1.sinks.k1.hdfs.roundUnit = second

# roll:滚动;时间30s,如果flume发现有新文件,上传到hdfs上,等待30秒

# 避免有大文件,拆分成多个小文件;(准备一个大文件);三种策略选择一个(目的是不让文件拆分)

# 在等待的30秒以内,如果此文件发生了修改(也会进行拆分)

a1.sinks.k1.hdfs.rollInterval=30

# 滚动,新增加的文件大小(等待时间期间);0:表示不生效(1kb)

a1.sinks.k1.hdfs.rollSize=1024

# 滚动多少行(新增加多少行)(等待时间期间),每隔10行会在hdfs上生成一个新文件;0:表示不生效

a1.sinks.k1.hdfs.rollCount=0

 

 

# Use a channel which buffers events in memory

# 描述一下channel:内存

a1.channels.c1.type = memory

# capacity:容量

a1.channels.c1.capacity = 1000000

# transactionCapacity:事务的容量

a1.channels.c1.transactionCapacity = 1000000

 

# Bind the source and sink to the channel

# 绑定;source和channel绑定

a1.sources.r1.channels = c1

# sink和channel绑定

a1.sinks.k1.channel = c1

三、测试

1、启动flume

bin/flume-ng agent --conf conf \

--conf-file conf/xxx_xxx.properties \

--name a1 \

-Dflume.root.logger=INFO,console

# 或者是

bin/flum-ng agent -c conf \

-f conf/xxx_xxx.proeprties \

-n a1  -Dflume.root.logger=INFO,console

2、在/root/flume目录下放置文件（新建/移动）

source中配置了监控文件的格式为txt文件

3、观察hdfs目录/flume/%Y-%m-%d下的变化

— 要养成终生学习的习惯 —

Flume - [03] HDFS Sink的更多相关文章

Hadoop实战-Flume之Hdfs Sink(十)
a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = ...
[bigdata] 使用Flume hdfs sink， hdfs文件未关闭的问题
现象: 执行mapreduce任务时失败通过hadoop fsck -openforwrite命令查看发现有文件没有关闭. [root@com ~]# hadoop fsck -openforwri ...
[ETL] Flume 理论与demo（Taildir Source & Hdfs Sink）
一.Flume简介 1. Flume概述 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集.聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据: ...
Flume中的HDFS Sink配置参数说明【转】
转:http://lxw1234.com/archives/2015/10/527.htm 关键字:flume.hdfs.sink.配置参数 Flume中的HDFS Sink应该是非常常用的,其中的配 ...
修改Flume-NG的hdfs sink解析时间戳源码大幅提高写入性能
Flume-NG中的hdfs sink的路径名(对应参数"hdfs.path",不允许为空)以及文件前缀(对应参数"hdfs.filePrefix")支持正则解 ...
HDFS Sink使用技巧
1.文件滚动策略在HDFS Sink的文件滚动就是文件生成,即关闭当前文件,创建新文件.它的滚动策略由以下几个属性控制: hdfs.rollInterval 基于时间间隔来进行文件滚动,默认是30, ...
kafka产生的数据通过Flume存到HDFS中
试验目标: 把kafka的生产者发出的数据流经由Flume放到HDFS来存储. 试验环境: java:1.8 kafka:2.11 flume:1.6 hadoop:2.8.5 试验流程: 1.进入z ...
flume 中的 hdfs sink round 和roll
http://blog.csdn.net/kntao/article/details/49278239 http://flume.apache.org/FlumeUserGuide.html#exec ...
flume集成hdfs(hdfs开启kerberos认证)
)当 sink 到 hdfs 时: ) 需修改 flume-env.sh 配置,增添 hdfs 依赖库: FLUME_CLASSPATH="/root/TDH-Client/hadoop/h ...
自定义flume的hbase sink 的序列化程序
package com.hello.hbase; import java.nio.charset.Charset; import java.text.SimpleDateFormat; import ...

随机推荐

Redis应用—1.在用户数据里的应用
大纲 1.社区电商的业务闭环 2.Redis缓存架构的典型生产问题 3.用户数据在读多写少场景下的缓存设计 4.热门用户数据的缓存自动延期机制 5.缓存惊群与穿透问题的解决方案 6.缓存和数据库双写不 ...
SQL Server创建用户一直提示用户已存在的解决办法
背景:复制的老数据库,创建账号onlyread时,一直提示数据库里有这个用户名.报错如下:"用户.组或角色'onlyread'在当前数据库中已存在." 解决方法: 1. 查询数据库 ...
【JavaWeb】前后端分离SpringBoot项目快速排错指南
1 发起业务请求打开浏览器开发者工具,同时显示网络(Internet)和控制台(console) 接着,清空控制台和网络的内容,如下图然后,点击你的业务按钮,发起请求. 首先看控制台有没有报错信息 ...
Qt编写物联网管理平台37-逻辑设计
一.前言本系统的逻辑设计是个人认为做过的系统中最好的,一个系统支持多个通信端口,每个通信端口都可选不同的通信协议,一个通信端口可以接255个控制器,相当于主设备,一个控制器可以接255个探测器,相当 ...
主打一个“小巧灵动”：Vite + Svelte
作者:来自 vivo 互联网大前端团队- Wei Xing 在研发小型项目时,传统的 Vue.React 显得太"笨重".本文主要针对开发小型项目的场景,谈谈 Vite+Svel ...
[转]WorldWind开发中WorldWindowGLCanvas .setPreferredSize()函数找不到
值高温假期,无意翻到了csdn中三维GIS开发的专栏,讲的是worldwind Java三维GIS系统开发的东西,十分感兴趣.恰巧要求的环境已经存在,直接耍起来.将最新的Worldwind和JOGL下 ...
OpenMMLab AI实战营第二课笔记计算机视觉之图像分类算法基础
OpenMMLab AI实战营第二课笔记目录 OpenMMLab AI实战营第二课笔记图像分类与基础视觉基础 1.图像分类问题 1.1 问题的数学表示 1.2 视觉任务的难点 1.2.1 超越 ...
树莓派cm4更新bootloader(eeprom)
cm4不能在系统里通过 rpi-eeprom-update 指令进行升级,也不能通过 update 进行更新,只能通过recovery模式进行更新. 以下为Windows的升级方式. Setp 1:下 ...
【转载】hacker术语
1.肉鸡所谓"肉鸡"是一种很形象的比喻,比喻那些可以随意被我们控制的电脑,对方可以是WINDOWS系统,也可以是UNIX/LINUX系统,可以是普通的个人电脑,也可以是大型的服务 ...
ESP8266 wifi模块+CH340烧录板安装使用运行教程
硬件准备 ESP8266-01S 模块 USB转TTL烧录板(CH340) LED灯(建议使用3.3V LED) 220Ω电阻(LED限流) 面包板和跳线若干我的是这样的不用接线,其他的参考 ESP ...