Flume - [04] Hive Sink

一、概述

HIVE Sink 将包含分割文本或JSON数据的事件直接流到Hive表或分区中。事件是使用Hive事务编写的。一旦一组事件被提交到Hive，它们就会立即对hive查询可见。流到其中的分区可以是预先创建的，也可以是可选的，如果它们丢失了，可以创建它们。传入事件数据中的字段映射到Hive标中的相应列。

二、配置

1、在 flume-env.sh中配置hive的路径

export HIVE_HOME=/data/hive/apache-hive

2、配置hive sink的properties文件

# flume配置的例子

# Name the components on this agent

# source:起一个别名

# properties文件它是java的配置文件,=左边就是键,=右边是值;键的开头都是以a1(就是flume的名字--agent的名字就是a1);a1随便起

a1.sources = r1

# sink:起一个别名

a1.sinks = k1

# channels;:起一个别名

a1.channels = c1

 

# Describe/configure the source

# spooldir:监控硬盘上指定的某个目录,如果文件发生变化,会被flume捕获;

a1.sources.r1.type = spooldir

# 要监控的目录,此目录必须存在

a1.sources.r1.spoolDir =/root/flume/

# 已经完成的文件,会加上一个后缀

a1.sources.r1.fileSuffix =.ok

# 已经完成的文件,会立即删除,默认值是never;(永不删除)

# a1.sources.r1.deletePolicy =immediate

# 是否添加存储绝对路径文件名的标题

a1.sources.r1.fileHeader =true

# 只处理此目录下面的txt文件;

a1.sources.r1.includePattern =^[\\w]+\\.txt$

 

# Describe the sink

# 采集的是日志(txt);在hive中创建一张表,load data把文件拷贝到指定目录下面,

# 相当于把日志文件中的记录插入到了hive表

# hive

a1.sinks.k1.type =hive

# hive的服务器

a1.sinks.k1.hive.metastore =thrift://node7-4:9083

# hive的数据库

a1.sinks.k1.hive.database =mydata

# hive的表名,(这张表一定得存在,需要在hive中创建表)

a1.sinks.k1.hive.table =flume_table

# 配置分区,多个分区使用逗号隔开;time=%Y-%m-%d,a=b,c=d;一个分区的时候名字可以省;分区不是必须配置的

a1.sinks.k1.hive.partition=time-%Y-%m-%d

# useLocalTimeStamp

a1.sinks.k1.useLocalTimeStamp =true

# 采集的数据是文本文件(如果是json文件就填写json)

a1.sinks.k1.serializer =DELIMITED

# 列与列之间的分隔符

a1.sinks.k1.serializer.delimiter=,

# 采集的源文件里面有好几列,到底要使用哪几列的数据

a1.sinks.k1.serializer.fieldnames=id,msg,createtime

 

# Use a channel which buffers events in memory

# 描述一下channel:内存

a1.channels.c1.type = memory

# capacity:容量

a1.channels.c1.capacity = 1000000

# transactionCapacity:事务的容量

a1.channels.c1.transactionCapacity = 1000000

 

# Bind the source and sink to the channel

# 绑定;source和channel绑定

a1.sources.r1.channels = c1

# sink和channel绑定

a1.sinks.k1.channel = c1

三、测试

1、启动hadoop

2、启动hive

3、在hive中创建一张表

create table flume_table

(

    id int,

    msg string,

    createTime string

)

partitioned by (ctime string)

clustered by (id) into 5 buckets

stored as orc

tblproperties ("transactional"="true")

4、准备数据文件（data.txt）

1,zxy,2018-06-01

2,zxc,2020-03-01

3,hhl,1998-04-01

4,gqj,1949-10-01

5,ljh,2019-06-24

5、启动flume服务端

nohup bin/flume-ng agent --conf conf \

--conf-file conf/flume_hive.properties \

--name a1 -Dflume.root.logger=INFO,console &

6、观察hive表flume_table的变化

— 要养成终生学习的习惯 —

Flume - [04] Hive Sink的更多相关文章

flume 测试 hive sink
测试flume,将数据送到hive表中,首先建表. create table order_flume( order_id string, user_id string, eval_set string ...
Flume + HDFS + Hive日志收集系统
最近一段时间,负责公司的产品日志埋点与收集工作,搭建了基于Flume+HDFS+Hive日志搜集系统. 一.日志搜集系统架构: 简单画了一下日志搜集系统的架构图,可以看出,flume承担了agent与 ...
Hive详解(04) - hive函数的使用
Hive详解(04) - hive函数的使用系统内置函数查看系统自带的函数 hive> show functions; 显示自带的函数的用法 hive> desc function u ...
简单的Flume和hive的结合
1. 日志格式 #Software: Microsoft Internet Information Services 6.0 #Version: 1.0 #Date: -- :: #Fields: d ...
自定义flume的hbase sink 的序列化程序
package com.hello.hbase; import java.nio.charset.Charset; import java.text.SimpleDateFormat; import ...
从0到1搭建基于Kafka、Flume和Hive的海量数据分析系统(一)数据收集应用
大数据时代,一大技术特征是对海量数据采集.存储和分析的多组件解决方案.而其中对来自于传感器.APP的SDK和各类互联网应用的原生日志数据的采集存储则是基本中的基本.本系列文章将从0到1,概述一下搭建基 ...
Flume的Avro Sink和Avro Source研究之二： Avro Sink
啊,AvroSink要复杂好多:< 好吧,先确定主要问题: AvroSink为啥这么多代码?有必要吗?它都有哪些逻辑需要实现? 你看,avro-rpc-quickstart里是这么建client ...
Hadoop实战-Flume之自定义Sink(十九)
import java.io.File; import java.io.FileNotFoundException; import java.io.FileOutputStream; import j ...
Hadoop实战-Flume之Hdfs Sink(十)
a1.sources = r1 a1.sinks = k1 a1.channels = c1 # Describe/configure the source a1.sources.r1.type = ...
Flume的Avro Sink和Avro Source研究之一： Avro Source
问题 : Avro Source提供了怎么样RPC服务,是怎么提供的? 问题 1.1 Flume Source是如何启动一个Netty Server来提供RPC服务. 由GitHub上avro-rpc ...

随机推荐

QTabWidget的高度取决于当前选项卡的高度
QTabWidget的高度自适应当前选项卡的高度,可以通过设置其他选项卡的QSizePolicy为Ignored, connect(ui->tabWidget,SIGNAL(currentCha ...
ProcessExplorer 多功能任务管理器软件-中文绿色单文件版
今天我和大家分享一款系统监控工具--ProcessExplorer.一个比Windows自带的任务管理器更强大的工具.感觉最实用的是他的搜索功能,可以搜到系统任务管理器里面无法显示的应用, 大家可以网 ...
vue3版本下element-plus和antd-vue选哪个更好一些？
Vue 3 发布后,各家第三方库开始陆续重构并支持 Vue 3 ,国内两大知名框架 Element Plus 和 Ant Design Vue 也相续发布新版支持 Vue 3.到底应该怎么选择呢? E ...
Android 12 适配之 "Android:exported"
Android 12 适配之 "Android:exported" 将 build.gradle 中的 targetSDKVersion 和 compileSdkVersion 改 ...
使用 ASP.NET Core 5 Web API 创建可发现的 HTTP API
使用 ASP.NET Core 5 Web API 创建可发现的 HTTP API https://devblogs.microsoft.com/aspnet/creating-discoverabl ...
forms组件与源码分析、modelform组件
目录一.forms组件 forms组件介绍 Form定义二.forms组件渲染标签三.forms组件展示信息四.forms组件校验补充五.forms组件参数补充六.forms组件源码剖析 ...
Qt音视频开发35-Onvif图片参数
一.前言视频中的图片的配置参数一般有亮度.饱和度.对比度.锐度等,以前一直以为这些需要通过厂家的私有协议SDK来设置才行,后面通过研究Onvif Device Manager 和 Onvif Dev ...
Typora设置自定义脚本上传图片
搭建图床服务这里利用CloudFlare搭建免费的图床服务 cf-image-hosting 部署Pages $ git clone https://github.com/ifyour/cf-ima ...
什么是单点登录SSO？SSO工作原理
记住多个用户名和密码来访问不同网站和应用程序很麻烦.单点登录 (SSO) 允许用户使用一组凭证访问多个资源,从而消除了对多个用户 ID 和密码的需求. 没有 SSO 的世界在没有 SSO 的情况下, ...
总是被低估，从未被超越，揭秘QQ极致丝滑背后的硬核IM技术优化
本文由腾讯云开发者张曌.毕磊分享,原题"QQ 9"傻快傻快"的?!带你看看背后的技术秘密",本文进行了排版和内容优化等. 1.引言最新发布的 QQ 9 自上线 ...