flume的sink写入hive表

flume的配置文件如下：

a1.sources=r1

a1.channels=c1

a1.sinks=s1

a1.sources.r1.type=netcat

a1.sources.r1.bind=master

a1.sources.r1.port=44444

a1.sinks.s1.type=hive

a1.sinks.s1.hive.metastore=thrift://master:9083

a1.sinks.s1.hive.database=bd14

a1.sinks.s1.hive.table=flume_user

a1.sinks.s1.serializer=DELIMITED

a1.sinks.s1.serializer.delimiter="\t"

a1.sinks.s1.serializer.serdeSeparator='\t'

a1.sinks.s1.serializer.fieldnames=user_id,user_name,age

a1.channels.c1.type=memory

a1.channels.c1.capacity=1000

a1.channels.c1.transactionCapacity=100

a1.sources.r1.channels=c1

a1.sinks.s1.channel=c1

保存
运行flume-ng agent -c conf -f netcat_to_hive_user.conf --name a1
hive根目录下的/hcatalog/share/hcatalog文件夹中的如下三个文件夹添加到flume的lib目录下

-rw-r--r--. 1 root root 260425 Jun 17  2016 hive-hcatalog-core-2.1.0.jar

-rw-r--r--. 1 root root  52709 Jun 17  2016 hive-hcatalog-pig-adapter-2.1.0.jar

-rw-r--r--. 1 root root  55274 Jun 17  2016 hive-hcatalog-server-extensions-2.1.0.jar

-rw-r--r--. 1 root root 121591 Jun 17  2016 hive-hcatalog-streaming-2.1.0.jar

在hive中

创建一张hive表表名是flume_user，字段是user_id,user_name,age

create table flume_user(

user_id int

,user_name string

,age int

)

clustered by (user_id) into 2 buckets

stored as orc

tableproperties("transactional"='true')

set hive.support.concurrency=true

set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;

select * from flume_user

打开一个连接到服务器然后输入：
telnet localhost 44444
然后输入对应字符
1 tab键王五 tab键 15 tab键

flume的sink写入hive表的更多相关文章

spark读取mongodb数据写入hive表中
一环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_i ...
sparkStreaming读取kafka写入hive表
sparkStreaming: package hive import java.io.File import org.apache.kafka.clients.consumer.ConsumerRe ...
将DataFrame数据如何写入到Hive表中
1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中? 从spark1.2 到spark1.3 ...
spark 将dataframe数据写入Hive分区表
从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API.Da ...
Flume:sink.type=hive
Flume以Kafka为Source,以Hive为Sink进行数据转存. 业务背景:公司要求将某四川城市的卡口数据实时接入大数据平台中,历史数据可以通过Hive进行Load,也就是增量数据的对接问题. ...
使用spark将内存中的数据写入到hive表中
使用spark将内存中的数据写入到hive表中 hive-site.xml <?xml version="1.0" encoding="UTF-8" st ...
spark+hcatalog操作hive表及其数据
package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.ud ...
Spark 读写hive 表
spark 读写hive表主要是通过sparkssSession 读表的时候,很简单,直接像写sql一样sparkSession.sql("select * from xx") 就 ...
[Flume][Kafka]Flume 与 Kakfa结合例子（Kakfa 作为flume 的sink 输出到 Kafka topic）
Flume 与 Kakfa结合例子(Kakfa 作为flume 的sink 输出到 Kafka topic) 进行准备工作: $sudo mkdir -p /flume/web_spooldir$su ...

随机推荐

panda读取Excel
pandas读取Excel的第一种方法方法一:默认读取第一个表单 import pandas print("\n方法一:") xls_data=pd.read_excel('ce ...
浅谈SQL Server事务与锁（上篇）
一概述在数据库方面,对于非DBA的程序员来说,事务与锁是一大难点,针对该难点,本篇文章试图采用图文的方式来与大家一起探讨. “浅谈SQL Server 事务与锁”这个专题共分两篇,上篇主讲事务及 ...
Android调试桥 adb安装详解
Android调试桥(adb) 一.简介 Android 调试桥 (adb) 是一种功能多样的命令行工具,可让您与设备进行通信.adb 命令便于执行各种设备操作(例如安装和调试应用),并提供对 Uni ...
redis源码分析(四)--aof持久化
Redis aof持久化 Redis支持两种持久化方式:rdb与aof,上一篇文章中已经大致介绍了rdb的持久化实现,这篇文章主要介绍aof实现. 与rdb方式相比,aof会使用更多的存储空间,因为它 ...
【实战经验】--Xilinx--IPcore--PLL生成
用途: PLL用于产生自己想要的时钟,可以倍频有可以分频,通常倍频. 生成: 1.打开ISE—— Project —— New source,选择IP(CORE Generator & Arc ...
CLRS10.1-7练习 - 用双队列实现栈
算法中心思想: 始终向非空队列进行入队操作初始化时两个队列都为空,我们对q1进行入队操作入栈: 只需执行其中一个队列入队操作即可, 具体操作哪一个队列,用一个标记变量标记出栈流程图代码实现 p ...
【Rust】使用cargo创建项目及cargo源的替换
---------------------------------参考文档------------------------------- https://rustlang-cn.org/office/ ...
ubuntu 使用阿里云镜像源快速搭建kubernetes 1.15.2集群
一.概述搭建k8s集群时,需要访问google,下载相关镜像以及安装软件,非常麻烦. 正好阿里云提供了k8s的更新源,国内用户就可以直接使用了. 二.环境介绍操作系统主机名 IP地址功能配置 ...
【简解】C2CRNI - Crni
[题目大意] 给定一个N行N列的矩阵,每个格子要么为白色要么为黑色.黑矩形为所涵单元格数大于等于2且所涵单元格均为黑色的矩表.要解决的问题是在给定的矩形中找出两个没有共公部分的黑矩形,输出所有方案数, ...
多个数据源Mongo连接
MongoDB :https://my.oschina.net/u/3452433/blog/2999501多个数据源Mongo连接:https://juejin.im/post/5cf73090f2 ...

flume的sink写入hive表

flume的sink写入hive表的更多相关文章

随机推荐

热门专题