flume的sink写入hive表

flume的配置文件如下：

a1.sources=r1

a1.channels=c1

a1.sinks=s1

a1.sources.r1.type=netcat

a1.sources.r1.bind=master

a1.sources.r1.port=44444

a1.sinks.s1.type=hive

a1.sinks.s1.hive.metastore=thrift://master:9083

a1.sinks.s1.hive.database=bd14

a1.sinks.s1.hive.table=flume_user

a1.sinks.s1.serializer=DELIMITED

a1.sinks.s1.serializer.delimiter="\t"

a1.sinks.s1.serializer.serdeSeparator='\t'

a1.sinks.s1.serializer.fieldnames=user_id,user_name,age

a1.channels.c1.type=memory

a1.channels.c1.capacity=1000

a1.channels.c1.transactionCapacity=100

a1.sources.r1.channels=c1

a1.sinks.s1.channel=c1

保存
运行flume-ng agent -c conf -f netcat_to_hive_user.conf --name a1
hive根目录下的/hcatalog/share/hcatalog文件夹中的如下三个文件夹添加到flume的lib目录下

-rw-r--r--. 1 root root 260425 Jun 17  2016 hive-hcatalog-core-2.1.0.jar

-rw-r--r--. 1 root root  52709 Jun 17  2016 hive-hcatalog-pig-adapter-2.1.0.jar

-rw-r--r--. 1 root root  55274 Jun 17  2016 hive-hcatalog-server-extensions-2.1.0.jar

-rw-r--r--. 1 root root 121591 Jun 17  2016 hive-hcatalog-streaming-2.1.0.jar

在hive中

创建一张hive表表名是flume_user，字段是user_id,user_name,age

create table flume_user(

user_id int

,user_name string

,age int

)

clustered by (user_id) into 2 buckets

stored as orc

tableproperties("transactional"='true')

set hive.support.concurrency=true

set hive.txn.manager=org.apache.hadoop.hive.ql.lockmgr.DbTxnManager;

select * from flume_user

打开一个连接到服务器然后输入：
telnet localhost 44444
然后输入对应字符
1 tab键王五 tab键 15 tab键

flume的sink写入hive表的更多相关文章

spark读取mongodb数据写入hive表中
一环境: spark-: hive-; scala-; hadoop--cdh-; jdk-1.8; mongodb-2.4.10; 二.数据情况: MongoDB数据格式{ "_i ...
sparkStreaming读取kafka写入hive表
sparkStreaming: package hive import java.io.File import org.apache.kafka.clients.consumer.ConsumerRe ...
将DataFrame数据如何写入到Hive表中
1.将DataFrame数据如何写入到Hive表中?2.通过那个API实现创建spark临时表?3.如何将DataFrame数据写入hive指定数据表的分区中? 从spark1.2 到spark1.3 ...
spark 将dataframe数据写入Hive分区表
从spark1.2 到spark1.3,spark SQL中的SchemaRDD变为了DataFrame,DataFrame相对于SchemaRDD有了较大改变,同时提供了更多好用且方便的API.Da ...
Flume:sink.type=hive
Flume以Kafka为Source,以Hive为Sink进行数据转存. 业务背景:公司要求将某四川城市的卡口数据实时接入大数据平台中,历史数据可以通过Hive进行Load,也就是增量数据的对接问题. ...
使用spark将内存中的数据写入到hive表中
使用spark将内存中的数据写入到hive表中 hive-site.xml <?xml version="1.0" encoding="UTF-8" st ...
spark+hcatalog操作hive表及其数据
package iie.hadoop.hcatalog.spark; import iie.udps.common.hcatalog.SerHCatInputFormat; import iie.ud ...
Spark 读写hive 表
spark 读写hive表主要是通过sparkssSession 读表的时候,很简单,直接像写sql一样sparkSession.sql("select * from xx") 就 ...
[Flume][Kafka]Flume 与 Kakfa结合例子（Kakfa 作为flume 的sink 输出到 Kafka topic）
Flume 与 Kakfa结合例子(Kakfa 作为flume 的sink 输出到 Kafka topic) 进行准备工作: $sudo mkdir -p /flume/web_spooldir$su ...

随机推荐

常用的sublime text 3插件
原文出自:peter_zhou(晴空)https://www.cnblogs.com/qingkong/ All Autocomplete Sublime Text 默认的 Autocomplete ...
如何自己手动修改win10磁贴背景颜色？
前言当我们安装完应用后,可以选择将应用图标固定到"开始"屏幕,于是就会产生一个磁贴,有的应用会自带背景颜色,有的则是默认的主题色.其实这个只不过是应用本身没有没有去适配win10 ...
Codeforces Round #249 (Div. 2) C. Cardiogram
C. Cardiogram time limit per test 1 second memory limit per test 256 megabytes input standard input ...
Forbidden (CSRF token missing or incorrect.):
CSRF令牌失效或丢失,Ajax请求页面报错(403 Forbidden ) csrftoken存在页面响应为CSRF验证失败请求被中断,经过测试,该错误并非是没有在表单中加入{% csrf_tok ...
spring Boot 学习（二、Spring Boot与缓存）
一.概述1. 大多应用中,可通过消息服务中间件来提升系统异步通信.扩展解耦能力 2. 消息服务中两个重要概念: 消息代理(message broker)和目的地(destination) 当消息发送者 ...
.Net Core 图片上传FormData和Base64
缓冲和流式传输是上传文件的两种常用方案,这里主要演示流式传输. 1.Net Core MVC Form提交方式: 前端页面 form表单提交: <form id="uploadForm ...
Visual Studio 2019 使用.Net Core 3.0 二
一.遇到难题在微软官方逛了一圈,看到了这个. 马上点击,进去看看什么情况. 1.安装previewVisual studio 2019 2.设置SDK previews in Visual Stud ...
C# vb .net实现马赛克焦距像素化特效滤镜
在.net中,如何简单快捷地实现Photoshop滤镜组中的马赛克焦距像素化效果呢?答案是调用SharpImage!专业图像特效滤镜和合成类库.下面开始演示关键代码,您也可以在文末下载全部源码: 设置 ...
关于如何控制一个页面的Ajax读数据只读一次的简单解决办法！
例如:一个页面有一个按钮,点击的时候用ajax去后台获取数据,获取成功以后返回.下次再点击的时候就不要去获取数据了. 解决办法有很多: 1.用Get方法去读数据,会缓存. 2.用jquery的data ...
在docker容器上如何实现代码的版本管理
之前在一台centos7的虚拟机上部署了docker并运行了三个容器给开发写代码用,写代码肯定会涉及到版本控制管理. 开始建议是开发在容器中写代码,然后通过docker commit的方式将其保存为i ...

flume的sink写入hive表

flume的sink写入hive表的更多相关文章

随机推荐

热门专题