flume 自己定义 hbase sink 类
- http://ydt619.blog.51cto.com/316163/1230586
- https://blogs.apache.org/flume/entry/streaming_data_into_apache_hbase
flume 1.5 的配置文件演示样例
- #Name the components on this agent
- a1.sources = r1
- a1.sinks = k1
- a1.channels = c1
- # Describe/configure the source
- a1.sources.r1.type = spooldir
- a1.sources.r1.spoolDir = /home/scut/Downloads/testFlume
- # Describe the sink
- a1.sinks.k1.type = org.apache.flume.sink.hbase.AsyncHBaseSink
- a1.sinks.k1.table = Router #设置hbase的表名
- a1.sinks.k1.columnFamily = log #设置hbase中的columnFamily
- a1.sinks.k1.serializer.payloadColumn=serviceTime,browerOS,clientTime,screenHeight,screenWidth,url,userAgent,mobileDevice,gwId,mac # 设置hbase的column
- a1.sinks.k1.serializer = org.apache.flume.sink.hbase.BaimiAsyncHbaseEventSerializer # 设置serializer的处理类
- # Use a channel which buffers events in memory
- a1.channels.c1.type = memory
- a1.channels.c1.capacity = 1000
- a1.channels.c1.transactionCapacity = 100
- # Bind the source and sink to the channel
- a1.sources.r1.channels = c1
- a1.sinks.k1.channel = c1
- a1.sinks.k1.serializer.payloadColumn 中列出了全部的列名。
- a1.sinks.k1.serializer设置了flume serializer的处理类。BaimiAsyncHbaseEventSerializer类中会获取payloadColumn的内容。将它以逗号分隔。从而得出全部的列名。
BaimiAsyncHbaseEventSerializer类
- /*
- * Licensed to the Apache Software Foundation (ASF) under one
- * or more contributor license agreements. See the NOTICE file
- * distributed with this work for additional information
- * regarding copyright ownership. The ASF licenses this file
- * to you under the Apache License, Version 2.0 (the
- * "License"); you may not use this file except in compliance
- * with the License. You may obtain a copy of the License at
- *
- * http://www.apache.org/licenses/LICENSE-2.0
- *
- * Unless required by applicable law or agreed to in writing,
- * software distributed under the License is distributed on an
- * "AS IS" BASIS, WITHOUT WARRANTIES OR CONDITIONS OF ANY
- * KIND, either express or implied. See the License for the
- * specific language governing permissions and limitations
- * under the License.
- */
- package org.apache.flume.sink.hbase;
- import java.util.ArrayList;
- import java.util.List;
- import org.apache.flume.Context;
- import org.apache.flume.Event;
- import org.apache.flume.FlumeException;
- import org.hbase.async.AtomicIncrementRequest;
- import org.hbase.async.PutRequest;
- import org.apache.flume.conf.ComponentConfiguration;
- import org.apache.flume.sink.hbase.SimpleHbaseEventSerializer.KeyType;
- import com.google.common.base.Charsets;
- public class BaimiAsyncHbaseEventSerializer implements AsyncHbaseEventSerializer {
- private byte[] table;
- private byte[] cf;
- private byte[][] payload;
- private byte[][] payloadColumn;
- private final String payloadColumnSplit = "\\^A";
- private byte[] incrementColumn;
- private String rowSuffix;
- private String rowSuffixCol;
- private byte[] incrementRow;
- private KeyType keyType;
- @Override
- public void initialize(byte[] table, byte[] cf) {
- this.table = table;
- this.cf = cf;
- }
- @Override
- public List<PutRequest> getActions() {
- List<PutRequest> actions = new ArrayList<PutRequest>();
- if(payloadColumn != null){
- byte[] rowKey;
- try {
- switch (keyType) {
- case TS:
- rowKey = SimpleRowKeyGenerator.getTimestampKey(rowSuffix);
- break;
- case TSNANO:
- rowKey = SimpleRowKeyGenerator.getNanoTimestampKey(rowSuffix);
- break;
- case RANDOM:
- rowKey = SimpleRowKeyGenerator.getRandomKey(rowSuffix);
- break;
- default:
- rowKey = SimpleRowKeyGenerator.getUUIDKey(rowSuffix);
- break;
- }
- // for 循环。提交全部列和对于数据的put请求。
- for (int i = 0; i < this.payload.length; i++)
- {
- PutRequest putRequest = new PutRequest(table, rowKey, cf,payloadColumn[i], payload[i]);
- actions.add(putRequest);
- }
- } catch (Exception e){
- throw new FlumeException("Could not get row key!", e);
- }
- }
- return actions;
- }
- public List<AtomicIncrementRequest> getIncrements(){
- List<AtomicIncrementRequest> actions = new
- ArrayList<AtomicIncrementRequest>();
- if(incrementColumn != null) {
- AtomicIncrementRequest inc = new AtomicIncrementRequest(table,
- incrementRow, cf, incrementColumn);
- actions.add(inc);
- }
- return actions;
- }
- @Override
- public void cleanUp() {
- // TODO Auto-generated method stub
- }
- @Override
- public void configure(Context context) {
- String pCol = context.getString("payloadColumn", "pCol");
- String iCol = context.getString("incrementColumn", "iCol");
- rowSuffixCol = context.getString("rowPrefixCol", "mac");
- String suffix = context.getString("suffix", "uuid");
- if(pCol != null && !pCol.isEmpty()) {
- if(suffix.equals("timestamp")){
- keyType = KeyType.TS;
- } else if (suffix.equals("random")) {
- keyType = KeyType.RANDOM;
- } else if(suffix.equals("nano")){
- keyType = KeyType.TSNANO;
- } else {
- keyType = KeyType.UUID;
- }
- // 从配置文件里读出column。
- String[] pCols = pCol.replace(" ", "").split(",");
- payloadColumn = new byte[pCols.length][];
- for (int i = 0; i < pCols.length; i++)
- {
- // 列名转为小写
- payloadColumn[i] = pCols[i].toLowerCase().getBytes(Charsets.UTF_8);
- }
- }
- if(iCol != null && !iCol.isEmpty()) {
- incrementColumn = iCol.getBytes(Charsets.UTF_8);
- }
- incrementRow =
- context.getString("incrementRow", "incRow").getBytes(Charsets.UTF_8);
- }
- @Override
- public void setEvent(Event event) {
- String strBody = new String(event.getBody());
- String[] subBody = strBody.split(this.payloadColumnSplit);
- if (subBody.length == this.payloadColumn.length)
- {
- this.payload = new byte[subBody.length][];
- for (int i = 0; i < subBody.length; i++)
- {
- this.payload[i] = subBody[i].getBytes(Charsets.UTF_8);
- if ((new String(this.payloadColumn[i]).equals(this.rowSuffixCol)))
- {
- // rowkey 前缀是某一列的值, 默认情况是mac地址
- this.rowSuffix = subBody[i];
- }
- }
- }
- }
- @Override
- public void configure(ComponentConfiguration conf) {
- // TODO Auto-generated method stub
- }
- }
- configure函数:读取flume配置文件内容。包含列名。rowkey后缀等信息
- setEvent函数:获取flume event 内容,将其保存到payload数组中。
- getActions函数:创建PutRequest实例。将rowkey,columnfamily,column,value等信息写入putrequest实例中。
源代码编译和运行
- 下载flume 1.5 源代码,解压后进入文件夹flume-1.5.0-src/flume-ng-sinks/flume-ng-hbase-sinks/src/main/java/org/apache/flume/sink/hbase/
- 复制上面的BaimiAsyncHbaseEventSerializer类到上面的文件夹中。
- 进入flume-1.5.0-src/flume-ng-sinks/flume-ng-hbase-sinks/。执行mvn编译命令【mvn install -Dmaven.test.skip=true】
- mvn编译后会在flume-1.5.0-src/flume-ng-sinks/flume-ng-hbase-sinks/target文件夹下生成flume-ng-hbase-sink-1.5.0.jar,将这个jar包替换$FLUME_HOME/lib下的jar包
- 执行flume执行命令【flume-ng agent -c . -f conf/spoolDir.conf -n a1 -Dflume.root.logger=INFO,console】
flume 自己定义 hbase sink 类的更多相关文章
- 使用flume将kafka数据sink到HBase【转】
1. hbase sink介绍 1.1 HbaseSink 1.2 AsyncHbaseSink 2. 配置flume 3. 运行测试flume 4. 使用RegexHbaseEventSeriali ...
- Flume+Kafka+Storm+Hbase+HDSF+Poi整合
Flume+Kafka+Storm+Hbase+HDSF+Poi整合 需求: 针对一个网站,我们需要根据用户的行为记录日志信息,分析对我们有用的数据. 举例:这个网站www.hongten.com(当 ...
- Flume:source和sink
Flume – 初识flume.source和sink 目录基本概念常用源 Source常用sink 基本概念 什么叫flume? 分布式,可靠的大量日志收集.聚合和移动工具. events ...
- [置顶] NS2中对TCP数据包和ACK包的TCP Sink类的主要实现代码详尽剖析--吐血放送
NS2中对TCP数据包和ACK包的TCP Sink类的主要实现代码详尽剖析,限于个人水平,如有错误请留言指出! TcpSink类的recv()方法: void TcpSink::recv(Packet ...
- FLUME KAFKA SOURCE 和 SINK 使用同一个 TOPIC
FLUME KAFKA SOURCE 和 SINK 使用同一个 TOPIC 最近做了一个事情,过滤下kakfa中的数据后,做这个就用到了flume,直接使用flume source 和 flume s ...
- Flume实时监控目录sink到hdfs,再用sparkStreaming监控hdfs的这个目录,对数据进行计算
目标:Flume实时监控目录sink到hdfs,再用sparkStreaming监控hdfs的这个目录,对数据进行计算 1.flume的配置,配置spoolDirSource_hdfsSink.pro ...
- Map中如何把没有定义操作符<的类作为key
Map中如何把没有定义操作符<的类作为key 其实,为了实现快速查找,map内部本身就是按序存储的(比如红黑树).在我们插入<key, value>键值对时,就会按照key的大小顺序 ...
- hadoop编程小技巧(5)---自己定义输入文件格式类InputFormat
Hadoop代码測试环境:Hadoop2.4 应用:在对数据须要进行一定条件的过滤和简单处理的时候能够使用自己定义输入文件格式类. Hadoop内置的输入文件格式类有: 1)FileInputForm ...
- python_如何定义装饰器类?
案例: 实现一个能将函数调用信息记录到日志的装饰器 需求: 把每次函数的调用时间,执行时间,调用次数写入日志 可以对被装饰函数分组,调用信息记录到不同日志 动态修改参数,比如日志格式 动态打开关闭日志 ...
随机推荐
- c语言题目:找出一个二维数组的“鞍点”,即该位置上的元素在该行上最大,在该列上最小。也可能没有鞍点
//题目:找出一个二维数组的“鞍点”,即该位置上的元素在该行上最大,在该列上最小.也可能没有鞍点. // #include "stdio.h" #include <stdli ...
- Linux 内核无线子系统
Linux 内核无线子系统 浅谈 Linux 内核无线子系统 Table of Contents 1. 全局概览 2. 模块间接口 3. 数据路径与管理路径 4. 数据包是如何被发送? 5. 谈谈管理 ...
- IE添加信任站点并设置允许ActiveX控件的VBS脚本
Set objFSO = CreateObject("Scripting.FileSystemObject") Set WSHShell = CreateObject(" ...
- JEECMS用法总结
1.循环打印栏目: [@cms_channel_list] [#list tag_list as c] <li id="${c.path}"><a href=&q ...
- Eclipse debug ‘Source not found’
用Eclispe进行Debug时一直被一个问题所困扰:Source not found. 问题产生的原因是调试进入了一个没有源代码的jar包里. 简短说明: Edit Source Lookup Pa ...
- .NET中TextBox控件设置ReadOnly=true后台取不到值 三种解决方法
方法一:不设置ReadOnly属性,通过onfocus=this.blur()来模拟,如下: <asp:TextBox ID="TextBox1" runat="s ...
- JavaScript之对象学习
对象是一种非常重要的数据类型,他是一种自包含的数据集合,包含在对象里面的数据可以通过属性和方法两种形式来访问; 1.属性是隶属于某个特定对象的变量; 2.方法是只有某个特定对象才能调用的函数; 而对象 ...
- eclipse中删除多余的工作空间记录
所以对于不再使用的工作空间,每次出现在eclipse的“文件”>>“切换工作空间”里面的时候就觉得特别不爽. 所以认真研究了eclipse目录之后让我找到了,删除不需要工作空间记录的方法. ...
- English - 英文写作中的最常见“十大句式”
英文写作中的最常见“十大句式” from 小木虫论坛 一.否定句 许多否定句不含not的否定结构.如果论文作者能正确使用他们,就会增加写作的闪光点,使文章显得生动活泼. 1.Instead of in ...
- Deep Learning(深度学习)学习笔记整理系列之(一)
Deep Learning(深度学习)学习笔记整理系列 zouxy09@qq.com http://blog.csdn.net/zouxy09 作者:Zouxy version 1.0 2013-0 ...