flume-kafka-storm日志处理经验

转自：http://www.aboutyun.com/thread-9216-1-1.html

使用Storm处理事务型实时计算需求时的几处难点： http://blog.sina.com.cn/s/blog_6ff05a2c0101ficp.html

最近搞日志处理，注意是日志处理，如果用流计算处理一些金融数据比如交易所的行情数据，是不能这么“粗鲁”的，后者必须还考虑数据的完整性和准确性。以下是在实践过程中的一点点小总结，提供给日志分析的盆友参考，也欢迎大家来分享您遇到的一些情况：

（一）
flume到kafka的实时数据优于单条过快，造成storm spout消费kafka速率跟不上，这个延时主要是数据发射到stream中后进行hbase的计算操作引起的（这部分已经用内存计算进行优化处理）。分析tuple的特点，tuple每条log都很小，数量大，如果用现在的spout，会照成tuple在stream中的大量堆积，造成超时自动回调fail()的函数（但是其实这里不影响结果）。

storm的几个特点参考http://www.aboutyun.com/thread-8527-1-1.html
（1）storm单条流水线的处理能力大约为20000 tupe/s, (每个tuple大小为1000字节)
（2）storm系统本省的处理延迟为毫秒级，Jvm GC一般情况下对系统性能影响有限，但是内存紧张时，GC会成为系统性能的瓶颈。
实践中我们发现，tuple过多，由于kafka的message需要new String()进行获取，会报gc的异常。
以上的一些情况和现象，我觉得可以进行多tuple结构的优化，对多个log打包成一个tuple进行发射处理。
不过，就一般情况而言，单条发射已经足够速度很效率

（二）
kafkaspout获取的数据，就我的业务而言，不需太注重数据的完整性，所以，在整个stream中，避免使用ack和fail的，即spout获取到数据后，发射出去就不再关心这条数据是否被正确处理或者超时等情况

（三）
有一个误区，曾经又一次控制了spout获取的速率，发现fail的数量基本很少，但是在一次补数据的时候，spout获取了千万条基本的数据，而bolt有一个业务是频繁交互hbase，造成了stream中的数据大量堆积和延时，ui显示fail的数量巨大，开始以为是处理失败造成的，后来对比数据发现，计算结果并没有多少失误，猜想可能就是因为超时回调了fail函数。

（四）
落地为hbase的，虽然hbase的效率已经不错，但是发现，对于某些业务，仅仅采用hbase，还是有较大的延时，因此，可以将一些经常使用的数据表同步到内存中，可以设计成map等结构进行计算，关键点是要同步hbase，不然storm或者work挂了后启动就会有计算失误了。

（五）
一些可能的BUG
（1）zk集群宕机，这个错误是很不应该的，但是，我出现了，造成了storm宕机，而且我的数据后端是hbase，所以所有计算都失败了，所以最好有一个监控系统可以检测zk、hbase、storm等基础平台工具，免得查错浪费时间；

（2）kafkaspout中有一个线程如果不断的从kafka中获取数据并new String()解析后发射，有可能报异常： java.lang.StringIndexOutOfBoundsException: String index out of range: 2，这个BUG不是必然，但是我偶然出现了，计划直接将Byte[]作为tuple进行发射到bolt中处理。

（3）可恶的INFO日志
由于开着INFO级别的日志配置，storm emit和ack的info日志太多，我这边1个小时差不多1g左右的日志，加上kafka消费端的请求日志，好几次都把磁盘刷爆了，导致服务器宕机，这个要严重注意，我目前的处理方法是吧info改成warn级别。不知道有没有更好的方法~

（4）开源kafkaspout
开源kafkaspout有好几个，git上有，但是有些对环境要求有约束，需要注意，如果是简单的，像我这样要求不高的应用，完全可以自己用kafka的消费实例进行开发。

flume-kafka-storm日志处理经验的更多相关文章

简单测试flume+kafka+storm的集成
集成 Flume/kafka/storm 是为了收集日志文件而引入的方法,最终将日志转到storm中进行分析.storm的分析方法见后面文章,这里只讨论集成方法. 以下为具体步骤及测试方法: 1.分别 ...
Flume+Kafka+Storm+Hbase+HDSF+Poi整合
Flume+Kafka+Storm+Hbase+HDSF+Poi整合需求: 针对一个网站,我们需要根据用户的行为记录日志信息,分析对我们有用的数据. 举例:这个网站www.hongten.com(当 ...
Flume+Kafka+Storm整合
Flume+Kafka+Storm整合 1. 需求: 有一个客户端Client可以产生日志信息,我们需要通过Flume获取日志信息,再把该日志信息放入到Kafka的一个Topic:flume-to-k ...
大数据处理框架之Strom：Flume+Kafka+Storm整合
环境虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 storm-0.9 apache-flume-1.6.0 ...
Flume+Kafka+storm的连接整合
Flume-ng Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. Flume的文档可以看http://flume.apache.org/FlumeUserGuide.html ...
flume+kafka+storm+mysql架构设计
前段时间学习了storm,最近刚开blog,就把这些资料放上来供大家参考. 这个框架用的组件基本都是最新稳定版本,flume-ng1.4+kafka0.8+storm0.9+mysql (项目是mav ...
一次简单的springboot+dubbo+flume+kafka+storm+redis系统
最近无事学习一下,用springboot+dubbo+flume+kafka+storm+redis做了一个简单的scenic系统 scenicweb:展现层,springboot+dubbo sce ...
【转】flume+kafka+zookeeper 日志收集平台的搭建
from:https://my.oschina.net/jastme/blog/600573 flume+kafka+zookeeper 日志收集平台的搭建收藏 jastme 发表于 10个月前阅 ...
Flume+Kafka+Storm+Redis 大数据在线实时分析
1.实时处理框架即从上面的架构中我们可以看出,其由下面的几部分构成: Flume集群 Kafka集群 Storm集群从构建实时处理系统的角度出发,我们需要做的是,如何让数据在各个不同的集群系统之间 ...
flume+kafka+storm
centos06.6+JDK1.7 flume1.4+kafka2.10+storm0.9.3 zookeeper3.4.6 集群: 192.168.80.133 x01 192.168.80.134 ...

随机推荐

Python center() 方法
描述 center() 方法返回一个指定的宽度 width 居中的字符串,fillchar 为填充的字符,默认为空格. 语法 center() 方法语法: S.center(width[,fillch ...
[转]Hspice和Spice Explorer许可文件设置时环境变量FLEXLM_BATCH = 1的一些现象
之前在T400上安装Spice Explorer时碰到运行Spice Explorer时只能看到Log界面,主程序界面自动消失的问题.后经论坛高手指点,在环境变量设置中去掉"FLEXLM_B ...
puppeteer （Nodejs版selenium ）快速入门
官网 https://pptr.dev/ api 与教程: https://github.com/GoogleChrome/puppeteer/blob/master/docs/api.mdhttp ...
activiti 开发环境
1 javadocs 的11 个package org.activiti.engine,包含7个Service接口.异常定义.流程引擎.流程引擎配置和一些运行时异常类. org.activiti.en ...
Synplify9.6.2破解（转帖）
Synplify9.6.2破解(转帖) 转载自:http://www.cnblogs.com/mark-sun/archive/2012/02/26/2368773.html Abstract本文 ...
用 Angularjs 重构了整个 Raysnote 笔记本前端， v2.0 上线
Raysnote是一个简洁优雅的在线笔记工具,致力于提升笔记书写和阅读的体验. 简洁高效的笔记本管理后台(Angularjs重构) 支持HTML/Markdown两种格式,重点关注和支持Markdow ...
Monkey源代码分析番外篇之Android注入事件的三种方法比較
原文:http://www.pocketmagic.net/2012/04/injecting-events-programatically-on-android/#.VEoIoIuUcaV 往下分析 ...
ny716 River Crossing
River Crossing 时间限制:1000 ms | 内存限制:65535 KB 难度:4 描述 Afandi is herding N sheep across the expanses ...
临界区＆Monitor
监视器(Monitor)的概念可以在MSDN(http://msdn.microsoft.com/zh-cn/library/ms173179(VS.80).aspx)上找到下面一段话: 与lock ...
【Java】线程池的作用
在程序启动的时候就创建若干线程来响应处理,它们被称为线程池,里面的线程叫工作线程第一:降低资源消耗.通过重复利用已创建的线程降低线程创建和销毁造成的消耗. 第二:提高响应速度.当任务到达时,任务 ...

flume-kafka-storm日志处理经验

flume-kafka-storm日志处理经验的更多相关文章

随机推荐

热门专题