转自:http://www.aboutyun.com/thread-9216-1-1.html

使用Storm处理事务型实时计算需求时的几处难点: http://blog.sina.com.cn/s/blog_6ff05a2c0101ficp.html

最近搞日志处理,注意是日志处理,如果用流计算处理一些金融数据比如交易所的行情数据,是不能这么“粗鲁”的,后者必须还考虑数据的完整性和准确性。以下是在实践过程中的一点点小总结,提供给日志分析的盆友参考,也欢迎大家来分享您遇到的一些情况:

(一)
flume到kafka的实时数据优于单条过快,造成storm spout消费kafka速率跟不上,这个延时主要是数据发射到stream中后进行hbase的计算操作引起的(这部分已经用内存计算进行优化处理)。分析tuple的特点,tuple每条log都很小,数量大,如果用现在的spout,会照成tuple在stream中的大量堆积,造成超时自动回调fail()的函数(但是其实这里不影响结果)。

storm的几个特点参考http://www.aboutyun.com/thread-8527-1-1.html
(1)storm单条流水线的处理能力大约为20000 tupe/s, (每个tuple大小为1000字节)
(2)storm系统本省的处理延迟为毫秒级,Jvm GC一般情况下对系统性能影响有限,但是内存紧张时,GC会成为系统性能的瓶颈。
实践中我们发现,tuple过多,由于kafka的message需要new String()进行获取,会报gc的异常。
以上的一些情况和现象,我觉得可以进行多tuple结构的优化,对多个log打包成一个tuple进行发射处理。
不过,就一般情况而言,单条发射已经足够速度很效率

(二)
kafkaspout获取的数据,就我的业务而言,不需太注重数据的完整性,所以,在整个stream中,避免使用ack和fail的,即spout获取到数据后,发射出去就不再关心这条数据是否被正确处理或者超时等情况

(三)
有一个误区,曾经又一次控制了spout获取的速率,发现fail的数量基本很少,但是在一次补数据的时候,spout获取了千万条基本的数据,而bolt有一个业务是频繁交互hbase,造成了stream中的数据大量堆积和延时,ui显示fail的数量巨大,开始以为是处理失败造成的,后来对比数据发现,计算结果并没有多少失误,猜想可能就是因为超时回调了fail函数。

(四)
落地为hbase的,虽然hbase的效率已经不错,但是发现,对于某些业务,仅仅采用hbase,还是有较大的延时,因此,可以将一些经常使用的数据表同步到内存中,可以设计成map等结构进行计算,关键点是要同步hbase,不然storm或者work挂了后启动就会有计算失误了。

(五)
一些可能的BUG
(1)zk集群宕机,这个错误是很不应该的,但是,我出现了,造成了storm宕机,而且我的数据后端是hbase,所以所有计算都失败了,所以最好有一个监控系统可以检测zk、hbase、storm等基础平台工具,免得查错浪费时间;

(2)kafkaspout中有一个线程如果不断的从kafka中获取数据并new String()解析后发射,有可能报异常: java.lang.StringIndexOutOfBoundsException: String index out of range: 2,这个BUG不是必然,但是我偶然出现了,计划直接将Byte[]作为tuple进行发射到bolt中处理。

(3)可恶的INFO日志
由于开着INFO级别的日志配置,storm emit和ack的info日志太多,我这边1个小时差不多1g左右的日志,加上kafka消费端的请求日志,好几次都把磁盘刷爆了,导致服务器宕机,这个要严重注意,我目前的处理方法是吧info改成warn级别。不知道有没有更好的方法~

(4)开源kafkaspout
开源kafkaspout有好几个,git上有,但是有些对环境要求有约束,需要注意,如果是简单的,像我这样要求不高的应用,完全可以自己用kafka的消费实例进行开发。

flume-kafka-storm日志处理经验的更多相关文章

  1. 简单测试flume+kafka+storm的集成

    集成 Flume/kafka/storm 是为了收集日志文件而引入的方法,最终将日志转到storm中进行分析.storm的分析方法见后面文章,这里只讨论集成方法. 以下为具体步骤及测试方法: 1.分别 ...

  2. Flume+Kafka+Storm+Hbase+HDSF+Poi整合

    Flume+Kafka+Storm+Hbase+HDSF+Poi整合 需求: 针对一个网站,我们需要根据用户的行为记录日志信息,分析对我们有用的数据. 举例:这个网站www.hongten.com(当 ...

  3. Flume+Kafka+Storm整合

    Flume+Kafka+Storm整合 1. 需求: 有一个客户端Client可以产生日志信息,我们需要通过Flume获取日志信息,再把该日志信息放入到Kafka的一个Topic:flume-to-k ...

  4. 大数据处理框架之Strom:Flume+Kafka+Storm整合

    环境 虚拟机:VMware 10 Linux版本:CentOS-6.5-x86_64 客户端:Xshell4 FTP:Xftp4 jdk1.8 storm-0.9 apache-flume-1.6.0 ...

  5. Flume+Kafka+storm的连接整合

    Flume-ng Flume是一个分布式.可靠.和高可用的海量日志采集.聚合和传输的系统. Flume的文档可以看http://flume.apache.org/FlumeUserGuide.html ...

  6. flume+kafka+storm+mysql架构设计

    前段时间学习了storm,最近刚开blog,就把这些资料放上来供大家参考. 这个框架用的组件基本都是最新稳定版本,flume-ng1.4+kafka0.8+storm0.9+mysql (项目是mav ...

  7. 一次简单的springboot+dubbo+flume+kafka+storm+redis系统

    最近无事学习一下,用springboot+dubbo+flume+kafka+storm+redis做了一个简单的scenic系统 scenicweb:展现层,springboot+dubbo sce ...

  8. 【转】flume+kafka+zookeeper 日志收集平台的搭建

    from:https://my.oschina.net/jastme/blog/600573 flume+kafka+zookeeper 日志收集平台的搭建 收藏 jastme 发表于 10个月前 阅 ...

  9. Flume+Kafka+Storm+Redis 大数据在线实时分析

    1.实时处理框架 即从上面的架构中我们可以看出,其由下面的几部分构成: Flume集群 Kafka集群 Storm集群 从构建实时处理系统的角度出发,我们需要做的是,如何让数据在各个不同的集群系统之间 ...

  10. flume+kafka+storm

    centos06.6+JDK1.7 flume1.4+kafka2.10+storm0.9.3 zookeeper3.4.6 集群: 192.168.80.133 x01 192.168.80.134 ...

随机推荐

  1. android自定义控件实例

    很多时候android常用的控件不能满足我们的需求,那么我们就需要自定义一个控件了.今天做了一个自定义控件的实例,来分享下. 首先定义一个layout实现按钮内部布局: 01 <?xml ver ...

  2. if else和switch的效率

    switch和if-else相比,由于使用了Binary Tree算法,绝大部分情况下switch会快一点,除非是if-else的第一个条件就为true. 说实话  我也没有深入研究过这个问题的根源  ...

  3. Linux时间子系统(十七) ARM generic timer驱动代码分析

    一.前言 关注ARM平台上timer driver(clocksource chip driver和clockevent chip driver)的驱动工程师应该会注意到timer硬件的演化过程.在单 ...

  4. golang(5)使用beego 开发 api server 和前端同学拆分开发,使用swagger

    1,beego api Swagger 是一个规范和完整的框架,用于生成.描写叙述.调用和可视化 RESTful 风格的 Web 服务.整体目标是使client和文件系统作为服务器以相同的速度来更新. ...

  5. MySQL Cluster 具体配置文件(config.ini)

    ########################################################################### ## MySQL CLuster 配置文件 ## ...

  6. hive sql 修改列名

    ALTER TABLE dev.dev_jypt_jiadian_cate3_pred_20181109 CHANGE utem_third_cate_name item_third_cate_nam ...

  7. 读书笔记6pandas简单使用

    一.序列Series,很像numpy中的array数组,可以由列表.元组.字典.numpy中的array来初始化 >>> from pandas import Series > ...

  8. (转) 共享个很棒的vim配置

    发现了一个很棒的vim配置方法,现在共享给大家. https://github.com/kepbod/ivim   ivim - The Vim Distribution of Xiao-Ou Zha ...

  9. Debugging and performance,ETW

    http://blogs.technet.com/b/serverandtools/ https://channel9.msdn.com/Shows/Defrag-Tools http://blogs ...

  10. python2 UnicodeDecodeError: 'ascii' codec can't decode byte 0xce in position 7: ordinal not in range(128)

    python在安装时,默认的编码是ascii,当程序中出现非ascii编码时,python的处理常常会报这样的错UnicodeDecodeError: 'ascii' codec can't deco ...