storm坑之---同步问题

　　最近在做一个监控系统，用来监控网站上各个业务功能的调用量以及处理时间，以便及时发现问题，及时处理。做这种实时统计处理系统，自然首先想到了storm，于是现学现用，自然遇到了一些坑，而且不少是网上也难以找到的问题。在这里就做个记录，记录下这个最让我苦恼的错误。

　　首先我的业务逻辑是按分钟统计一分钟中的调用次数的数据，所以我在bolt里跑了一个定时器，定时将统计数据发到下一个bolt入库。所在我在定时器执行的代码里调用了OutputCollector发射到下一个bolt。本地调试没啥问题，就部署到外网环境测试。通常也没发现问题，但是偶尔会出现这种错误，作为开发人员最讨厌的就是这种可复现率很低的错误。

　　这里是错误日志：

5675 [Thread-7-disruptor-executor[2 2]-send-queue] ERROR backtype.storm.daemon.executor -

java.lang.RuntimeException: java.lang.NullPointerException

	at backtype.storm.utils.DisruptorQueue.consumeBatchToCursor(DisruptorQueue.java:128) ~[storm-core-0.9.3.jar:0.9.3]

	at backtype.storm.utils.DisruptorQueue.consumeBatchWhenAvailable(DisruptorQueue.java:99) ~[storm-core-0.9.3.jar:0.9.3]

	at backtype.storm.disruptor$consume_batch_when_available.invoke(disruptor.clj:80) ~[storm-core-0.9.3.jar:0.9.3]

	at backtype.storm.disruptor$consume_loop_STAR_$fn__1460.invoke(disruptor.clj:94) ~[storm-core-0.9.3.jar:0.9.3]

	at backtype.storm.util$async_loop$fn__464.invoke(util.clj:463) ~[storm-core-0.9.3.jar:0.9.3]

	at clojure.lang.AFn.run(AFn.java:24) [clojure-1.5.1.jar:na]

	at java.lang.Thread.run(Thread.java:722) [na:1.7.0_15]

Caused by: java.lang.NullPointerException: null

	at clojure.lang.RT.intCast(RT.java:1087) ~[clojure-1.5.1.jar:na]

	at backtype.storm.daemon.worker$mk_transfer_fn$fn__3549.invoke(worker.clj:129) ~[storm-core-0.9.3.jar:0.9.3]

	at backtype.storm.daemon.executor$start_batch_transfer__GT_worker_handler_BANG_$fn__3283.invoke(executor.clj:258) ~[storm-core-0.9.3.jar:0.9.3]

	at backtype.storm.disruptor$clojure_handler$reify__1447.onEvent(disruptor.clj:58) ~[storm-core-0.9.3.jar:0.9.3]

	at backtype.storm.utils.DisruptorQueue.consumeBatchToCursor(DisruptorQueue.java:125) ~[storm-core-0.9.3.jar:0.9.3]

	... 6 common frames omitted

5697 [Thread-7-disruptor-executor[2 2]-send-queue] ERROR backtype.storm.util - Halting process: ("Worker died")

java.lang.RuntimeException: ("Worker died")

	at backtype.storm.util$exit_process_BANG_.doInvoke(util.clj:325) [storm-core-0.9.3.jar:0.9.3]

	at clojure.lang.RestFn.invoke(RestFn.java:423) [clojure-1.5.1.jar:na]

	at backtype.storm.daemon.worker$fn__3808$fn__3809.invoke(worker.clj:452) [storm-core-0.9.3.jar:0.9.3]

	at backtype.storm.daemon.executor$mk_executor_data$fn__3274$fn__3275.invoke(executor.clj:240) [storm-core-0.9.3.jar:0.9.3]

	at backtype.storm.util$async_loop$fn__464.invoke(util.clj:473) [storm-core-0.9.3.jar:0.9.3]

	at clojure.lang.AFn.run(AFn.java:24) [clojure-1.5.1.jar:na]

	at java.lang.Thread.run(Thread.java:722) [na:1.7.0_15]

　　如果你也遇到这个问题，相信你第一次看到这个错误一定很痛苦，因为错误日志中没有任何与自己的业务代码相关的记录。所以实在是无从定位问题的所在。痛苦至极的是复现还不那么容易。

　　经过我多次猜测尝试，终于测出了问题的所在。下面我先贴出一个会报这个错误的例子代码：

public class Main {

	public static void main(String[] args) {

		TopologyBuilder builder = new TopologyBuilder();

		builder.setSpout("spout",new TestWordSpout());

		builder.setBolt("dispatch", new WordDispatchBolt()).shuffleGrouping("spout");

		builder.setBolt("print",new PrintBolt()).fieldsGrouping("dispatch", new Fields("word"));

		Config conf = new Config();

		conf.setDebug(false);

		conf.setNumWorkers(1);

		//conf.put(Config.TOPOLOGY_MAX_SPOUT_PENDING, 1);

		LocalCluster cluster = new LocalCluster();

		cluster.submitTopology("test-kafka-1", conf, builder.createTopology());

	}

}

public class TestWordSpout extends BaseRichSpout {

　　private static final long serialVersionUID = 1L;

    boolean _isDistributed;

    SpoutOutputCollector _collector;

    String[] words = new String[] {"nathan", "mike", "jackson", "golda", "bertels"};

    public TestWordSpout() {

        this(true);

    }

    public TestWordSpout(boolean isDistributed) {

        _isDistributed = isDistributed;

    }

    public void open(Map conf, TopologyContext context, SpoutOutputCollector collector) {

        _collector = collector;

    }

    public void close() {

    }

    public void nextTuple() {

        Utils.sleep(1000);

        final Random rand = new Random();

        final String word = words[rand.nextInt(words.length)];

        _collector.emit(new Values(word), word+new Random().nextDouble());

    }

    public void ack(Object msgId) {

    	System.out.println("### ack:"+msgId);

    }

    public void fail(Object msgId) {

        System.out.println("### fail:"+msgId);

    }

    public void declareOutputFields(OutputFieldsDeclarer declarer) {

        declarer.declare(new Fields("word"));

    }

public class WordDispatchBolt extends BaseRichBolt{

	private OutputCollector collector;

	@Override

	public void prepare(Map stormConf, TopologyContext context,

			OutputCollector collector) {

		this.collector = collector;

		new Thread(new Runnable() {

			@Override

			public void run() {

				while(true){

					send();//不做sleep休眠，否则抛出此异常的几率太小，不容易观察到

				}

			}

		}).start();

	}

	public void send(){

		this.collector.emit(new Values(new Random().nextDouble()));

	}

	@Override

	public void execute(Tuple input) {

		String word = input.getStringByField("word");

		this.collector.emit(new Values(word));

		this.collector.ack(input);

	}

	@Override

	public void declareOutputFields(OutputFieldsDeclarer declarer) {

		declarer.declare(new Fields("word"));

	}

}

public class PrintBolt extends BaseRichBolt {

	private static final long serialVersionUID = 1L;

	@Override

	public void prepare(Map stormConf, TopologyContext context,

			OutputCollector collector) {

	}

	@Override

	public void execute(Tuple input) {

		System.out.println(input.getValue(0));

	}

	@Override

	public void declareOutputFields(OutputFieldsDeclarer declarer) {

	}

}

　　这个代码很简单，就不做详细介绍了。在WordDispatchBolt类里我启动了另一个线程来发射数据到下一个bolt。我的业务代码中与此类似，是通过Timer定时发送数据的（Timer底层其实也是线程，就不多说了）。但是Timer是按分钟调用的，所以出现问题的几率小的可怜，这里我故意零停顿的调用，让此异常发生的几率更大一些。

　　如果运行以上例子代码，你也肯定遇到前边贴出的错误异常。如果不知道是OutputCollector的同步问题，相信解决起来绝对让人痛不欲生。既然知道了是同步问题，要么避免在别的线程里调用collector,要么改成同步的。以下是我简单想到的解决方案。（如果有大神还有更好的，希望留言指教）

　　对WordDispatchBolt类做如下修改：

public class WordDispatchBolt extends BaseRichBolt{

	private OutputCollector collector;

	@Override

	public void prepare(Map stormConf, TopologyContext context,

			OutputCollector collector) {

		this.collector = collector;

		new Thread(new Runnable() {

			@Override

			public void run() {

				while(true){

					send(new Values(new Random().nextDouble()));//不做sleep休眠，否则抛出此异常的几率太小，不容易观察到

				}

			}

		}).start();

	}

	public synchronized void send(List<Object> tuple){

		this.collector.emit(tuple);

	}

	@Override

	public void execute(Tuple input) {

		String word = input.getStringByField("word");

		send(new Values(word));

		this.collector.ack(input);

	}

	@Override

	public void declareOutputFields(OutputFieldsDeclarer declarer) {

		declarer.declare(new Fields("word"));

	}

}

　　到这里，这个坑算是基本得到解决了。之后可能还要大量使用到storm，遇到坑是再做记录。

　　”把遇到的坑记录下来，让后遇到者可以有更多的网络资源查询，以减少排查问题的时间和纠结“

storm坑之---同步问题的更多相关文章

storm坑之---传递对象
继之前遇到的那个同步问题的坑之后(storm坑之---同步问题),最近对代码又做了调整和重构,并且又遇到了另一个storm开发中应该值得警惕的坑.接下来说说这个坑的大体情况. 在我的storm程序中, ...
【Storm篇】--Storm中的同步服务DRPC
一.前述 Drpc(分布式远程过程调用)是一种同步服务实现的机制,在Storm中客户端提交数据请求之后,立刻取得计算结果并返回给客户端.同时充分利用Storm的计算能力实现高密度的并行实时计算. 二. ...
vscode sync插件在不同设备同步的坑
sync的好处不言而喻,在不同的设备都可以同步自己的插件和所有配置: 但是有时有总是会有坑, 现在把我遇到的坑记录下来,以防再次踩坑 VSCode 同步方案 VSCode 的插件 Setting Sy ...
使用JDK的同步容器时，应该避免那些坑？
摘要:在使用JDK中的同步容器时,应该尽量避免哪些坑本文分享自华为云社区<[高并发]亿级流量高并发秒杀系统商品"超卖"了,只因使用的JDK同步容器中存在这两个巨大的坑!!( ...
UiAutomator2.0升级填坑记
UiAutomator2.0升级填坑记 SkySeraph May. 28th 2017 Email:skyseraph00@163.com 更多精彩请直接访问SkySeraph个人站点:www.sk ...
HBase 入门笔记-数据落地篇
一.前言关于数据落地方面,HBase官网也有相关介绍.本文主要介绍一下实际工作中涉及的数据存储方面的一些经验和技巧,主要涉及表rowkey设计.数据落地方案二.表设计相对于MySQL等关系型数据 ...
使用ambari搭建Hadoop平台
1.操作系统 CentoOS Server with GUI(有GUI,有浏览器*ambari基于浏览器*推荐latest stable version)2.分区默认 + /hadoop3.网络设置 ...
测试开发【Mock平台】04实战：前后端项目初始化与登录鉴权实现
[Mock平台]为系列测试开发教程,从0到1编码带你一步步使用Spring Boot 和 Antd React 框架完成搭建一个测试工具平台,希望作为一个实战项目能为你的测试开发学习有帮助. 一.后端 ...
Storm同步调用之DRPC模型探讨
摘要:Storm的编程模型是一个有向无环图,决定了storm的spout接收到外部系统的请求后,spout并不能得到bolt的处理结果并将结果返回给外部请求.所以也就决定了storm无法提供对外部系统 ...

随机推荐

Remote Desktop Connection Manager （RDCMan）
当前最新版本是 v2.7. 通过这款软件,我们便可以轻松的管理和访问数个RDP.左边的列表中我们可以创建总的分区列表(即 RDCMan Group),该列表保存采用的是RDG扩展名,使用时通过&quo ...
mongoDB研究笔记：复制集概述
自我学习,仅供参考: 数据库总是会遇到各种失败的场景,如网络连接断开.断电等,尽管journaling日志功能也提供了数据恢复的功能,但journaling通常是针对单个节点来说的,只能保证单节点数据 ...
使用SQLIO测试磁盘性能
SQLIO 是一个用于测试存储系统能力的命令行工具,用以获取存储系统相关的性能指标,以判断系统的 I/O 处理能力. 在微软的网站可以下载 SQLIO 的安装包,安装后目录中会出现如下文件: EULA ...
Wix 安装部署教程(十一) ---QuickWix
这次发布的是这两天做的一个WIX工具QuickWIX,主要解决两个问题点1.对大文件快速生成wix标签(files,Directories,ComponentRef):2.比较前后两次工程的差异.大的 ...
Hello Mybatis 03 数据关联
ResultMap 在实际的开发中,数据库不总是我们希望看到的样子.比如我们希望User的主键是id但是数据库偏偏喜欢叫它u_id,这样一来原先的resultType似乎就失效了,不带这么玩的,整个人 ...
js模版引擎handlebars.js实用教程——if-判断的基本用法
返回目录 <!DOCTYPE html> <html> <head> <META http-equiv=Content-Type content=" ...
使用aggregate在MongoDB中查找重复的数据记录
我们知道,MongoDB属于文档型数据库,其存储的文档类型都是JSON对象.正是由于这一特性,我们在Node.js中会经常使用MongoDB进行数据的存取.但由于Node.js是异步执行的,这就导致我 ...
Oracle日期时间函数大全
ORACLE日期时间函数大全 TO_DATE格式(以时间:2007-11-02 13:45:25为例) Year: yy two digits 两位年显示值:07 yyy three digits ...
关于redis启动流程介绍
转载于:http://www.itxuexiwang.com/a/shujukujishu/redis/2016/0216/94.html?1455870894 1. 准备运行环境 * 设置oom h ...
javascript_core_07之错误处理、函数作用域
1.错误处理:保证程序发生错误时,不会被强制退出: ①处理方式:try{可能出错的正常语句:}catch(err){只有出现错误时才执行的错误处理代码:}finally{无论是否出错都必须执行的代码: ...

storm坑之---同步问题

storm坑之---同步问题的更多相关文章

随机推荐

热门专题