Storm存储结果至Redis

原有的事务支持使用MemcachedState来进行，现在需要将其迁移至Redis，并且需要记录所有key值列表，因为在redis中虽然可以使用keys *操作，但不是被推荐的方式，所以把所有结果存在Redis中的一个HASH格式字段中。

关于Redis与Storm集成的相关文档，可以参考：

http://storm.apache.org/releases/2.0.0-SNAPSHOT/storm-redis.html

由于Redis中也有着较多种类型的数据结构，这也为我们提供了可能，将所有的key至统一放置到set中，或其他更为合适的数据结构中。

搭建启动Redis

目前，分配过来的4台服务器，只有135剩余内存较多，分出1G用来作为Redis存储使用，搭建一台单机Redis服务，用于记录所有的查询日志。

启动该服务：

sudo bin/redis-server conf/redis.6388.conf

Storm集成Redis

添加maven依赖：

<dependency>

            <groupId>org.apache.storm</groupId>

            <artifactId>storm-redis</artifactId>

            <version>${storm.version}</version>

        </dependency>

对于正常的Bolt来说，storm-redis提供了基本的bolt实现，RedisLookupBolt和RedisStoreBolt，

其中使用了策略模式，将实际要查询/保存相关的key设置以及策略放到了RedisLookup/StoreMapper中，在LookupBolt和StoreBolt中进行实际的查找、保存操作，根据RedisDataType的不同，支持Redis的各种数据类型：STRING, HASH, LIST, SET, SORTED_SET, HYPER_LOG_LOG。

从对应传输过来的Tuple中查找、保存相应字段的值，在RedisLookupBolt中，根据不同的key值，从key值/或者additionalKey中使用不同的方法来get得到对应的值。

@Override

    public void execute(Tuple input) {

        String key = lookupMapper.getKeyFromTuple(input);

        Object lookupValue;

        JedisCommands jedisCommand = null;

        try {

            jedisCommand = getInstance();

            switch (dataType) {

                case STRING:

                    lookupValue = jedisCommand.get(key);

                    break;

                case LIST:

                    lookupValue = jedisCommand.lpop(key);

                    break;

                case HASH:

                    lookupValue = jedisCommand.hget(additionalKey, key);

                    break;

                case SET:

                    lookupValue = jedisCommand.scard(key);

                    break;

                case SORTED_SET:

                    lookupValue = jedisCommand.zscore(additionalKey, key);

                    break;

                case HYPER_LOG_LOG:

                    lookupValue = jedisCommand.pfcount(key);

                    break;

                default:

                    throw new IllegalArgumentException("Cannot process such data type: " + dataType);

            }

            List<Values> values = lookupMapper.toTuple(input, lookupValue);

            for (Values value : values) {

                collector.emit(input, value);

            }

            collector.ack(input);

        } catch (Exception e) {

            this.collector.reportError(e);

            this.collector.fail(input);

        } finally {

            returnInstance(jedisCommand);

        }

Redis TridentState支持

此外，storm-redis中还支持trident state：

RedisState and RedisMapState, which provide Jedis interface just for single redis.

RedisClusterState and RedisClusterMapState, which provide JedisCluster interface, just for redis cluster.

由于我们使用的是single redis模式（非集群），在下面的UML图中会有所体现：

使用RedisDataTypeDescription来定义保存到Redis的数据类型和额外的key，其中支持两种数据类型：STRING和HASH。如果使用HASH类型，则需要定义额外的key，因为hash属于两层的，我们定义的additionalKey为最外层的key类型。

例如我们需要保存结果至Redis的Hash数据结构中，则需要定义RedisDataTypeDescription.RedisDataType.HASH，定义hash的key："controller:5min”，根据key进行group by操作，当前使用非事务型（对数据正确性敏感度不高）。

            Options<Object> fiveMinitesOptions = new Options<>();

            fiveMinitesOptions.dataTypeDescription = new RedisDataTypeDescription(RedisDataTypeDescription.RedisDataType.HASH,

                    "controller:5min");

            logStream.each(new Fields("logObject"), new Log5MinGroupFunction(), new Fields("key"))

                    .groupBy(new Fields("key"))

                    .persistentAggregate(RedisMapState.nonTransactional(poolConfig, fiveMinitesOptions), new Fields("logObject"),

                            new LogCombinerAggregator(), new Fields("statistic"));

最后在Redis中保存的值为：

controller:5min

          Log5MinGroupFunction生成的key，LogCombinerAggregator合并完成后的value；

Log5MinGroupFunction生成的key会经过KeyFactory.build(List<Object> key)方法转换，可以考虑自定义生成的key；最终的value会通过Serializer的序列化以及反序列化方法转换成byte[]存放至Redis中，默认是通过JSON的格式。

在AbstractRedisMapState中，对于传过来的keys进行统一KeyFactory.get操作，而实际获取值和持久化值是通过 retrieveValuesFromRedis以及updateStatesToRedis两个方法来实现的

@Override public List<T> multiGet(List<List<Object>> keys) {

        if (keys.size() == 0) {

            return Collections.emptyList();

        }

        List<String> stringKeys = buildKeys(keys);

        List<String> values = retrieveValuesFromRedis(stringKeys);

        return deserializeValues(keys, values);

    }

private List<String> buildKeys(List<List<Object>> keys) {

        List<String> stringKeys = new ArrayList<String>();

        for (List<Object> key : keys) {

            stringKeys.add(getKeyFactory().build(key));

        }

        return stringKeys;

    }

@Override

    public void multiPut(List<List<Object>> keys, List<T> vals) {

        if (keys.size() == 0) {

            return;

        }

        Map<String, String> keyValues = new HashMap<String, String>();

        for (int i = 0; i < keys.size(); i++) {

            String val = new String(getSerializer().serialize(vals.get(i)));

            String redisKey = getKeyFactory().build(keys.get(i));

            keyValues.put(redisKey, val);

        }

        updateStatesToRedis(keyValues);

    }

在RedisMapState中，从Redis中获取值的方法：

@Override

    protected List<String> retrieveValuesFromRedis(List<String> keys) {

        String[] stringKeys = keys.toArray(new String[keys.size()]);

        Jedis jedis = null;

        try {

            jedis = jedisPool.getResource();

            RedisDataTypeDescription description = this.options.dataTypeDescription;

            switch (description.getDataType()) {

            case STRING:

                return jedis.mget(stringKeys);

            case HASH:

                return jedis.hmget(description.getAdditionalKey(), stringKeys);

可以看出，支持两种类型STRING以及HASH，可以通过批量获取的API获取多个keys值，update的过程也比较类似，如果是STRING类型，通过pipeline的方式（分布式不支持）可以极大提高查找效率；如果为hash类型，直接通过hmget即可。

protected void updateStatesToRedis(Map<String, String> keyValues) {

        Jedis jedis = null;

        try {

            jedis = jedisPool.getResource();

            RedisDataTypeDescription description = this.options.dataTypeDescription;

            switch (description.getDataType()) {

            case STRING:

                String[] keyValue = buildKeyValuesList(keyValues);

                jedis.mset(keyValue);

                if(this.options.expireIntervalSec > 0){

                    Pipeline pipe = jedis.pipelined();

                    for(int i = 0; i < keyValue.length; i += 2){

                        pipe.expire(keyValue[i], this.options.expireIntervalSec);

                    }

                    pipe.sync();

                }

                break;

            case HASH:

                jedis.hmset(description.getAdditionalKey(), keyValues);

                if (this.options.expireIntervalSec > 0) {

                    jedis.expire(description.getAdditionalKey(), this.options.expireIntervalSec);

                }

                break;

Storm存储结果至Redis的更多相关文章

C# Azure 存储-分布式缓存Redis工具类 RedisHelper
using System; using System.Collections.Generic; using Newtonsoft.Json; using StackExchange.Redis; na ...
C# Azure 存储-分布式缓存Redis在session中的配置
1. 开始对于分布式的缓存,平常的session的处理是一个用户对应一台分布式的机器,如果这台机器中途挂机或者不能处理这个用户session的情况发生,则此用户的session会丢失,会发生不可预知 ...
C# Azure 存储-分布式缓存Redis的新建&配置&查看
1. 介绍 Redis 是一款开源的,基于 BSD 许可的,高级键值 (key-value) 缓存 (cache) 和存储 (store) 系统.由于 Redis 的键包括 string,hash,l ...
一些应该使用mongodb或者其他文档存储而不是redis或mysql、oracle json的情形(最近更新场景)
通常来说,我们应该使用应用的特性而不是自己的爱好或者规定而去选择一种合适的组件,选择的标准应该是这个组件最适合或者本身其设计就是为了解决这个问题,而不是这个组件能够做这事情为标准.就拿存储来说,任何时 ...
PHP 更改session存储方式为Redis
前言: 服务器默认的session存放方式是file.当客户端发送请求带有PHPSESSID时是顺序的去比对session存储文件,如果有5000个session文件,那就有可能需要比对4998次那么 ...
服务端指南数据存储篇 | 聊聊 Redis 使用场景（转）
作者:梁桂钊本文,是升级版,补充部分实战案例.梳理几个场景下利用 Redis 的特性可以大大提高效率. 随着数据量的增长,MySQL 已经满足不了大型互联网类应用的需求.因此,Redis 基于内存存 ...
爬虫文件存储-3：Redis
前提条件: 安装并运行redis服务端程序,安装RedisPy库说明:Redis 是 StrictRedis 的子类,它的主要功能是用于向后兼容旧版本库里的几个方法,官方推荐使用 StrictRed ...
【原】thinkphp实现存储session至redis
Thinkphp\Library\Think\Session\Driver中新建redis缓存文件:Redis.class.php Thinkphp\Common\function.php 中 fun ...
redis数据存储--C++连接redis
一.下载的是Redis Windows版本:下载地址:https://github.com/microsoftarchive/redis:解压到:E:\Software\redis-3.0: 二.用V ...

随机推荐

GSM中时隙、信道、突发序列、帧的解释
刚从论坛中看到有人问GSM中时隙.信道.突发序列.帧知识.今天我们数字通信正好上到这一块,我就根据我知道的和网上搜索的回答! 1.时分多路复用技术 FDMA:频分多址 TDMA:时分多址 CDMA:码 ...
玩转树莓派：OpenHAB的入门（二）
通过第一篇的介绍,我们现在已经安装了OpenHAB和Demo House,那么接下来我们来看一下OpenHAB是如何工作的. OpenHAB如何工作? 接下来你会在openHAB配置的共享文件夹看到s ...
mysql-connector-java-3.1.10-bin-g.jar 和 mysql-connector-java-3.1.10-bin.jar两个文件有什么不同呀？
MySQL Connector/J的文档里说: MySQL Connector/J is distributed as a .zip or .tar.gz archive containing the ...
部署python3.6下的django
首先是安装好nginx,配置web目录,配置文件在confi.d中, server { # the port your site will be served on listen ; # the do ...
Centos编译Unix网络编程（第三版）卷1的源代码
测试环境:Centos 1)在shell中输入./configure然后按回车(注意先让configure有执行权限 chomd 777 configure) 2)依次进入lib.libfree.li ...
tensorflow读取训练数据方法
1. 预加载数据 Preloaded data # coding: utf-8 import tensorflow as tf # 设计Graph x1 = tf.constant([2, 3, 4] ...
一年内自学MIT的33门课? 疯狂学习有方法
[导读]能快速掌握复杂信息,对成就卓越事业至关重要.ScottYoung的学习过程不只适用于学生,同样有助于学习复杂技能的专业知识. 能快速掌握复杂信息,对成就卓越事业至关重要.ScottYoung的 ...
CF1119 Global Round 2
CF1119A Ilya and a Colorful Walk 这题二分是假的.. \(1,2,1,2,1\) 有间隔为 \(3\) 的,但没有间隔为 \(2\) 的.开始被 \(hack\) 了一 ...
《DSP using MATLAB》Problem 3.7
一个复数序列可以分解为共轭偶对称和共轭奇对称部分. 代码: %% ------------------------------------------------------------------- ...
adnanh webhook 框架 hook 定义
Hook hook 是一个SON对象.钩子对象必须包含id和execute-command属性.所有其他属性都被视为可选. 属性 id - 指定hook的ID.方式格式(http://server:p ...

Storm存储结果至Redis

Storm存储结果至Redis的更多相关文章

随机推荐

热门专题