Java如何实现去重？这是在炫技吗？

大家好，我3y啊。由于去重逻辑重构了几次，好多股东直呼看不懂，于是我今天再安排一波对代码的解析吧。austin支持两种去重的类型：N分钟相同内容达到N次去重和一天内N次相同渠道频次去重。

Java开源项目消息推送平台推送下发【邮件】【短信】【微信服务号】【微信小程序】【企业微信】【钉钉】等消息类型。

https://gitee.com/zhongfucheng/austin/

https://github.com/ZhongFuCheng3y/austin

在最开始，我的第一版实现是这样的：

public void duplication(TaskInfo taskInfo) {

    // 配置示例:{"contentDeduplication":{"num":1,"time":300},"frequencyDeduplication":{"num":5}}

    JSONObject property = JSON.parseObject(config.getProperty(DEDUPLICATION_RULE_KEY, AustinConstant.APOLLO_DEFAULT_VALUE_JSON_OBJECT));

    JSONObject contentDeduplication = property.getJSONObject(CONTENT_DEDUPLICATION);

    JSONObject frequencyDeduplication = property.getJSONObject(FREQUENCY_DEDUPLICATION);



    // 文案去重

    DeduplicationParam contentParams = DeduplicationParam.builder()

        .deduplicationTime(contentDeduplication.getLong(TIME))

        .countNum(contentDeduplication.getInteger(NUM)).taskInfo(taskInfo)

        .anchorState(AnchorState.CONTENT_DEDUPLICATION)

        .build();

    contentDeduplicationService.deduplication(contentParams);





    // 运营总规则去重(一天内用户收到最多同一个渠道的消息次数)

    Long seconds = (DateUtil.endOfDay(new Date()).getTime() - DateUtil.current()) / 1000;

    DeduplicationParam businessParams = DeduplicationParam.builder()

        .deduplicationTime(seconds)

        .countNum(frequencyDeduplication.getInteger(NUM)).taskInfo(taskInfo)

        .anchorState(AnchorState.RULE_DEDUPLICATION)

        .build();

    frequencyDeduplicationService.deduplication(businessParams);

}

那时候很简单，基本主体逻辑都写在这个入口上了，应该都能看得懂。后来，群里滴滴哥表示这种代码不行，不能一眼看出来它干了什么。于是怒提了一波pull request重构了一版，入口是这样的：

public void duplication(TaskInfo taskInfo) {

    

    // 配置样例：{"contentDeduplication":{"num":1,"time":300},"frequencyDeduplication":{"num":5}}

    String deduplication = config.getProperty(DeduplicationConstants.DEDUPLICATION_RULE_KEY, AustinConstant.APOLLO_DEFAULT_VALUE_JSON_OBJECT);

    

    //去重

    DEDUPLICATION_LIST.forEach(

        key -> {

            DeduplicationParam deduplicationParam = builderFactory.select(key).build(deduplication, key);

            if (deduplicationParam != null) {

                deduplicationParam.setTaskInfo(taskInfo);

                DeduplicationService deduplicationService = findService(key + SERVICE);

                deduplicationService.deduplication(deduplicationParam);

            }

        }

    );

}

我猜想他的思路就是把构建去重参数和选择具体的去重服务给封装起来了，在最外层的代码看起来就很简洁了。后来又跟他聊了下，他的设计思路是这样的：考虑到以后会有其他规则的去重就把去重逻辑单独封装起来了，之后用策略模版的设计模式进行了重构，重构后的代码模版不变，支持各种不同策略的去重，扩展性更高更强更简洁

确实牛逼。

我基于上面的思路微改了下入口，代码最终演变成这样：

public void duplication(TaskInfo taskInfo) {

    // 配置样例：{"deduplication_10":{"num":1,"time":300},"deduplication_20":{"num":5}}

    String deduplicationConfig = config.getProperty(DEDUPLICATION_RULE_KEY, CommonConstant.EMPTY_JSON_OBJECT);



    // 去重

    List<Integer> deduplicationList = DeduplicationType.getDeduplicationList();

    for (Integer deduplicationType : deduplicationList) {

        DeduplicationParam deduplicationParam = deduplicationHolder.selectBuilder(deduplicationType).build(deduplicationConfig, taskInfo);

        if (Objects.nonNull(deduplicationParam)) {

            deduplicationHolder.selectService(deduplicationType).deduplication(deduplicationParam);

        }

    }

}

到这，应该大多数人还能跟上吧？在讲具体的代码之前，我们先来简单看看去重功能的代码结构（这会对后面看代码有帮助）

去重的逻辑可以统一抽象为：在X时间段内达到了Y阈值，还记得我曾经说过：「去重」的本质：「业务Key」+「存储」。那么去重实现的步骤可以简单分为（我这边存储就用的Redis）：

通过Key从Redis获取记录
判断该Key在Redis的记录是否符合条件
符合条件的则去重，不符合条件的则重新塞进Redis更新记录

为了方便调整去重的参数，我把X时间段和Y阈值都放到了配置里{"deduplication_10":{"num":1,"time":300},"deduplication_20":{"num":5}}。目前有两种去重的具体实现：

1、5分钟内相同用户如果收到相同的内容，则应该被过滤掉

2、一天内相同的用户如果已经收到某渠道内容5次，则应该被过滤掉

从配置中心拿到配置信息了以后，Builder就是根据这两种类型去构建出DeduplicationParam，就是以下代码：

DeduplicationParam deduplicationParam = deduplicationHolder.selectBuilder(deduplicationType).build(deduplicationConfig, taskInfo);

Builder和DeduplicationService都用了类似的写法（在子类初始化的时候指定类型，在父类统一接收，放到Map里管理）

而统一管理着这些服务有个中心的地方，我把这取名为DeduplicationHolder

/**

 * @author huskey

 * @date 2022/1/18

 */

@Service

public class DeduplicationHolder {



    private final Map<Integer, Builder> builderHolder = new HashMap<>(4);

    private final Map<Integer, DeduplicationService> serviceHolder = new HashMap<>(4);



    public Builder selectBuilder(Integer key) {

        return builderHolder.get(key);

    }



    public DeduplicationService selectService(Integer key) {

        return serviceHolder.get(key);

    }



    public void putBuilder(Integer key, Builder builder) {

        builderHolder.put(key, builder);

    }



    public void putService(Integer key, DeduplicationService service) {

        serviceHolder.put(key, service);

    }

}

前面提到的业务Key，是在AbstractDeduplicationService的子类下构建的：

而具体的去重逻辑实现则都在LimitService下，{一天内相同的用户如果已经收到某渠道内容5次}是在SimpleLimitService中处理使用mget和pipelineSetEX就完成了实现。而{5分钟内相同用户如果收到相同的内容}是在SlideWindowLimitService中处理，使用了lua脚本完成了实现。

LimitService的代码都来源于@caolongxiu的pull request，建议大家可以对比commit再学习一番：https://gitee.com/zhongfucheng/austin/pulls/19

1、频次去重采用普通的计数去重方法，限制的是每天发送的条数。 2、内容去重采用的是新开发的基于redis中zset的滑动窗口去重，可以做到严格控制单位时间内的频次。 3、redis使用lua脚本来保证原子性和减少网络io的损耗 4、redis的key增加前缀做到数据隔离（后期可能有动态更换去重方法的需求） 5、把具体限流去重方法从DeduplicationService抽取出来，DeduplicationService只需设置构造器注入时注入的AbstractLimitService（具体限流去重服务）类型即可动态更换去重的方法 6、使用雪花算法生成zset的唯一value,score使用的是当前的时间戳

针对滑动窗口去重，有会引申出新的问题：limit.lua的逻辑？为什么要移除时间窗口的之前的数据？为什么ARGV[4]参数要唯一？为什么要expire？

A: 使用滑动窗口可以保证N分钟达到N次进行去重。滑动窗口可以回顾下TCP的，也可以回顾下刷LeetCode时的一些题，那这为什么要移除，就不陌生了。

为什么ARGV[4]要唯一，具体可以看看zadd这条命令，我们只需要保证每次add进窗口内的成员是唯一的，那么就不会触发有更新的操作（我认为这样设计会更加简单些），而唯一Key用雪花算法比较方便。

为什么expire？，如果这个key只被调用一次。那就很有可能在redis内存常驻了，expire能避免这种情况。

如果想学Java项目的，强烈推荐我的项目消息推送平台Austin（8K stars），可以用作毕业设计**，可以用作校招，可以看看生产环境是怎么推送消息的。消息推送平台推送下发【邮件】【短信】【微信服务号】【微信小程序】【企业微信】【钉钉】等消息类型**。

https://gitee.com/zhongfucheng/austin/

https://github.com/ZhongFuCheng3y/austin

Java如何实现去重？这是在炫技吗？的更多相关文章

IBM Watson启示录：AI不应该仅仅是炫技
IBM Watson启示录:AI不应该仅仅是炫技 https://mp.weixin.qq.com/s/oNp8QS7vQupbi8fr5RyLxA 导 ...
Python的炫技操作：条件语句的七种写法
前言文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理. 作者: Python极客社区 PS:如有需要Python学习资料的小伙伴可以 ...
Python 炫技操作：安装包的八种方法，你知道吗？
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理 1. 使用 easy_install easy_install 这应该是最古老的包安装方式了,目前基 ...
很多人不知道的Python 炫技操作：条件语句的写法
有的人说 Python 是一门入门容易,但是精通难的语言,这一点我非常赞同. Python 语言里有许多(而且是越来越多)的高级特性,是 Python 发烧友们非常喜欢的.在这些人的眼里,能够写出那 ...
Python炫技操作：五种Python 转义表示法
1. 为什么要有转义? ASCII 表中一共有 128 个字符.这里面有我们非常熟悉的字母.数字.标点符号,这些都可以从我们的键盘中输出.除此之外,还有一些非常特殊的字符,这些字符,我通常很难用键盘上 ...
Java基础知识-去重
java基础知识-去掉list集合中的重复元素: 思路: 首先新建一个容器resultList用来存放去重之后的元素然后遍历sourceList集合中的元素判断所遍历的元素是否已经存在于resul ...
java 数组排序并去重
https://www.cnblogs.com/daleyzou/p/9522533.htmlimport java.lang.reflect.Array;import java.util.Array ...
Java 单个集合去重与两个集合去重
一.单个集合去重描述: 去掉一个集合里重复的元素:将list集合转成hashSet集合,hashSet有自动去重的功能,再利用去重后的hashSet集合初始化一个新的list集合,此时这个list就 ...
java数组：去重，增加，删除元素
import java.util.List; import java.util.ArrayList; import java.util.Set; import java.util.HashSet; p ...
java中集合去重2
1.对集合中的自动定义的对象去重: 自定义Person类,同时复写hashCode和equals方法 package collection; public class Person { private ...

随机推荐

SpringBoot——自定义start
更多内容,前往 IT-BLOG 一.Mybatis 实现 start 的原理首先在写一个自定义的 start 之前,我们先参考下 Mybatis 是如何整合 SpringBoot:mybatis-s ...
Tarjan强连通分量(scc)
概念解释节点强连通:$v_i$与$v_j$($v_i ≠ v_j$)强连通是指从$vi$到$vj$和从$vj$到$vi$都存在路径,即两节点互相可达强连通图:在有向图\ ...
JVM加载中初始化时机？什么时候不会进行初始化？
初始化的过程是给静态变量赋予指定值以及执行静态代码块的过程. 当遇到new,getstatic,putstatic,invokestatic指令时要进行初始化,也就是new实例化对象,调用静态变量以及 ...
剑指 offer 第 25 天
第 25 天模拟(中等) 剑指 Offer 29. 顺时针打印矩阵输入一个矩阵,按照从外向里以顺时针的顺序依次打印出每一个数字. 示例 1: 输入:matrix = [[1,2,3],[4,5,6 ...
python 启动外部程序四种方法
在Python中,可以方便地使用os模块来运行其他脚本或者程序,这样就可以在脚本中直接使用其他脚本或程序提供的功能,而不必再次编写实现该功能的代码.为了更好地控制运行的进程,可以使用win32proc ...
jquery全选,全不选,反选,获取选择框的值
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/ ...
CI框架调用第三方类库
public function index() { //调用第三方类库 /* * 注意事项: * library 里面调用的名字首字母必须是大写 * 使用它的方法时使用小写 */ $this-&g ...
RDIFramework.NET WinForm版新增报表管理功能模块
在Web版本中有报表管理功能模块,非常实用的功能,重量级推荐.在WinForm应用中,我们也增加了支持."报表管理"模块主要用于对日常常用的报表做定制展示,可以自动发布到模块,同时 ...
【LeetCode动态规划#07】01背包问题一维写法（状态压缩）实战，其二（目标和、零一和）
目标和(放满背包的方法有几种) 力扣题目链接(opens new window) 难度:中等给定一个非负整数数组,a1, a2, ..., an, 和一个目标数,S.现在你有两个符号 + 和 -.对 ...
对象数组排序和类比JDK实现 sort()的方法
1.定义自己的 MyComparable 接口 1 package Test.treeSetDemo; 2 3 public interface MyComparable <E>{ 4 i ...

Java如何实现去重？这是在炫技吗？

Java如何实现去重？这是在炫技吗？的更多相关文章

随机推荐

热门专题