转载请注明出处:

目录

  1. HyperLogLog 的原理

  2.使用步骤

  3.实现请求ip去重的浏览量使用示例

  4.Jedis客户端使用

  5.Redission使用依赖

  6.HyperLogLog 提供了哪些特性和方法

  7.使用场景总结

1. HyperLogLog 的原理

  Redis HyperLogLog基于一种称为HyperLogLog算法的概率性算法来估计基数。 HyperLogLog使用一个长度为m的位数组和一些hash函数来估计集合中的唯一元素数。

在 HyperLogLog 算法中,对每个元素进行哈希处理,把哈希值转换为二进制后,根据二进制串前缀中 1 的个数来给每个元素打分。例如,一个元素的哈希值为01110100011,那么前缀中1的个数是3,因此在 HyperLogLog 算法中,这个元素的分数为3。

  当所有元素的分数统计完之后,取每一个分数的倒数(1 / 2^n),然后将这些倒数相加后取倒数,就得到一个基数估计值,这个值就是HyperLogLog算法的估计结果。

  HyperLogLog算法通过对位数组的长度m的大小进行取舍,折衷数据结构占用的内存与估计值的精准度(即估计误差),得到了在数据占用空间与错误较小程度之间完美的平衡。

  简而言之,HyperLogLog算法的核心思想是基于哈希函数和位运算,通过将哈希值转换成比特流并统计前导0的个数,从而快速估算大型数据集中唯一值的数量。通过 hyperloglog 算法我们可以在非常大的数据集中进行极速的网页浏览器去重。

2.使用步骤:

  Redis HyperLogLog是一种可用于估算集合中元素数量的数据结构,它能够通过使用非常少的内存来维护海量的数据。它的精确度要比使用一般的估计算法高,并且在处理大量数据时的速度也非常快。

  一个简单的例子,我们可以用HyperLogLog来计算访问网站的独立IP数,具体可以按以下步骤操作:

    1. 首先创建一个HyperLogLog数据结构:  PFADD hll:unique_ips 127.0.0.1

    2. 为每次访问ip添加到unique_ips数据结构中:         PFADD hll:unique_ips 192.168.1.1

    3. 获取计算集合中元素数量的近似值:           PFCOUNT hll:unique_ips

    4. 可以通过对多个HyperLogLog结构(例如按天或按小时)的合并,来获得更精确的计数。

  需要注意的是,HyperLogLog虽然可以节省大量的内存,但它是一种估计算法,误差范围并不是完全精确的,实际使用时应注意其适用范围。

3.实现请求ip去重的浏览量使用示例

4.Jedis客户端使用

  1. 添加依赖,引入jedis依赖:

<dependency>
<groupId>redis.clients</groupId>
<artifactId>jedis</artifactId>
<version>3.6.0</version>
</dependency>

  2.创建一个Jedis对象:

Jedis jedis = new Jedis("localhost");

  3.向HyperLogLog数据结构添加元素:

jedis.pfadd("hll:unique_ips", "127.0.0.1");

  4. 获取计算集合中元素数量的近似值:

Long count = jedis.pfcount("hll:unique_ips");
System.out.println(count);

  5.可以通过对多个HyperLogLog结构的合并来获得更精确的计数。在Jedis中可以使用PFMERGE命令来合并HyperLogLog数据结构:

jedis.pfmerge("hll:unique_ips", "hll:unique_ips1", "hll:unique_ips2", "hll:unique_ips3");

5.Redission使用依赖

  1.创建RedissonClient对象

Config config = new Config();
config.useSingleServer().setAddress("redis://localhost:6379");
RedissonClient redisson = Redisson.create(config);

  2.创建RHyperLogLog对象

RHyperLogLog<String> uniqueIps = redisson.getHyperLogLog("hll:unique_ips");

  3.添加元素

uniqueIps.add("127.0.0.1");

  4..获取近似数量

long approximateCount = uniqueIps.count();
System.out.println(approximateCount);

  5.合并多个HyperLogLog对象

RHyperLogLog<String> uniqueIps1 = redisson.getHyperLogLog("hll:unique_ips1");
RHyperLogLog<String> uniqueIps2 = redisson.getHyperLogLog("hll:unique_ips2");
uniqueIps.mergeWith(uniqueIps1, uniqueIps2);

6.HyperLogLog 提供了哪些特性和方法

  特性:

    1. 精确度低,但占用内存极少。

    2. 支持插入新元素,同时不会重复计数。

    3. 提供指令来优化内存使用和计数准确性。例如PFADD、PFCOUNT、PFMERGE等指令。

    4. 能够估计一个数据集中的不同元素数量,即集合的基数(cardinality)。

    5. 支持对多个HyperLogLog对象进行合并操作,以获得这些集合的总基数的近似值。

  HyperLogLog常用的方法:

    1. PFADD key element [element ...]:添加一个或多个元素到HyperLogLog结构中。

    2. PFCOUNT key [key ...]:获取一个或多个HyperLogLog结构的基数估计值。

    3. PFMERGE destkey sourcekey [sourcekey ...]:合并一个或多个HyperLogLog结构到一个目标结构中。

    4. PFSELFTEST [numtests]: 测试HyperLogLog估值性能和准确性(仅限Redis4.0+版本)

  需要注意的是,HyperLogLog虽然可以节省大量内存,但仍然是一种估计算法,误差范围并不是完全精确的,并且具有一定的计算成本。在使用时需要根据实际应用情况选择是否使用HyperLogLog或其他数据结构来估计元素数量。

7.使用场景总结:

  Redis使用HyperLogLog的主要作用是在大数据流(view,IP,城市)的情况下进行去重计数。

  具体来说,以下是Redis HyperLogLog用于去重计数的一些场景:

    1. 统计页面访问量 - 在Web应用程序中, HyperLogLog可以使用为每个页面计算多少次独特的访问者。通过跨越多个不同的时间段使用HyperLogLog,可以计算出这个页面的所有时间的平均访问数。

    2. 统计用户数 - 在分析大数据集合的用户数量方面,HyperLogLog也非常有用。作为一种基于概率的数据结构,尤其是在处理独特的用户ID这样的数据集合时。在此情况下,HyperLogLog首先执行散列,此后仅在内部存储有限的散列值,同时还能够推断大小。

    3. 统计广告点击量 - 对于网站或应用程序的广告分析,HyperLogLog可以用于捕获有效点击数量,即非重复或唯一点击数量。

  总之,对于需要进行去重计数的大数据流的情况下,Redis的HyperLogLog是一种简单而强大的工具。

  

Redis中 HyperLogLog数据类型使用总结的更多相关文章

  1. redis中各种数据类型对应的jedis操作命令

    redis中各种数据类型对应的jedis操作命令 一.常用数据类型简介: redis常用五种数据类型:string,hash,list,set,zset(sorted set). 1.String类型 ...

  2. Redis 中 HyperLogLog 的使用场景

    什么是基数估算 HyperLogLog 是一种基数估算算法.所谓基数估算,就是估算在一批数据中,不重复元素的个数有多少. 从数学上来说,基数估计这个问题的详细描述是:对于一个数据流 {x1,x2,.. ...

  3. 关于Redis中的数据类型

    一. Redis常用数据类型 Redis最为常用的数据类型主要有以下: String Hash List Set Sorted set 一张图说明问题的本质 图一: 图二: 代码: /* Object ...

  4. Redis 中的数据类型及基本操作

    Redis 内置的数据类型有 5种:字符串String.哈希Hash.列表List.集合Set.有序集合ZSet 字符串类型 String 是 Redis 中最基本的类型,一个 key 对应着一个 v ...

  5. redis中各种数据类型的常用操作方法汇总

    在spring中使用jedisTemplate操作,详见https://www.cnblogs.com/EasonJim/p/7803067.html 一.Redis的五大数据类型 1.String( ...

  6. 面试官:Redis中集合数据类型的内部实现方式是什么?

    虽然已经是阳春三月,但骑着共享单车骑了这么远,还有有点冷的.我搓了搓的被冻的麻木的手,对着前台的小姐姐说:"您好,我是来面试的."小姐姐问:"您好,您叫什么名字?&quo ...

  7. redis中的数据类型

    redis不是一个纯文本kv存储,实际上,它是一个数据结构服务,支持不同类型的value. 包含以下类型: 1.Binary-safe strings. 二进制安全的字符串 2.Lists: coll ...

  8. redis中hash数据类型

    remoteSelf:1>hset website google "www.google.com" "1" remoteSelf:1>hget we ...

  9. Redis 中ZSET数据类型命令使用及对应场景总结

    转载请注明出处: 目录 1.zadd添加元素 2.zrem 从有序集合key中删除元素 3.zscore 返回有序集合key中元素member的分值 4.zincrby 为有序集合key中元素增加分值 ...

  10. 解析Redis操作五大数据类型常用命令

    摘要:分享经常用到一些命令和使用场景总结,以及对Redis中五大数据类型如何使用cmd命令行的形式进行操作的方法. 本文分享自华为云社区<Redis操作五大数据类型常用命令解析>,作者:灰 ...

随机推荐

  1. JAVA XML转对象

    最近遇到XML转对象进行业务操作的问题 这是我需要解析的XML 1,建XML对应自己需要参数的Bean.有的很长很乱,没必要全部建,只建自己需要的就行了 import lombok.Data; imp ...

  2. flask-基础篇02 请求与响应

    一.处理请求 1.URL路径参数(动态路由) # 例如,有一个请求访问的接口地址为/users/123,其中123实际上为具体的请求参数,表明请求123号用户的信息.此时如何从url中提取出123的数 ...

  3. 基于Jenkins实现可腹部回滚的cicd平台

    Jenkins :是一个开源的实现持续集成的工具,可以实施监控持续集成过程中所存在的问题,提供详细的日志文件和提醒功能,还能用图表的形式直观的展示出项目构建的趋势和稳定性 maven:只有在Java项 ...

  4. 冰冻三尺非一日之寒,记录Java

    一.数据类型 Java是一种强类型语言,什么是强类型语言? 强类型语言:要求变量的使用要严格符合规定,所有变量都必须先定义后才能使用 Java的数据类型又分为两大类: 1.基本类型:基本类型有分为数值 ...

  5. UE4_C++笔记

    目录 C++ 获取当前世界指针 创建文件夹拾取窗口 获取Actor所在地图名称 选择世界里所有指定类型的Actor 获取当前世界所有已加载关卡 获取当前选择的已加载关卡 获取关卡名称 判断文件/路径是 ...

  6. <一>JDK/MAVEN/IDEA/MYSQL/GIT详细环境安装

    一.  安装JDK 1. jdk安装包下载地址:https://www.oracle.com/java/technologies/javase-jdk16-downloads.html 2. 解压缩软 ...

  7. java 操作PDF (spire.pdf)api

    https://www.e-iceblue.cn/pdf_java_image_shapes/replace-image-with-new-image-in-pdf-in-java.html mave ...

  8. count(1) and count(*),count(字段)区别及效率比较

    执行结果: count(1)和count(*)之间没有区别,因为count(*)count(1)都不会去过滤空值, count(字段) 会统计该字段在表中出现的次数,忽略字段为null 的情况.即不统 ...

  9. Mybatis配置报错:Failed to configure a DataSource: 'url' attribute is not specified and no embe...

    问题分析及解决方案 问题原因: Mybatis没有找到合适的加载类,其实是大部分spring - datasource - url没有加载成功,分析原因如下所示. DataSourceAutoConf ...

  10. P1413 坚果保龄球

    P1413 坚果保龄球 - 洛谷 | 计算机科学教育新生态 (luogu.com.cn) 大家可以发现这里的坚果其实是火爆辣椒2333,那么我们要尽量多消灭僵尸,就需要在僵尸位于1列时在放置(ans+ ...