Redis系列1：深刻理解高性能Redis的本质

 Redis系列2：数据持久化提高可用性

 Redis系列3：高可用之主从架构

 Redis系列4：高可用之Sentinel(哨兵模式）

Redis系列5：深入分析Cluster 集群模式

 追求性能极致：Redis6.0的多线程模型

 追求性能极致：客户端缓存带来的革命

 Redis系列8：Bitmap实现亿万级数据计算

 Redis系列9：Geo 类型赋能亿级地图位置计算

1 前言

我们来回顾下在这个系列的第一篇深刻理解高性能Redis的本质中介绍过Redis的几种基本数据结构，

它服务于各种不同的业务场景而设计的，比如：

动态字符串(REDIS_STRING)：整数(REDIS_ENCODING_INT)、字符串(REDIS_ENCODING_RAW)
双端列表(REDIS_ENCODING_LINKEDLIST)
压缩列表(REDIS_ENCODING_ZIPLIST)
跳跃表(REDIS_ENCODING_SKIPLIST)
哈希表(REDIS_HASH)
整数集合(REDIS_ENCODING_INTSET)

除了这些常见数据类型，还有一些不常用的数据类型，如 BitMap、Geo、HyperLogLog 等等，他们在各自的方向为不同的类型的数据统计给出解决方案。

位图（BitMap）计算：可以应用于任何大数据场景下的二值计算，比如是否登录、是否在线、是否签到、用户性别状态、IP黑名单、是否VIP用户统计等等场景。
Geo类型：记录地理空间信息，如地理坐标存储、位置计算、距离计算等能力，普遍运用在地图业务中的各种场景。

这一篇我们来介绍下HyperLogLog，HyperLogLog 主要用于Redis基数的统计，比如IP统计，用户访问量，页面访问量。

2 关于HyperLogLog

HyperLogLog 主要用于Redis 的基数统计，它的数据结构专门设计用来做数据合并和计算，并能节省大量的空间。

基数计数( cardinality counting) 通常用来统计一个集合中不重复的元素个数 , 例如统计某个网站的UV、PV或者网站搜索的的关键词数量。

在各种应用领域基数统计被广泛应用，如数据分析、网络监控指标、存储性能优化等。

简单来说，基数计数就是记录集合中所有不重复的元素S_u ,当新增元素X_a时,判断S_u中是否包含,不包含则将其加入S_u,包含则不加入,计数值就是S_u 的元素数量总和。

当然这种做法也存在两个问题：

当统计的数据量变大时,相应的存储内存也会线性增长
当集合S_u 变大,判断其是否包含新加入元素的成本变大

2.1 实际应用场景

很多计数类场景，比如每日注册 IP 数、每日访问 IP 数、页面实时访问数 PV、访问用户数 UV等。

因为主要的目标高效、巨量地进行计数，所以对存储的数据的内容并不关系。也就是说它只能用于统计数量，没办法知道具体的统计对象的内容。

统计单日一个页面的访问量(PV)，单次访问就算一次。
统计单日一个页面的用户访问量(UV)，即按照用户为维度计算，单个用户一天内多次访问也只算一次。
多个key的合并统计，某个门户网站的所有模块的PV聚合统计就是整个网站的总PV。

2.2 高效和海量特性

如果我们使用普通集合，也能够实现对巨量数据的存储和统计么，但是存储量会大很多，性能也比较差。

以百度搜索为例，如果要做百度指数的计算，针对来访IP进行统计。那么如果每天有 1000 万 IP，一个 IP 占位 15 字节，那么 1000 万个 IP 就是 143M。

10,000,000 * 15 /(1024 * 1024)  = 143.05 M

如果使用 HyperLogLog ，那么在 Redis 中每个键占用的内容都是 12K，理论上能够存储 2⁶⁴ 个值，即18446744073709551616，这个数是巨量，Java中long类型也只能计算到 2⁶² 。

无论存储何值，它一个基于基数估算的算法HyperLogLog Counting（简称HLLC），使用少量固定的内存去存储并识别集合中的唯一元素。

HLLC采用了分桶平均的思想来消减误差，在Redis中, 有16384个桶。而HyperLogLog的标准偏差公式是1.04 / sqrt(m)，m 为桶的个数。所以

1.04 / sqrt(16384) = 1.04 / 128 = 0.008125

所以这个计数的估算，是一个带有 0.81% 标准偏差的近似值。

HyperLogLog 算法原理参考这两篇，写的很清晰：

https://zhuanlan.zhihu.com/p/77289303

http://www.javashuo.com/article/p-mmwxrmjm-ga.html

3 HyperLogLog所支持的能力

HyperLogLog数据结构的命令有三个：PFADD、PFCOUNT、PFMERGE

3.1 PFADD 添加计数

Redis Pfadd 命令将所有元素添加到 HyperLogLog 数据结构中。

语法如下：

redis > PFADD key element [element ...]

下面举例了网站统计模块添加IP的两种情况

/* 对访问百度网站(key=baidu:ip_address)的IP进行添加 */

redis> PFADD baidu:ip_address "192.168.0.1" "192.168.0.2" "192.168.0.3"

(integer) 1

/* 如果IP已经存在，则进行忽略，不对估计数量进行更新 */

redis> PFADD baidu:ip_address "192.168.0.3"

(integer) 0  # IP已经存在

3.2 PFCOUNT 统计数量

Redis Pfcount 命令返回给定 HyperLogLog 的基数的估算值。

语法如下：

redis > PFCOUNT key [key ...]

下面估算了访问IP的基数的值，返回 1034546 。

redis> PFCOUNT baidu:ip_address

(integer) 1034546

3.3 PFMERGE 合并统计

Redis PFMERGE 命令将多个 HyperLogLog 合并为一个 HyperLogLog ，合并后的 HyperLogLog 的基数估算值是对给定 HyperLogLog 进行并集计算得出的。

所以有重复的会被统计成一条数据。

合并得出的 HyperLogLog 会被储存在 destkey 键里面，如果该键并不存在，那么命令在执行之前，会先为该键创建一个空的 HyperLogLog 。

语法如下：

redis > PFMERGE destkey sourcekey [sourcekey ...]

下面演示了合并和统计的过程：

/* 统计百度 baidu:ip_address 访问IP */

redis> PFADD baidu:ip_address "192.168.0.1" "192.168.0.2" "192.168.0.3"

(integer) 1

 /* 统计淘宝 taobao:ip_address 访问IP */

redis> PFADD taobao:ip_address "192.168.0.3" "192.168.0.4" "192.168.0.5"

(integer) 1

/* 合并且去重之后放在 total:ip_address  */

redis> PFMERGE total:ip_address baidu:ip_address taobao:ip_address

OK

/* 结果为5 */

redis> PFCOUNT total:ip_address

(integer) 5

4 总结

基数计数是用于统计一个集合中不重复的元素个数，好比平常需求场景有，统计页面的UV或者统计在线的用户数、注册IP数等。HyperLogLog 主要基于Redis能力下的基数统计。HyperLogLog的主要使用场景包括：

统计单日一个页面的访问量(PV)，单次访问就算一次。
统计单日一个页面的用户访问量(UV)，即按照用户为维度计算，单个用户一天内多次访问也只算一次。
多个key的合并统计，某个门户网站的所有模块的PV聚合统计就是整个网站的总PV。

Redis系列10：HyperLogLog实现海量数据基数统计的更多相关文章

redis 系列10 字符串对象
一. 字符串对象编码 Redis中字符串可以存储3种类型,分别是字节串(byte string).整数.浮点数.在上章节中讲到字符串对象的编码可以是int, raw,embstr. 如果一个字符串对象 ...
【目录】redis 系列篇
随笔分类 - redis 系列篇 redis 系列27 Cluster高可用 (2) 摘要: 一. ASK错误集群上篇最后讲到,对于重新分片由redis-trib负责执行,关于该工具以后再介绍.在进 ...
Redis系列（三）：Bitmaps和HyperLogLog
本篇介绍Bitmaps和HyperLogLog. 一.Bitmaps 计算机中最小的单位是bit(位),很多计算机语言也提供了位操作符,比如Java中就有&.|.>>.>&g ...
redis常用数据类型 HyperLoglog
1.HyperLoglog简介 HyperLoglog是redis新支持的两种类型中的另外一种(上一种是位图类型Bitmaps).主要适用场景是海量数据的计算.特点是速度快.占用空间小. 同样是用于计 ...
redis系列：redis介绍与安装
前言这个redis系列的文章将会记录博主学习redis的过程.基本上现在的互联网公司都会用到redis,所以学习这门技术于你于我都是有帮助的. 博主在写这个系列是用的是目前最新版本4.0.10,虚拟 ...
Redis系列8：Bitmap实现亿万级数据计算
Redis系列1:深刻理解高性能Redis的本质 Redis系列2:数据持久化提高可用性 Redis系列3:高可用之主从架构 Redis系列4:高可用之Sentinel(哨兵模式) Redis系列5: ...
Redis系列9：Geo 类型赋能亿级地图位置计算
Redis系列1:深刻理解高性能Redis的本质 Redis系列2:数据持久化提高可用性 Redis系列3:高可用之主从架构 Redis系列4:高可用之Sentinel(哨兵模式) Redis系列5: ...
Redis系列(2)之数据类型
Redis系列(2)之数据类型 <Redis系列(1)之安装>中介绍了Redis支持以下几种数据类型,那么本节主要介绍学习下这几种数据类型的基本操作字符串类型,string 散列类型,h ...
Python操作redis系列之列表（list） (四)
# -*- coding: utf- -*- import redis r =redis.Redis(host=,password="ZBHRwlb1608") 1. Lpush ...

随机推荐

[CF1386C] Joker （IOI 赛制，分治，整体二分+可回退并查集）
题面给一个 N N N 点 M M M 边的简单无向图,询问 Q Q Q 次,每次问你把编号在 [ l i , r i ] [l_i,r_i] [li,ri] 之间的边删掉后,该图是否存在奇数环 ...
(四连测)滑雪场的高度差题解---二分 + 搜索---DD(XYX)的博客
滑雪场的高度差时间限制: 1 Sec 内存限制: 128 MB 题目描述滑雪场可以看成M x N的网格状山地(1 <= M,N <= 500),每个网格是一个近似的平面,具有水平高度 ...
vivo前端智能化实践：机器学习在自动网页布局中的应用
作者:vivo 互联网前端团队- Su Ning 在设计稿转网页中运用基于self-attention机制设计的机器学习模型进行设计稿的布局,能够结合dom节点的上下文得出合理的方案. 一.背景切图 ...
《Java基础——异常的捕获与抛出》
Java基础--异常的捕获与抛出 ' 前言: Error类(错误)和Exception类(异常)是Throwable类的子类. 异常分为CheckedException类(编译时异常)和Ru ...
Java SE 四大内部类
内部类 1.成员内部类调用成员内部类 //在外面的类的最后,写一个方法,调用成员内部类(创建对象,在访问) class Outer08{ class Inner08{ //成员内部类 public ...
JDK8中String的intern()方法详细解读【内存图解+多种例子+1.1w字长文】
写在前面,欢迎大家关注小编的微信公众号!!谢谢大家!! 一.前言 String字符串在我们日常开发中最常用的,当然还有他的两个兄弟StringBuilder和StringBuilder.他三个的区别也 ...
使用Portainer 部署WordPress容器
安装WordPress容器进入到 Portainer 页面,选择左边的 Containers 选项,单击上方的 Add container 按钮转到如图所示的页面: 1.在 Name 一栏中输入容器 ...
记录阿里云安全组设置遇到的奇葩问题--出口ip
之前公司使用的路由器里使用的是PPPOE拨号的形式上网的,根据拨号后得到的ip地址,配置到阿里云的安全组里,具体来说是配置到22端口里,也就是说只有特定ip才能访问22端口,也即是说只允许公司网络远程 ...
HCIP-OSPF域间路由
链路类型: P2P:描述了对端链路信息和本端链路信息. (描述了从一台路由器到另外一台路由器之间点到点的链路信息,用来描述拓扑信息,P2P.P2MP) TransNET:描述了从一台路由器需要经过一个 ...
[笔记] CSP 初赛部分知识整理
几年前整理的东西,要不就发到网上吧不过现在这些东西里面也有很多考得比以前少了卡特兰数 \(f(i)=\sum_\limits{i=0}^{n-1}{f(i)f(n-i-1)}\) 其中\(f(0) ...

Redis系列10：HyperLogLog实现海量数据基数统计