Redis原理再学习02:数据结构-动态字符串sds
Redis原理再学习:动态字符串sds
字符
字符就是英文里的一个一个英文字母,比如:a。中文里的单个汉字,比如:好。
字符串就是多个字母或多个汉字组成,比如字符串:redis,中文字符串:你好吗。
英文字符,如果按照 ASCII 码计算,一个字符占用 1 个字节。
中文字符的编码就比较复杂点,一个字符占用空间一般是 2 个字节,有的也用 3-4 个字节。
它有很多格式编码,有 gb2312,gbk, utf8 等等。
具体可以看看这篇文章:常见的中文字符编码。
动态字符串sds定义
看看 redis3.0 中的字符数据结构定义,sds.h/sdshdr
// https://github.com/redis/redis/blob/3.0/src/sds.h#L41
// redis3.0 低版本容易理解
// sds 兼容 C 语言风格字符串,并且还可以存到 sdshdr 结构的 buf 里
typedef char *sds;
struct sdshdr {
unsigned int len;
unsigned int free;
char buf[];
};
len:记录 buf 数组中字符的长度
free:记录 buf 中未使用的字节的数量
buf:字节数组,保存字符串
不过到了 redis3.2 后,进一步优化了 SDS 的数据结构:
// https://github.com/redis/redis/blob/3.2/src/sds.h#L42
typedef char *sds;
/* Note: sdshdr5 is never used, we just access the flags byte directly.
* However is here to document the layout of type 5 SDS strings. */
struct __attribute__ ((__packed__)) sdshdr5 { // 对应的字符串长度小于 1<<5
unsigned char flags;/* 3 lsb of type, and 5 msb of string length */
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr8 { // 对应的字符串长度小于 1<<8
uint8_t len; // 已使用长度,1 字节/* used */
uint8_t alloc; /* excluding the header and null terminator */// 总长度
unsigned char flags; /* 3 lsb of type, 5 unused bits */
char buf[]; // 保存字符串
};
struct __attribute__ ((__packed__)) sdshdr16 { // 对应的字符串长度小于 1<<16
uint16_t len; // 已使用长度,2 字节
uint16_t alloc;
unsigned char flags; /* 3 lsb of type, 5 unused bits */
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr32 { // 对应的字符串长度小于 1<<32
uint32_t len; // 已使用长度,4 字节
uint32_t alloc;
unsigned char flags; /* 3 lsb of type, 5 unused bits */
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr64 { // 对应的字符串长度小于 1<<64
uint64_t len; // 已使用长度,8 字节
uint64_t alloc;
unsigned char flags;
char buf[];
};
针对不同长度的字符串,申请相应的数据存储类型,从而有效的节约了内存使用,进一步优化存储。进一步压榨 redis 的性能。
sdshdr为什么要这样设计
C 语言中的字符数组难道不够用吗?(redis3.0)
对于普通的字符串操作,C 语言中的字符数组是够用的。但是,redis 定位是高性能 kv 数据库,所以对于 redis 是不够用的。
从哪些方面优化才能扣出一点点性能呢?
空间换时间:一次多分配一些空间,下次增加字符串时不需要在进行分配空间的操作了。这个叫预分配。
还有,截断字符串时,也不需要归还空间,而是用 free 属性记录,下次可以在复用空间,这个叫惰性空间释放。
获取字符串长度复杂度 O(1):sdshdr 里面定义了一个属性 len,操作字符串时会自动计算字符串的长度并赋值给这个 len 属性。所以在 redis 的一些命令中,不需要在计算一次字符串长度,而计算这个长度复杂度是 O(N)。比如 strlen 命令。
除了上面的 2 点,还有哪些好处?
- 避免缓存区溢出:因为 SDS 的空间分配策略杜绝了发生缓冲区溢出的可能性。因为 SDS 的 API 会先检查空间是否满足修改所需的要求,不满足的话会自动扩展修改所需的空间大小。
- 二进制安全:得益于 sds api 的设计,所有 sds api 都会以处理二进制的方式处理 sds 存放在 buf 数组里的数据,判断字符串是否到达结尾,不是以C语言里的
\0来判断,而是用 sdshdr 结构里的 len 属性。这就避免了字符串中间遇到\0而发生错误判断。
SDS内存怎么分配
其实上面我们也有提到,一种是预分配,一种是惰性分配(惰性释放)。
1. 预分配
空间预分配用于优化sds字符串增长的操作:
- 如果对 sds 进行修改时,sds 的 len < 1MB,那么会分配和 len 长度相同的未使用空间,未使用空间长度记录到 free。
- 如果对 sds 进行修改时,sds 的 len > 1MB,那么分配 1MB 的未使用空间,记录到 free。
通过这种预分配策略,减少 Redis 执行字符串增长操作时,所需内存重新分配的次数,提高 redis 的效率。
空间预分配代码 sds.c/sdsMakeRoomFor:
// https://github.com/redis/redis/blob/3.0/src/sds.c#L129
/* Enlarge the free space at the end of the sds string so that the caller
* is sure that after calling this function can overwrite up to addlen
* bytes after the end of the string, plus one more byte for nul term.
*
* Note: this does not change the *length* of the sds string as returned
* by sdslen(), but only the free buffer space we have. */
sds sdsMakeRoomFor(sds s, size_t addlen) {
struct sdshdr *sh, *newsh;
size_t free = sdsavail(s); // 获取未使用空间free值
size_t len, newlen;
if (free >= addlen) return s; // free 如果够用直接返回
len = sdslen(s);
sh = (void*) (s-(sizeof(struct sdshdr)));
newlen = (len+addlen); // 扩展后的新长度
// #define SDS_MAX_PREALLOC (1024*1024)
if (newlen < SDS_MAX_PREALLOC) // 新长度小于定义的最大预分配长度(1MB),那么把新长度直接扩大2倍
newlen *= 2;
else
newlen += SDS_MAX_PREALLOC;// 新长度大于定义的最大预分配长度(1MB),那么 newlen+1MB
newsh = zrealloc(sh, sizeof(struct sdshdr)+newlen+1); // 获取新空间的地址
if (newsh == NULL) return NULL;
newsh->free = newlen - len; // 更新未使用空间 free
return newsh->buf;
}
// https://github.com/redis/redis/blob/3.0/src/sds.h#L52
// 获取 sds 未使用空间长度,free
static inline size_t sdsavail(const sds s) {
struct sdshdr *sh = (void*)(s-(sizeof(struct sdshdr)));
return sh->free;
}
// https://github.com/redis/redis/blob/3.0/src/sds.h#L47
// 获取 sds 中实际字符串长度,len
static inline size_t sdslen(const sds s) {
struct sdshdr *sh = (void*)(s-(sizeof(struct sdshdr)));
return sh->len;
}
// https://github.com/redis/redis/blob/3.0/src/sds.h#L34
#define SDS_MAX_PREALLOC (1024*1024)
2.惰性分配(惰性释放)
惰性分配,就是惰性空间释放,用于对优化sds的字符串缩减操作。
- 如果 sds 保存的字符串缩减时,sds api 并不会直接回收内存,而是用 free 属性成员将不用内存字节大小记录下来,等待将来使用。
这样就优化了对内存的操作。
代码 sds.c/sdsclear:
/* Modify an sds string in-place to make it empty (zero length).
* However all the existing buffer is not discarded but set as free space
* so that next append operations will not require allocations up to the
* number of bytes previously available. */
// https://github.com/redis/redis/blob/3.0/src/sds.c#L112
void sdsclear(sds s) {
struct sdshdr *sh = (void*) (s-(sizeof(struct sdshdr)));
sh->free += sh->len; // 新的free = 新的free + 使用空间len
sh->len = 0; // 已使用空间置为 0
sh->buf[0] = '\0'; // 字符串置为空
}
sdshdr存储字符串示例
比如 sdshdr 存储一个字符串 Redis,如下图:

(《Redis设计与实现》)
存储 Redis 字符串时 sdshdr 各属性解释:
free:值为 0,表示 sdshdr 中没有未使用的空间
len:值为 5,表示 sdshdr 保存了一个 5 字节长度的字符串
buf:char 类型的数组,数组前 5 个字节保存了 R, e, d, i, s 五个字符,结尾保存了空字符 '\0'。这个遵循了 c 语言中空字符串结尾惯例。保存这个空字符串的 1 字节长度不计算在 sdshdr 的 len 属性里。
参考
- 《redis设计与实现》 作者:黄健宏
- redis.io
- github redis
Redis原理再学习02:数据结构-动态字符串sds的更多相关文章
- Redis原理再学习04:数据结构-哈希表hash表(dict字典)
哈希函数简介 哈希函数(hash function),又叫散列函数,哈希算法.散列函数把数据"压缩"成摘要,有的也叫"指纹",它使数据量变小且数据格式大小也固定 ...
- Redis原理再学习05:数据结构-整数集合intset
intset介绍 intset 整数集合,当一个集合只有整数元素,且元素数量不多时,Redis 就会用整数集合作为集合键的底层实现. redis> SADD numbers 1 3 5 7 9 ...
- redis源码学习_简单动态字符串
SDS相比传统C语言的字符串有以下好处: (1)空间预分配和惰性释放,这就可以减少内存重新分配的次数 (2)O(1)的时间复杂度获取字符串的长度 (3)二进制安全 主要总结一下sds.c和sds.h中 ...
- Redis源码阅读一:简单动态字符串SDS
源码阅读基于Redis4.0.9 SDS介绍 redis 127.0.0.1:6379> SET dbname redis OK redis 127.0.0.1:6379> GET dbn ...
- redis底层数据结构之简单动态字符串(SDS)
简单动态字符串(simple dynamic string,SDS) redis使用C语言编写的,但是redis的字符串却不是C语言中的字符串(以空字符'\0'结尾的字符数组),redis定义了一种简 ...
- 图解Redis之数据结构篇——简单动态字符串SDS
图解Redis之数据结构篇--简单动态字符串SDS 前言 相信用过Redis的人都知道,Redis提供了一个逻辑上的对象系统构建了一个键值对数据库以供客户端用户使用.这个对象系统包括字符串对象 ...
- redis 5.0.7 源码阅读——动态字符串sds
redis中动态字符串sds相关的文件为:sds.h与sds.c 一.数据结构 redis中定义了自己的数据类型"sds",用于描述 char*,与一些数据结构 typedef c ...
- Redis底层探秘(一):简单动态字符串(SDS)
redis是我们使用非常多的一种缓存技术,他的性能极高,读的速度是110000次/s,写的速度是81000次/s.这么高的性能背后,到底是怎么样的实现在支撑,这个系列的文章,我们一起去看看. redi ...
- Redis数据结构之简单动态字符串SDS
Redis的底层数据结构非常多,其中包括SDS.ZipList.SkipList.LinkedList.HashTable.Intset等.如果你对Redis的理解还只停留在get.set的水平的话, ...
- redis 系列3 数据结构之简单动态字符串 SDS
一. SDS概述 Redis 没有直接使用C语言传统的字符串表示,而是自己构建了一种名为简单动态字符串(simple dynamic string, SDS)的抽象类型,并将SDS用作Redis的默 ...
随机推荐
- [转帖]Shell if 条件判断
Shell 语言中的if条件 一.if的基本语法: if [ command ];then 符合该条件执行的语句 elif [ command ];then 符合该条件执行的语句 e ...
- [转帖]CentOS-7-x86_64-Everything-2009 rpm包列表(CentOS7.9)
CentOS-7-x86_64-Everything-2009 rpm包列表(CentOS7.9) 共10073个文件 复制389-ds-base-1.3.10.2-6.el7.x86_64.rpm ...
- [转帖]MySQL InnoDB存储引擎大观
https://baijiahao.baidu.com/s?id=1709263187856706948&wfr=spider&for=pc MySQL InnoDB 引擎现在广为 ...
- [转帖]diskspd的使用
https://www.cnblogs.com/tcicy/p/10005374.html 参数翻译 可测试目标: file_path 文件abc.file #<physical drive n ...
- 基于eBPF的微服务网络安全(Cilium 1)
基于eBPF的微服务网络安全 翻译自:Network security for microservices with eBPF 一些开源的kubernetes工具已经开始使用eBPF,这些工具大多数与 ...
- 【k哥爬虫普法】Python程序员爬取视频资源13万部,一分钱没挣,获刑2年!
我国目前并未出台专门针对网络爬虫技术的法律规范,但在司法实践中,相关判决已屡见不鲜,K 哥特设了"K哥爬虫普法"专栏,本栏目通过对真实案例的分析,旨在提高广大爬虫工程师的法律意识, ...
- 【JS 逆向百例】层层嵌套!某加速商城 RSA 加密
声明 本文章中所有内容仅供学习交流,敏感网址.数据接口均已做脱敏处理,严禁用于商业用途和非法用途,否则由此产生的一切后果均与作者无关,若有侵权,请联系我立即删除! 逆向目标 目标:某加速商城登录接口 ...
- Java中的基本数据类型和包装类型的这些知识,你都知道吗?
Java中的基本数据类型和包装类型 Java 中的基本数据按类型可以分为四大类:布尔型.整数型.浮点型.字符型: 这四大类包含 8 种基本数据类型. 布尔型:boolean 整数型:byte.shor ...
- Python Coroutine 池化实现
Python Coroutine 池化实现 池化介绍 在当今计算机科学和软件工程的领域中,池化技术如线程池.连接池和对象池等已经成为优化资源利用率和提高软件性能的重要工具.然而,在 Python 的协 ...
- 【SpringBoot】当AOP引发的异常与@RestControllerAdvice擦肩而过:异常处理的盲点揭秘
各位上午/下午/晚上好呀! 今天在写bug的时候发现一个这样的问题: AOP抛出的异常竟然没有被@RestControllerAdvice注解修饰的异常统一处理类处理. 有一个需求,对某些加了自定义注 ...