Redis源码阅读笔记(1)——简单动态字符串sds实现原理
首先,sds即simple dynamic string,redis实现这个的时候使用了一个技巧,并且C99将其收录为标准,即柔性数组成员(flexible array member),参考资料见这里。柔性数组成员不占用结构体的空间,只作为一个符号地址存在,而且必须是结构体的最后一个成员。柔性数组成员不仅可以用于字符数组,还可以是元素为其它类型的数组。C99中,结构中的最后一个元素允许是未知大小的数组,这就叫做柔性数组成员,但结构中的柔性数组成员前面必须至少一个其他成员。柔性数组成员允许结构中包含一个大小可变的数组。sizeof返回的这种结构大小不包括柔性数组的内存。包含柔性数组成员的结构用malloc()函数进行内存的动态分配,并且分配的内存应该大于结构的大小,以适应柔性数组的预期大小。
Redis使用sds代替C语言中的char*,实现自定义的字符串对象,redis是K-V型DB,数据库的值可以是字符串、集合、列表多种类型,而键则总是字符串对象。Redis中的字符串分两类:二进制安全的和非二进制安全的,对于存储的值是二进制安全的,对于键是非二进制安全的。
对于二进制安全,我的理解就是把处理的字符串作为原始的、无任何特殊格式意义的数据流。
Redis中字符串类型是最基本的类型,redis自己实现的字符串对象相对char*来说,有以下两点优势:
- char*计算字符串长度,时间O(n);
- char*对字符串进行追加,追加N次,必定需要对字符串进行N次内存重分配;
作为值存储也是最常用的,其他诸如集合、列表也是基于字符串实现的,redis字符串类型sds在sds.h、shs.c文件中定义。
定义:
// sds 类型
typedef char *sds; // sdshdr 结构
struct sdshdr { // buf 已占用长度
int len; // buf 剩余可用长度
int free; // 实际保存字符串数据的地方
// 利用c99(C99 specification 6.7.2.1.16)中引入的 flexible array member,通过buf来引用sdshdr后面的地址,
// 详情google "flexible array member"
char buf[];
};
因为自定义类型加入了长度,每次获取字符串长度的时间复杂度就是O(1),而利用len和free属性对追加字符串进行优化,也可以降低重新分配内存的次数。但是这里也有要求就是len和free的更新要小心,不然很容易产生bug。
新建字符串对象:
sds sdsnewlen(const void *init, size_t initlen) { struct sdshdr *sh; // 有初始值
// O(N)
if (init) {
sh = zmalloc(sizeof(struct sdshdr)+initlen+);
} else {
sh = zcalloc(sizeof(struct sdshdr)+initlen+);
} // 内存不足,分配失败
if (sh == NULL) return NULL; sh->len = initlen;
sh->free = ; // 如果给定了 init 且 initlen 不为 0 的话
// 那么将 init 的内容复制至 sds buf
// O(N)
if (initlen && init)
memcpy(sh->buf, init, initlen); // 加上终结符
sh->buf[initlen] = '\0'; // 返回 buf 而不是整个 sdshdr
return (char*)sh->buf;
}
上面首先分配空间,空间大小为
sizeof(struct sdshdr)+initlen+
即sdshdr长度+字符串长度+一个结束符'\0'。
而且注意到,函数返回的是存储的字符串指针sh->buf,而不是sdshdr,那么如何得到sdshdr呢?
来举个例子:
sdsnewlen("redis", );
调用这个函数会新建一个sdshdr类型变量,其中内容如下:
len=5;
free=0;
buf="redis";
函数成功返回之后,大体是这个样子的:
-----------
|5|0|redis|
-----------
^ ^
sh sh->buf
函数返回地址sh->buf。此时如果想得到指向sh的指针可以得到吗?该怎么做呢?
答案是通过指针运算,sh->buf 减去两个int长度之后就得到了sh的地址。来看看redis源码里是怎么做的:
static inline size_t sdslen(const sds s) {
struct sdshdr *sh = (void*)(s-(sizeof(struct sdshdr)));
return sh->len;
}
这里就是利用开头提到的flexible array member,char[]不占用结构体的空间,所以,s-(sizeof(struct sdshdr))恰好等于sh的地址。
优化追加操作:
上面提到了,redis使用sds比使用char*有两个地方有优势,下面来说说redis优化字符串追加操作的原理。
/*
* 将一个 char 数组的前 len 个字节复制至 sds
* 如果 sds 的 buf 不足以容纳要复制的内容,
* 那么扩展 buf 的长度,让 buf 的长度大于等于 len 。
*
* T = O(N)
*/
sds sdscpylen(sds s, const char *t, size_t len) { struct sdshdr *sh = (void*) (s-(sizeof(struct sdshdr))); // 是否需要扩展 buf ?
size_t totlen = sh->free+sh->len;
if (totlen < len) {
// 扩展 buf 长度,让它的长度大于等于 len
// 具体的大小请参考 sdsMakeRoomFor 的注释
// T = O(N)
s = sdsMakeRoomFor(s,len-sh->len);
if (s == NULL) return NULL;
sh = (void*) (s-(sizeof(struct sdshdr)));
totlen = sh->free+sh->len;
} // O(N)
memcpy(s, t, len);
s[len] = '\0'; sh->len = len;
sh->free = totlen-len; return s;
}
上面代码功能就是把一个字符串拷贝到sds,如果sds空间不够,则调用sdsMakeRoomFor来扩容;
再来看看append代码:
/*
* 按长度 len 扩展 sds ,并将 t 拼接到 sds 的末尾
*
* T = O(N)
*/
sds sdscatlen(sds s, const void *t, size_t len) { struct sdshdr *sh; size_t curlen = sdslen(s); // O(N)
s = sdsMakeRoomFor(s,len);
if (s == NULL) return NULL; // 复制
// O(N)
memcpy(s+curlen, t, len); // 更新 len 和 free 属性
// O(1)
sh = (void*) (s-(sizeof(struct sdshdr)));
sh->len = curlen+len;
sh->free = sh->free-len; // 终结符
// O(1)
s[curlen+len] = '\0'; return s;
}
追加操作也是调用的sdsMakeRoomFor来扩展空间,追加字符串到源字符串最后。
那么sdsMakeRoomFor是怎么实现扩容的呢,具体扩容方案是什么呢?下面就是redis的源码:
/*
* 对 sds 的 buf 进行扩展,扩展的长度不少于 addlen 。
*
* T = O(N)
*/
sds sdsMakeRoomFor(
sds s,
size_t addlen // 需要增加的空间长度
)
{
struct sdshdr *sh, *newsh;
size_t free = sdsavail(s);
size_t len, newlen; // 剩余空间可以满足需求,无须扩展
if (free >= addlen) return s; sh = (void*) (s-(sizeof(struct sdshdr))); // 目前 buf 长度
len = sdslen(s);
// 新 buf 长度
newlen = (len+addlen);
// 如果新 buf 长度小于 SDS_MAX_PREALLOC 长度
// 那么将 buf 的长度设为新 buf 长度的两倍
if (newlen < SDS_MAX_PREALLOC)
newlen *= ;
else
newlen += SDS_MAX_PREALLOC; // 扩展长度
newsh = zrealloc(sh, sizeof(struct sdshdr)+newlen+); if (newsh == NULL) return NULL; newsh->free = newlen - len; return newsh->buf;
}
可以看到,如果新字符串长度比SDS_MAX_PREALLOC小,则将其长度double,如果大于SDS_MAX_PREALLOC则再给SDS_MAX_PREALLOC空间。这个值redis定义的是1024*1024,即1MB。
这样一来,扩容一次多给一倍请求的空间,可以减少分配内存的次数,当然稍微有点浪费,但append操作一般情况不会太多,如果场景append很多还要优化redis的代码。
小结:
- Redis的字符串表示为sds,不是char*;
- 对比原生char*,sds有以下优势:
- 长度计算只需O(1)时间复杂度;
- 字符串追加更高效;
- 二进制安全;
- sds对追加操作有优化,加快追加速度,降低内存重新分配次数,代价是浪费一些内存,并且不会主动释放。
参考资料:
- Redis String类型实现原理,http://blog.nosqlfan.com/html/2853.html
- c99之 柔性数组成员(flexible array member),http://blog.csdn.net/sunlylorn/article/details/7544301
- Binary-safe,http://en.wikipedia.org/wiki/Binary-safe
- https://github.com/huangz1990/annotated_redis_source
Redis源码阅读笔记(1)——简单动态字符串sds实现原理的更多相关文章
- Redis源码解析:01简单动态字符串SDS
Redis没有直接使用C字符串(以'\0'结尾的字符数组),而是构建了一种名为简单动态字符串( simple dynamic string, SDS)的抽象类型,并将SDS用作Redis的默认字符 ...
- Vue2.0源码阅读笔记(二):响应式原理
Vue是数据驱动的框架,在修改数据时,视图会进行更新.数据响应式系统使得状态管理变的简单直接,在开发过程中减少与DOM元素的接触.而深入学习其中的原理十分有必要,能够回避一些常见的问题,使开发变的 ...
- Redis源码阅读笔记(2)——字典(Map)实现原理
因为redis是用c写的,c中没有自带的map,所以redis自己实现了map,来看一下redis是怎么实现的. 1.redis字典基本数据类型 redis是用哈希表作为字典的底层实现,dictht是 ...
- CI框架源码阅读笔记3 全局函数Common.php
从本篇开始,将深入CI框架的内部,一步步去探索这个框架的实现.结构和设计. Common.php文件定义了一系列的全局函数(一般来说,全局函数具有最高的加载优先权,因此大多数的框架中BootStrap ...
- Redis源码阅读(四)集群-请求分配
Redis源码阅读(四)集群-请求分配 集群搭建好之后,用户发送的命令请求可以被分配到不同的节点去处理.那Redis对命令请求分配的依据是什么?如果节点数量有变动,命令又是如何重新分配的,重分配的过程 ...
- guavacache源码阅读笔记
guavacache源码阅读笔记 官方文档: https://github.com/google/guava/wiki/CachesExplained 中文版: https://www.jianshu ...
- JDK1.8源码阅读笔记(1)Object类
JDK1.8源码阅读笔记(1)Object类 Object 类属于 java.lang 包,此包下的所有类在使⽤时⽆需⼿动导⼊,系统会在程序编译期间⾃动 导⼊.Object 类是所有类的基类,当⼀ ...
- mxnet源码阅读笔记之include
写在前面 mxnet代码的规范性比Caffe2要好,看起来核心代码量也小很多,但由于对dmlc其它库的依赖太强,代码的独立性并不好.依赖的第三方库包括: cub dlpack dmlc-core go ...
- CI框架源码阅读笔记5 基准测试 BenchMark.php
上一篇博客(CI框架源码阅读笔记4 引导文件CodeIgniter.php)中,我们已经看到:CI中核心流程的核心功能都是由不同的组件来完成的.这些组件类似于一个一个单独的模块,不同的模块完成不同的功 ...
随机推荐
- STM32串口通信USART1转USART2问题解决
使用的是STM32f103ZET6. 1.把文件main.c和usart.c中的所有usart1换成usart2 2.查看手册得知USART2的引脚是Tx->PA2,Rx->PA3,改变u ...
- 关键词:CodeSmith工具、Money类型、__UNKNOWN__
问题描述: 当数据库列类型有Money类型的时候,CodeSmith生成数据访问层会出错.有不能识别的类型.解决方法: 通过查找资料得知,数据库中的Money类型在DbType中是Currency(货 ...
- asp.net模态窗口返回值
个人感觉模态窗口在做网站的时候,使用到的比较少,前段时间在做项目时要实现以模态窗口传值和接收返回值, 模态窗口传值实现比较简单,但是做好后发现在Chrome浏览器中接收不到返回值,修改好Chrome浏 ...
- Socket 学习
Socket一般应用模式(服务器端和客户端) 服务器端Socket(至少有两个) ->一个负责接收客户端连接请求(但不负责和客户端通信) ->没成功接收到一个客户端的连接便在服务端生成一个 ...
- 怎样在官网上下载xcode7.2
其实我觉得还是有必要就这个写一篇论文的 以证明自己真的是个菜鸟 首先进入苹果开发者官网 https://developer.apple.com/ 选择 resource 然后 点击加号 然后下载就 ...
- 平衡搜索树(一) AVL树
AVL树 AVL树又称为高度平衡的二叉搜索树,是1962年有俄罗斯的数学家G.M.Adel'son-Vel'skii和E.M.Landis提出来的.它能保持二叉树的高度 平衡,尽量降低二叉树的高度,减 ...
- 利用set实现去重
最近读了一些有关于ES6的文章,觉得真是一个超级大的进步,就是不知道兼容性怎么样,鉴于我还在初学,先写个小例子练手,顺便时刻提醒自己要坚持学下去.未来的趋势肯定是替代es5没跑了. var arr=[ ...
- OC 之 谓词
NSPredicate 分类: Objective-C iOS XCode Mac2012-10-26 17:26 10557人阅读 评论(1) 收藏 举报 简述:Cocoa框架中的NSPredica ...
- C语言连接数据库
举个例子,连接SQL: // 打开数据库 strDBClass.Format(_T("Provider=Microsoft.Jet.OLEDB.4.0;Data Source=%s;Jet ...
- Asynchronous
http://sporto.github.io/blog/2012/12/09/callbacks-listeners-promises/ http://www.cnblogs.com/liuning ...