redis 源码阅读内部数据结构--字符串

redis的内部数据结构主要有：字符串，双端链表，字典，跳跃表。

这里主要记录redise字符串的设计。相关的源码位于：src/sds.h 和 src/sds.c。

一字符串 sds的结构体

struct sdshdr {

int len; // buf 已占用长度

int free; // buf 剩余可用长度

char buf[]; // 实际保存字符串数据的地方

};

从这个结构可以看出，redis字符串和C的不一样，本质字符串是保存在内存的某一个位置，然后把它的指针放到buf上。.

这种方式对于读取字符串的长度的很快，是O(1)。

另一个原因是redis 对字符串的追加操作比较频繁。这种方式的追加可以减少对内存的申请频度。

对于这种可以举个简单的例子：

struct sdshdr {

len = ;

free = ;

buf = "hello world\0"; // buf 的实际长度为 len + 1

};

二字符串的追加

当在buf后追加字符串时，发现free=0或不足于让新追加的字符串加到buf时，就会按照策略去申请更大的空间。如果free的大小足够大，就不会去申请。

申请的策略在sdsMakeRoomFor中。如下是redis的源码。

/* Enlarge the free space at the end of the sds string so that the caller

* is sure that after calling this function can overwrite up to addlen

* bytes after the end of the string, plus one more byte for nul term.

*

* Note: this does not change the *length* of the sds string as returned

* by sdslen(), but only the free buffer space we have. */

sds sdsMakeRoomFor(sds s, size_t addlen) {

struct sdshdr *sh, *newsh;

size_t free = sdsavail(s);

size_t len, newlen;

if (free >= addlen) return s;

len = sdslen(s);

sh = (void*) (s-(sizeof(struct sdshdr)));

newlen = (len+addlen);

if (newlen < SDS_MAX_PREALLOC)

newlen *= ;

else

newlen += SDS_MAX_PREALLOC;

newsh = zrealloc(sh, sizeof(struct sdshdr)+newlen+);

if (newsh == NULL) return NULL;

newsh->free = newlen - len;

return newsh->buf;

}

其中，#define SDS_MAX_PREALLOC (1024*1024) 。如果新字符串的总长度小于 SDS_MAX_PREALLOC。那么为字符串分配 2 倍于所需长度的空间。否则就分配所需长度加上 SDS_MAX_PREALLOC 数量的空间。

三字符串的API

对于这样一个结构体，就应该有对应API提供给其他模块操作。sds对外API都在他的头文件中src/sds.h。

/*

字符串的长度

*/

static inline size_t sdslen(const sds s) {

struct sdshdr *sh = (void*)(s-(sizeof(struct sdshdr)));

return sh->len;

}

/*

字符串剩余长度

*/

static inline size_t sdsavail(const sds s) {

struct sdshdr *sh = (void*)(s-(sizeof(struct sdshdr)));

return sh->free;

}

sds sdsnewlen(const void *init, size_t initlen); /* 创建新字符串，内部申请了内存 */

sds sdsnew(const char *init); /* 对sdsnewlen的封装而已 */

sds sdsempty(void); /*创建一个空的字符串 调用sdsnewlen */

size_t sdslen(const sds s);

sds sdsdup(const sds s); /* 拷贝 */

void sdsfree(sds s); /* 释放 */

size_t sdsavail(const sds s);

sds sdsgrowzero(sds s, size_t len); /* 将给定 sds 的 buf 扩展至指定长度，无内容的部分用 \0 来填充 */

sds sdscatlen(sds s, const void *t, size_t len); /* 追加一个C类型的字符串 带长度len */

sds sdscat(sds s, const char *t); /* 调用sdscatlen， 在内部算长度 */

sds sdscatsds(sds s, const sds t); /* 追加一个sds 字符串 */

sds sdscpylen(sds s, const char *t, size_t len); /* 拷贝一个C类型的字符串 带长度len */

sds sdscpy(sds s, const char *t); /* 调用sdscpylen， 在内部算长度 */

sds sdscatvprintf(sds s, const char *fmt, va_list ap);

#ifdef __GNUC__

sds sdscatprintf(sds s, const char *fmt, ...)

__attribute__((format(printf, , )));

#else

sds sdscatprintf(sds s, const char *fmt, ...);

#endif

sds sdscatfmt(sds s, char const *fmt, ...);

sds sdstrim(sds s, const char *cset);

void sdsrange(sds s, int start, int end); /* 取出子串 end为负时从后面往前算起 */

void sdsupdatelen(sds s); /* 当手动强制把字符串砍掉时， 要用sdsupd telen更新len和free */

void sdsclear(sds s); /* 清除掉当前的字符串 */

int sdscmp(const sds s1, const sds s2); /* 比较两个字符串 */

/* 把s按sep分割, len是s的长度，seplen是sep的长度 */

sds *sdssplitlen(const char *s, int len, const char *sep, int seplen, int *count);

void sdsfreesplitres(sds *tokens, int count); /* 释放 sdssplitlen 的返回值，sdssplitlen专用啊,其实就是释放一个数组 */

void sdstolower(sds s); /* 转为小写 */

void sdstoupper(sds s); /* 转为大写 */

sds sdsfromlonglong(long long value); /*long long 转为字符串 */

sds sdscatrepr(sds s, const char *p, size_t len);

sds *sdssplitargs(const char *line, int *argc);

sds sdsmapchars(sds s, const char *from, const char *to, size_t setlen);

sds sdsjoin(char **argv, int argc, char *sep);

/* Low level functions exposed to the user API */

sds sdsMakeRoomFor(sds s, size_t addlen); /* 按策略申请长度 */

void sdsIncrLen(sds s, int incr);

sds sdsRemoveFreeSpace(sds s);

size_t sdsAllocSize(sds s);

大致看了一些实现，还算是比较清晰。可以了解几个比较主要的函数。其中sdsnewlen是对字符串的初始化。

/* Create a new sds string with the content specified by the 'init' pointer

* and 'initlen'.

* If NULL is used for 'init' the string is initialized with zero bytes.

*

* The string is always null-termined (all the sds strings are, always) so

* even if you create an sds string with:

*

* mystring = sdsnewlen("abc",3");

*

* You can print the string with printf() as there is an implicit \0 at the

* end of the string. However the string is binary safe and can contain

* \0 characters in the middle, as the length is stored in the sds header. */

sds sdsnewlen(const void *init, size_t initlen) {

struct sdshdr *sh;

if (init) {

sh = zmalloc(sizeof(struct sdshdr)+initlen+);

} else {

sh = zcalloc(sizeof(struct sdshdr)+initlen+);

}

if (sh == NULL) return NULL;

sh->len = initlen;

sh->free = ;

if (initlen && init)

memcpy(sh->buf, init, initlen);

sh->buf[initlen] = '\0';

return (char*)sh->buf;

}

/* Free an sds string. No operation is performed if 's' is NULL. */

void sdsfree(sds s) {

if (s == NULL) return;

zfree(s-sizeof(struct sdshdr));

}

其中zmalloc zcalloc 和zfree 是申请内存的。封装malloc和calloc，主要是考虑到跨平台的情况。不过从这个地方可以看出redis在对内存申请与释放到什么独到的管理方式。这种方式用sds字符串，一不小心就可能会内存泄漏了。

四好处与坏外

按照《redis 设计与实现》这书的说法，是：

对比 C 字符串，sds 有以下特性：

可以高效地执行长度计算（ strlen）；

可以高效地执行追加操作（ append）；

二进制安全；

sds 会为追加操作进行优化：加快追加操作的速度，并降低内存分配的次数，代价是多占

用了一些内存，而且这些内存不会被主动释放。

五抽出模块

看redis字符串模块的源码的过程中，抽出简化一些，做了一个test。放在了github上。地址是：https://github.com/CarlosFang/modrds/tree/master/string

redis 源码阅读内部数据结构--字符串的更多相关文章

［Redis源码阅读］sds字符串实现
初衷从开始工作就开始使用Redis,也有一段时间了,但都只是停留在使用阶段,没有往更深的角度探索,每次想读源码都止步在阅读书籍上,因为看完书很快又忘了,这次逼自己先读代码.因为个人觉得写作需要阅读文 ...
Redis源码阅读（二）高可用设计——复制
Redis源码阅读(二)高可用设计-复制复制的概念:Redis的复制简单理解就是一个Redis服务器从另一台Redis服务器复制所有的Redis数据库数据,能保持两台Redis服务器的数据库数据一致 ...
Redis源码阅读（三）集群-连接初始化
Redis源码阅读(三)集群-连接建立对于并发请求很高的生产环境,单个Redis满足不了性能要求,通常都会配置Redis集群来提高服务性能.3.0之后的Redis支持了集群模式. Redis官方提供 ...
Redis源码阅读-Adlist双向链表
Redis源码阅读-链表部分- 链表数据结构在Adlist.h Adlist.c Redis的链表是双向链表,内部定义了一个迭代器. 双向链表的函数主要是链表创建.删除.节点插入.头插入.尾插入. ...
Redis源码阅读（六）集群-故障迁移(下)
Redis源码阅读(六)集群-故障迁移(下) 最近私人的事情比较多,没有抽出时间来整理博客.书接上文,上一篇里总结了Redis故障迁移的几个关键点,以及Redis中故障检测的实现.本篇主要介绍集群检测 ...
Redis源码阅读（四）集群-请求分配
Redis源码阅读(四)集群-请求分配集群搭建好之后,用户发送的命令请求可以被分配到不同的节点去处理.那Redis对命令请求分配的依据是什么?如果节点数量有变动,命令又是如何重新分配的,重分配的过程 ...
Redis源码阅读（一）事件机制
Redis源码阅读(一)事件机制 Redis作为一款NoSQL非关系内存数据库,具有很高的读写性能,且原生支持的数据类型丰富,被广泛的作为缓存.分布式数据库.消息队列等应用.此外Redis还有许多高可 ...
Redis源码阅读（五）集群-故障迁移（上）
Redis源码阅读(五)集群-故障迁移(上) 故障迁移是集群非常重要的功能:直白的说就是在集群中部分节点失效时,能将失效节点负责的键值对迁移到其他节点上,从而保证整个集群系统在部分节点失效后没有丢失数 ...
Redis源码阅读一:简单动态字符串SDS
源码阅读基于Redis4.0.9 SDS介绍 redis 127.0.0.1:6379> SET dbname redis OK redis 127.0.0.1:6379> GET dbn ...

随机推荐

LINQ之延迟加载及其原理
这是LINQ(集成化查询)的继续及补充,在前面我已经介绍过,在LINQ中,一个重要的特性就是延迟加载,是指查询操作并不是在查询运算符定义的时候执行,而是在真正使用集合中的数据时才执行(如:在遍历集合时 ...
JavaScript的作用域和块级作用域概念理解
作用域作用域永远都是任何一门编程语言中的重中之重,因为它控制着变量与参数的可见性与生命周期.说到这里我们需要理解两个概念:块级作用域与函数作用域. 函数作用域这个应该好理解,函数作用域就是说定义在 ...
CSS侧边栏，ng-click定义选中事件
本篇小随笔,记录下侧边栏的写法和ng-click点击选中事件.因为这个工程不让引用jQuery.所以ng-click选中事件用了一个比较笨的方法实现的. 下面是HTML页面按 Ctrl+C 复制代码 ...
php图片验证码为什么必须加上ob_clean();才能正常显示。
ob_clean这个函数的作用就是用来丢弃输出缓冲区中的内容,如果你的网站有许多生成的图片类文件,那么想要访问正确,就要经常清除缓冲区. If you work on an extremely lar ...
should be mapped with insert="false" update="false
SSH项目出现了 should be mapped with insert="false" update="false 错误,仔细检查后发现,是两个不同的属性映射了表中的 ...
Cats（1）－从Free开始，Free cats
cats是scala的一个新的函数式编程工具库,其设计原理基本继承了scalaz:大家都是haskell typeclass的scala版实现.当然,cats在scalaz的基础上从实现细节.库组织结 ...
理解 OpenStack 高可用（HA）（5）：RabbitMQ HA
本系列会分析OpenStack 的高可用性(HA)概念和解决方案: (1)OpenStack 高可用方案概述 (2)Neutron L3 Agent HA - VRRP (虚拟路由冗余协议) (3)N ...
PowerDesigner16 基本使用教程
一.基本概念概念数据模型也称信息模型,它以实体-联系(Entity-RelationShip,简称E-R)理论为基础,并对这一理论进行了扩充. 它从用户的观点出发对信息进行建模,主要用于数据库的概念 ...
js中的位运算
按位运算符是把操作数看作一系列单独的位,而不是一个数字值.所以在这之前,不得不提到什么是"位": 数值或字符在内存内都是被存储为0和 1的序列,每个0和1被称之为1个位,比如说10 ...
Day Tips：关于搜索小问题
1.如果想重启SPSearchHostController请确保没有服务在运行,如果有爬网运行可能会导致重启失败,使之处于stoping状态,不过遇到这个状态也不要紧使用 taskkill /f /f ...

redis 源码阅读 内部数据结构--字符串

redis 源码阅读 内部数据结构--字符串的更多相关文章

随机推荐

热门专题

redis 源码阅读内部数据结构--字符串

redis 源码阅读内部数据结构--字符串的更多相关文章