简单动态字符串(SDS)

简单动态字符串(Simple Dynamic Strings),是 Redis 的基本数据结构之一,用于存储字符串和整型数据。

相关代码文件

github 地址 https://github.com/antirez/redis/tree/5.0/src 里:

文件

说明

sds.h

sds 数据结构声明

sds.c

sds 数据结构实现

sdsalloc.h

sds 内存分配 api 。使用 zmalloc 代替 glibc 的

源代码分析1 - 类型声明

简单动态字符串(SDS)实现与普通字符串实现思路几乎一样。

不同点,在于内存使用率上做了优化

简单动态字符串(SDS)数据类型声明如下 ( sds.h 43 - 74 行 ):

typedef char *sds;

/* Note: sdshdr5 is never used, we just access the flags byte directly.
 * However is here to document the layout of type 5 SDS strings. */
struct __attribute__ ((__packed__)) sdshdr5 {
    unsigned char flags; /* 3 lsb of type, and 5 msb of string length */
    char buf[];
};
struct __attribute__ ((__packed__)) sdshdr8 {
    uint8_t len; /* used */
    uint8_t alloc; /* excluding the header and null terminator */
    unsigned char flags; /* 3 lsb of type, 5 unused bits */
    char buf[];
};
struct __attribute__ ((__packed__)) sdshdr16 {
    uint16_t len; /* used */
    uint16_t alloc; /* excluding the header and null terminator */
    unsigned char flags; /* 3 lsb of type, 5 unused bits */
    char buf[];
};
struct __attribute__ ((__packed__)) sdshdr32 {
    uint32_t len; /* used */
    uint32_t alloc; /* excluding the header and null terminator */
    unsigned char flags; /* 3 lsb of type, 5 unused bits */
    char buf[];
};
struct __attribute__ ((__packed__)) sdshdr64 {
    uint64_t len; /* used */
    uint64_t alloc; /* excluding the header and null terminator */
    unsigned char flags; /* 3 lsb of type, 5 unused bits */
    char buf[];
};

与常见字符串数据结构声明很像,比如:

struct stString {
	uint64_t len;
	uint64_t alloc;
	char buf[];
}

对比下,马上可以得出, redis 作者编码时,通过使用不同类型的字符串数据结构(sdshdr5 - sdshdr64 ),来达到节省内存目的。

以 stString 为例,其头部需要占用 8 + 8 = 16 个字节;而 redis sds,其头部占用如下:

字符串串类型

说明

节省内存量

sdshdr5

存储小于 32 字节的字符串

16 - 1 = 15 个字节

sdshdr8

存储小于 256 字节的字符串

16 - 3 = 13 个字节

sdshdr16

存储小于 64KB 的字符串

16 - 5 = 11 个字节

sdshdr32

存储小于 4G 的字符串

16 - 9 = 7 个字节

sdshdr64

存储小于 16777216T 的字符串

16 - 17 = -1 个字节,即多费一个字节

另外简单动态字符串(SDS)也用来存储整型数据,用的自然是 sdshdr5 ,占用的内存大小为 sizeof(sdshdr5) + sizeof(N) = 1 + sizeof(N) 。

源代码分析2 - 实现

简单动态字符串(SDS)的类型声明,有 sdshdr5 - sdshdr64 5种具体类型,但是编码实现上根据 C 语言特点,可以做到统一处理

原理如下:

1. 用户界面

sds.h 43 行:

typedef char *sds;

使用 简单动态字符串(SDS)的用户,只需要持有 sds 类型

sds 类型有以下编码特点:

用法

说明

sds

就是 sdshdr5 - sdshdr64 5种具体类型的 buf 字段

sds[-1]

就是 sdshdr5 - sdshdr64 5种具体类型的 flags 字段

sds[-sizeof(sdshdr5)]

就是 sdshdr5 的首地址指针

因此只要有 sds 类型,就可以获取内部的整个具体字符串类型

2. flags 字段

flags 字段的低 3 位用来指明具体是哪种类型( sdshdr5 - sdshdr64 )

因此通过 sds 就可以推出自己的具体类型

比如,sds.h 81 行 、 104 - 128 行:

#define SDS_TYPE_MASK 7
static inline size_t sdsavail(const sds s) {
    unsigned char flags = s[-1];
    switch(flags&SDS_TYPE_MASK) {
        case SDS_TYPE_5: {
            return 0;
        }
        case SDS_TYPE_8: {
            SDS_HDR_VAR(8,s);
            return sh->alloc - sh->len;
        }
        case SDS_TYPE_16: {
            SDS_HDR_VAR(16,s);
            return sh->alloc - sh->len;
        }
        case SDS_TYPE_32: {
            SDS_HDR_VAR(32,s);
            return sh->alloc - sh->len;
        }
        case SDS_TYPE_64: {
            SDS_HDR_VAR(64,s);
            return sh->alloc - sh->len;
        }
    }
    return 0;
}
3. 各函数实现细节

理解了简单动态字符串(SDS)的类型声明与 sds 类型的使用技巧,剩余的仅是复习下字符串实现细节

主要需要看的函数有以下几个:

sds.h 255 - 260 行::

/* Low level functions exposed to the user API */
sds sdsMakeRoomFor(sds s, size_t addlen);
void sdsIncrLen(sds s, ssize_t incr);
sds sdsRemoveFreeSpace(sds s);
size_t sdsAllocSize(sds s);
void *sdsAllocPtr(sds s);

sdsMakeRoomFor 函数涉及字符串扩容;sdsRemoveFreeSpace 函数涉及字符串瘦身

其他诸如:

sds sdsnewlen(const void *init, size_t initlen);
sds sdsnew(const char *init);
sds sdsempty(void);
...

为字符串具体业务逻辑

总体而言,基于上述介绍基础,各函数实现细节大致 30 分钟 - 2 小时阅读量

参考资料

以上