简单动态字符串(SDS)
简单动态字符串(Simple Dynamic Strings),是 Redis 的基本数据结构之一,用于存储字符串和整型数据。
相关代码文件
github 地址 https://github.com/antirez/redis/tree/5.0/src 里:
文件 | 说明 |
sds.h | sds 数据结构声明 |
sds.c | sds 数据结构实现 |
sdsalloc.h | sds 内存分配 api 。使用 zmalloc 代替 glibc 的 |
源代码分析1 - 类型声明
简单动态字符串(SDS)
实现与普通字符串实现思路几乎一样。
不同点,在于内存使用率上做了优化。
简单动态字符串(SDS)
数据类型声明如下 ( sds.h 43 - 74 行 ):
typedef char *sds;
/* Note: sdshdr5 is never used, we just access the flags byte directly.
* However is here to document the layout of type 5 SDS strings. */
struct __attribute__ ((__packed__)) sdshdr5 {
unsigned char flags; /* 3 lsb of type, and 5 msb of string length */
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr8 {
uint8_t len; /* used */
uint8_t alloc; /* excluding the header and null terminator */
unsigned char flags; /* 3 lsb of type, 5 unused bits */
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr16 {
uint16_t len; /* used */
uint16_t alloc; /* excluding the header and null terminator */
unsigned char flags; /* 3 lsb of type, 5 unused bits */
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr32 {
uint32_t len; /* used */
uint32_t alloc; /* excluding the header and null terminator */
unsigned char flags; /* 3 lsb of type, 5 unused bits */
char buf[];
};
struct __attribute__ ((__packed__)) sdshdr64 {
uint64_t len; /* used */
uint64_t alloc; /* excluding the header and null terminator */
unsigned char flags; /* 3 lsb of type, 5 unused bits */
char buf[];
};
与常见字符串数据结构声明很像,比如:
struct stString {
uint64_t len;
uint64_t alloc;
char buf[];
}
对比下,马上可以得出, redis 作者编码时,通过使用不同类型的字符串数据结构(sdshdr5 - sdshdr64 ),来达到节省内存目的。
以 stString 为例,其头部需要占用 8 + 8 = 16 个字节;而 redis sds,其头部占用如下:
字符串串类型 | 说明 | 节省内存量 |
sdshdr5 | 存储小于 32 字节的字符串 | 16 - 1 = 15 个字节 |
sdshdr8 | 存储小于 256 字节的字符串 | 16 - 3 = 13 个字节 |
sdshdr16 | 存储小于 64KB 的字符串 | 16 - 5 = 11 个字节 |
sdshdr32 | 存储小于 4G 的字符串 | 16 - 9 = 7 个字节 |
sdshdr64 | 存储小于 16777216T 的字符串 | 16 - 17 = -1 个字节,即多费一个字节 |
另外简单动态字符串(SDS)
也用来存储整型数据,用的自然是 sdshdr5 ,占用的内存大小为 sizeof(sdshdr5) + sizeof(N)
= 1 + sizeof(N) 。
源代码分析2 - 实现
按简单动态字符串(SDS)
的类型声明,有 sdshdr5 - sdshdr64 5种具体类型,但是编码实现上根据 C 语言特点,可以做到统一处理
原理如下:
1. 用户界面
sds.h 43 行:
typedef char *sds;
使用 简单动态字符串(SDS)
的用户,只需要持有 sds 类型
sds 类型有以下编码特点:
用法 | 说明 |
sds | 就是 sdshdr5 - sdshdr64 5种具体类型的 buf 字段 |
sds[-1] | 就是 sdshdr5 - sdshdr64 5种具体类型的 flags 字段 |
sds[-sizeof(sdshdr5)] | 就是 sdshdr5 的首地址指针 |
因此只要有 sds 类型,就可以获取内部的整个具体字符串类型
2. flags 字段
flags 字段的低 3 位用来指明具体是哪种类型( sdshdr5 - sdshdr64 )
因此通过 sds 就可以推出自己的具体类型
比如,sds.h 81 行 、 104 - 128 行:
#define SDS_TYPE_MASK 7
static inline size_t sdsavail(const sds s) {
unsigned char flags = s[-1];
switch(flags&SDS_TYPE_MASK) {
case SDS_TYPE_5: {
return 0;
}
case SDS_TYPE_8: {
SDS_HDR_VAR(8,s);
return sh->alloc - sh->len;
}
case SDS_TYPE_16: {
SDS_HDR_VAR(16,s);
return sh->alloc - sh->len;
}
case SDS_TYPE_32: {
SDS_HDR_VAR(32,s);
return sh->alloc - sh->len;
}
case SDS_TYPE_64: {
SDS_HDR_VAR(64,s);
return sh->alloc - sh->len;
}
}
return 0;
}
3. 各函数实现细节
理解了简单动态字符串(SDS)
的类型声明与 sds 类型的使用技巧,剩余的仅是复习下字符串实现细节
主要需要看的函数有以下几个:
sds.h 255 - 260 行::
/* Low level functions exposed to the user API */
sds sdsMakeRoomFor(sds s, size_t addlen);
void sdsIncrLen(sds s, ssize_t incr);
sds sdsRemoveFreeSpace(sds s);
size_t sdsAllocSize(sds s);
void *sdsAllocPtr(sds s);
sdsMakeRoomFor 函数涉及字符串扩容;sdsRemoveFreeSpace 函数涉及字符串瘦身
其他诸如:
sds sdsnewlen(const void *init, size_t initlen);
sds sdsnew(const char *init);
sds sdsempty(void);
...
为字符串具体业务逻辑
总体而言,基于上述介绍基础,各函数实现细节大致 30 分钟 - 2 小时阅读量
参考资料
- https://github.com/antirez/redis
- 《Redis 5设计与源代码分析》
以上