Redis 使用最多的String 类型是怎么实现的

其实string不光是我们在redis中使用最多的类型,我们日常编程中的业务代码string也是跟我们打交道最多的类型,但是对于string为了方便使用同字符串在相同的map中算出相同的值,我们不得不将一个引用类型变成了一个类值类型。。。从而引发的问题就是每一个string都是一个全新的string,当然这里不讨论带有string池的实现方式。

今天我们就来看看redis中是如何优雅快速的实现基础类型string。

简单动态字符串SDS:

举个栗子:

set hello "world"

这样就生成了一个 key为 hello value为world 键值对

SDS的定义:

/*
 * 保存字符串对象的结构
 */
struct sdshdr {
    
    // buf 中已占用空间的长度
    // 等于SDS锁保存字符串的长度
    int len;

    // buf 中剩余可用空间的长度
    int free;

    // 数据空间
    char buf[];
};

就像下面这张图:

  • len属性的值为5,表示这个sds内的buf存储了一个5字节长的字符串
  • free属性的值为0,表示这个sds内的buf没有可分配使用的空间
  • buf属性是一个char类型的数组,数组的前五个字节分别保存了 'r','e','d','s','i',而最后一个字节则保存了空字符'\0'需要注意的是这个'\0'是不计算在len属性里的。

RedissonClient 字符串 redis string sds_字符串

下面这张图就是带有free字段具有可使用空间的状态

RedissonClient 字符串 redis string sds_redis_02

那么可使用空间到底有什么用,为什么要设置一个大于原有字符串一倍的空间呢?

减少修改字符串时带来的内存重分配次数

很多语言在修改字符串的时候几乎都会充分分配内存,而这种内存重分配涉及复杂的算法,并且可能需要执行系统调用,所以它是一个很耗时的操作。但是在redis中执行速度要求是非常高的,如果这种修改频繁发生的话,会造成性能上的损失。

为了避免这种缺陷,SDS通过未使用空间解除了字符串长度和底层数组长度之间的关联。

通过未使用空间,SDS实现空间预分配和惰性空间释放两种优化策略

  1. 空间预分配

     空间预分配用于优化SDS的字符串增长操作:当SDS的APi对一个SDS进行修改,并且需要对SDS进行空间扩展的时候,程序不仅会为SDS分配修改锁必须要的空间,还会为SDS分配额外的未使用空间。

     分配规则:

         如果对SDS进行修改之后,SDS Len的值将小于1MB,那么程序分配和len属性同样大小的未使用空间,这时SDS len属性的值将和free属性的值相同。

         如果对SDS进行修改之后,SDS len大于等于1MB,那么程序会分配1MB的未使用空间。

  1. 惰性空间释放

        惰性空间释放用于优化SDS的字符串缩短操作:当SDS的API需要缩短SDS保存的字符串时,程序并不立即使用内存重分配来回收缩短后多出来的字节,而是使用free属性将这些字节的数量记录起来,并等待将来使用。

二进制安全:

C字符串中的字符必须符合某种编码(ASCII),并且除了字符串的末尾之外,字符串里面不能包含空字符串,否则最先被程序读入的空字符将被误认为是字符串的结尾,这些限制使得C字符串只能保存文本数据,而不能保存像图像、音频、视频、压缩文件这样的二进制数据。

因为使用了len来判断字符串是否结束而非空字符串,而且SDS的buf属性称之为字节数组的原因--Redis不是用这个数据来保存字符,而是用它来保存一系列二进制数据。使得redis不仅可以保存文本数据,还可以保存任意格式的二进制数据。

参考资料:《Redis设计与实现》