Redis 使用最多的String 类型是怎么实现的
其实string不光是我们在redis中使用最多的类型,我们日常编程中的业务代码string也是跟我们打交道最多的类型,但是对于string为了方便使用同字符串在相同的map中算出相同的值,我们不得不将一个引用类型变成了一个类值类型。。。从而引发的问题就是每一个string都是一个全新的string,当然这里不讨论带有string池的实现方式。
今天我们就来看看redis中是如何优雅快速的实现基础类型string。
简单动态字符串SDS:
举个栗子:
set hello "world"
这样就生成了一个 key为 hello value为world 键值对
SDS的定义:
/*
* 保存字符串对象的结构
*/
struct sdshdr {
// buf 中已占用空间的长度
// 等于SDS锁保存字符串的长度
int len;
// buf 中剩余可用空间的长度
int free;
// 数据空间
char buf[];
};
就像下面这张图:
- len属性的值为5,表示这个sds内的buf存储了一个5字节长的字符串
- free属性的值为0,表示这个sds内的buf没有可分配使用的空间
- buf属性是一个char类型的数组,数组的前五个字节分别保存了 'r','e','d','s','i',而最后一个字节则保存了空字符'\0'需要注意的是这个'\0'是不计算在len属性里的。
下面这张图就是带有free字段具有可使用空间的状态
那么可使用空间到底有什么用,为什么要设置一个大于原有字符串一倍的空间呢?
减少修改字符串时带来的内存重分配次数
很多语言在修改字符串的时候几乎都会充分分配内存,而这种内存重分配涉及复杂的算法,并且可能需要执行系统调用,所以它是一个很耗时的操作。但是在redis中执行速度要求是非常高的,如果这种修改频繁发生的话,会造成性能上的损失。
为了避免这种缺陷,SDS通过未使用空间解除了字符串长度和底层数组长度之间的关联。
通过未使用空间,SDS实现空间预分配和惰性空间释放两种优化策略
- 空间预分配
空间预分配用于优化SDS的字符串增长操作:当SDS的APi对一个SDS进行修改,并且需要对SDS进行空间扩展的时候,程序不仅会为SDS分配修改锁必须要的空间,还会为SDS分配额外的未使用空间。
分配规则:
如果对SDS进行修改之后,SDS Len的值将小于1MB,那么程序分配和len属性同样大小的未使用空间,这时SDS len属性的值将和free属性的值相同。
如果对SDS进行修改之后,SDS len大于等于1MB,那么程序会分配1MB的未使用空间。
- 惰性空间释放
惰性空间释放用于优化SDS的字符串缩短操作:当SDS的API需要缩短SDS保存的字符串时,程序并不立即使用内存重分配来回收缩短后多出来的字节,而是使用free属性将这些字节的数量记录起来,并等待将来使用。
二进制安全:
C字符串中的字符必须符合某种编码(ASCII),并且除了字符串的末尾之外,字符串里面不能包含空字符串,否则最先被程序读入的空字符将被误认为是字符串的结尾,这些限制使得C字符串只能保存文本数据,而不能保存像图像、音频、视频、压缩文件这样的二进制数据。
因为使用了len来判断字符串是否结束而非空字符串,而且SDS的buf属性称之为字节数组的原因--Redis不是用这个数据来保存字符,而是用它来保存一系列二进制数据。使得redis不仅可以保存文本数据,还可以保存任意格式的二进制数据。
参考资料:《Redis设计与实现》