Java 中字符串增长和redis中字符串增长的实现对比
人总是困于眼前,却对未来充满希望。
只是发现两者的内部实现原理有相同之处,并不一样。所以记录下来,并无其他惊奇的发现,不过以后在处理类似的问题时,也许会来灵感。
1、Java中字符增长的实现:
首先这个是实现不是在String类中,而是在StringBuffer或者StringBuilder类,更确切说是在AbstractStringBuilder类中。
AbstractStringBuilder是一个抽象类,有两个属性:int count和char[] value;
类结构为:
abstract class AbstractStringBuilder implements Appendable, CharSequence {
/**
* The value is used for character storage.
*/
char[] value;
/**
* The count is the number of characters used.
*/
int count;
……
}
当使用StringBuffer/StringBuilder 创建一个字符串时,默认是会创建长度为16的char[]数组。append()方法的原理:首先是新建一个char数组,将源字符串copy进这个char数组中,然后再将需要增加的字符串copy到这个char的后面。最后确定新字符串的长度,即count的值。
public AbstractStringBuilder append(String str) {
if (str == null) str = "null";
int len = str.length();
ensureCapacityInternal(count + len);
str.getChars(0, len, value, count);
count += len;
return this;
}
private void ensureCapacityInternal(int minimumCapacity) {
// overflow-conscious code
if (minimumCapacity - value.length > 0)
expandCapacity(minimumCapacity);
}
/**
* This implements the expansion semantics of ensureCapacity with no
* size check or synchronization.
*/
void expandCapacity(int minimumCapacity) {
int newCapacity = value.length * 2 + 2;
if (newCapacity - minimumCapacity < 0)
newCapacity = minimumCapacity;
if (newCapacity < 0) {
if (minimumCapacity < 0) // overflow
throw new OutOfMemoryError();
newCapacity = Integer.MAX_VALUE;
}
value = Arrays.copyOf(value, newCapacity);
}
结论:Java使用的空间预分配+重分配相混合的策略。先预分配,如果还不够,只好重分配。重分配就会产生垃圾,不过Java中有垃圾回收机制,可以回收无用的char数组所占用的内存
关键的问题是,如何确定创建新char数组的长度。先打算设置为源字符串的长度的两倍,如果不够,就设置为两个字符串合起来的长度,如果还有问题就设置为Integer.MAX_VALUE;
2、redis中的实现
redis中采用的是空间预分配的策略。可以减少内存重分配的次数,防止产生缓冲区异常(缓冲区溢出和泄漏)。
Redis中SDS的结构为:
Struct{
Int len;
Int free;
Char buf[];
}
结构中比Java多了一个free,即buf中还可以分配的字节的数量。
当SDS需要增加一段字符串,并且需要对SDS的空间进行扩展时,即free的已经不够用,那么程序在分配给SDS所必要的空间之外,还会额外分配一些空间,即每次增加字符串完毕之后,free都不会为0。和Java中不同,在Java中有可能count的值和char数组value的长度相同。这样在Java再次append字符串时,一定会再重新分配空间。
Redis中预分配空间的策略:
依据SDS的长度即len的值,分为两中情况。
1)、len的值小于1MB 时,那么程序就会分配给free也是len的值,即len==free。那么这个SDS中buf数组实际长度为len+free+1(用于保存空字符)
2)、len的值大于1MB时,即sdscat以后,总的len已经大于1MB,那么,这个时候只会分配给free 1MB了,而不是len的大小。即free的长度不会超过1MB。
3、Java的substring和sdstrim(减去一截字符串)实现相同,都是将所要保留的一部分重新copy到char数组中。
若有错误,请指出。