redis6.0.5之lzf阅读笔记2--压缩
********************************************************************************************************************
#include "lzfP.h"

#define HSIZE (1 << (HLOG))
********************************************************************************************************************
/*
 * don't play with this unless you benchmark!
 * the data format is not dependent on the hash function.
 * the hash function might seem strange, just believe me,
 * it works ;)
不要修改这个,除非你做基准测试。这个数据格式不是依赖于hash函数。
hash函数看山去会比较奇怪,但是相信我,它能工作!
 */
#ifndef FRST
# define FRST(p) (((p[0]) << 8) | p[1])
# define NEXT(v,p) (((v) << 8) | p[2])
# if ULTRA_FAST
#  define IDX(h) ((( h             >> (3*8 - HLOG)) - h  ) & (HSIZE - 1))
# elif VERY_FAST
#  define IDX(h) ((( h             >> (3*8 - HLOG)) - h*5) & (HSIZE - 1))
# else
#  define IDX(h) ((((h ^ (h << 5)) >> (3*8 - HLOG)) - h*5) & (HSIZE - 1))
# endif
#endif
/*
 * IDX works because it is very similar to a multiplicative hash, e.g.
 * ((h * 57321 >> (3*8 - HLOG)) & (HSIZE - 1))
 * the latter is also quite fast on newer CPUs, and compresses similarly.
 *
 * the next one is also quite good, albeit slow ;)
 * (int)(cos(h & 0xffffff) * 1e6)
 */

#if 0   不想用的代码
/* original lzv-like hash function, much worse and thus slower */
原始的类lzv哈希行数,更差,因此更慢(这里就不用了)
# define FRST(p) (p[0] << 5) ^ p[1]
# define NEXT(v,p) ((v) << 5) ^ p[2]
# define IDX(h) ((h) & (HSIZE - 1))
#endif

#define        MAX_LIT        (1 <<  5)
#define        MAX_OFF        (1 << 13)
#define        MAX_REF        ((1 << 8) + (1 << 3))

#if __GNUC__ >= 3     GCC3.0以上
# define expect(expr,value)         __builtin_expect ((expr),(value))  用于优化编译后的代码
# define inline                     inline
#else
# define expect(expr,value)         (expr)
# define inline                     static
#endif

#define expect_false(expr) expect ((expr) != 0, 0)
#define expect_true(expr)  expect ((expr) != 0, 1)

/*
 * compressed format  压缩格式
 *
 * 000LLLLL <L+1>    ; literal, L+1=1..33 octets  
 不压缩的格式,最长可以表示32个不压缩字节,这里33应该为笔误
 * LLLooooo oooooooo ; backref L+2=3..8 octets, o+1=1..4096 offset 
 压缩格式,短序列重复 这里4096也不对,应该为8192,
 对于一个字符的重复不压缩,又因为LLL不能为0,否则会和不压缩的格式混淆,所以取值为1到6,加上2 ,也就是从3到8
 因为如果只是压缩两个字节,没有任何意义,用原字符表示也只需两个字节,没有减少长度
 * 111ooooo LLLLLLLL oooooooo ; backref L+9 octets, o+1=1..4096 offset 
 压缩格式, 长序列重复, 这里也是8192, 这里从9开始,因为短的(2到8)在上面已经包括了,最长为 2^8-1 + 9 = 263字节
 *
 */
********************************************************************************************************************
unsigned int
lzf_compress (const void *const in_data, unsigned int in_len,
          void *out_data, unsigned int out_len
#if LZF_STATE_ARG
              , LZF_STATE htab
#endif
              )
{
#if !LZF_STATE_ARG
  LZF_STATE htab;
#endif
  const u8 *ip = (const u8 *)in_data;  初始化指向数据的指针
        u8 *op = (u8 *)out_data;  指向输出数据开始的指针
  const u8 *in_end  = ip + in_len;  指向输入数据的结尾
        u8 *out_end = op + out_len; 指向输出数据的结尾
  const u8 *ref;

  /* off requires a type wide enough to hold a general pointer difference.
  off需要一个足够宽的类型来保存一个不同的指针
   * ISO C doesn't have that (size_t might not be enough and ptrdiff_t only
   * works for differences within a single object). We also assume that no
   * no bit pattern traps. Since the only platform that is both non-POSIX
   * and fails to support both assumptions is windows 64 bit, we make a
   * special workaround for it.
ISO C 没有这样的类型(size_t可能大小,ptrdiff_t只是对单一对象的差值),
我们假定没有位模式陷阱。 因此唯一一个既不支持POSIX模式也不支持上述两种假设的平台是64位的windows,
所以我们为它采用了一个特殊的解决方案
   */
#if defined (WIN32) && defined (_M_X64)   64位的windos平台
  unsigned _int64 off; /* workaround for missing POSIX compliance */  不兼容POSIX的解决方案
#else
  unsigned long off;
#endif
  unsigned int hval;
  int lit;

  if (!in_len || !out_len)  没有输入或输出,直接退出
    return 0;

#if INIT_HTAB
  memset (htab, 0, sizeof (htab));  
  -- 初始化hash表,这里sizeof (htab)的大小为2^16 * 4   sizeof(unsigned int) = 4 个字节
  -- typedef unsigned int LZF_HSLOT; typedef LZF_HSLOT LZF_STATE[1 << (HLOG)];  HLOG = 16
#endif

  lit = 0; op++; /* start run */

  hval = FRST (ip);  获取前面的2个字节的数据
  while (ip < in_end - 2)  如果指针ip指向比结尾少2个字节位置,则循环继续,这两个字节就是上面一开始就获取的hval
    {
      LZF_HSLOT *hslot;  

      hval = NEXT (hval, ip); 获取接下来的第三个字节,三个字节组成一个数
      hslot = htab + IDX (hval);  定位到hash表的槽
      
      ref = *hslot + LZF_HSLOT_BIAS;  
      指向引用的连续两个同样字符的位置,刚开始的时候为空,即*hslot中的值为0,ref指向传入数据开始位置
      
      *hslot = ip - LZF_HSLOT_BIAS;  
      赋值新的字符串hash值的位置 给 hash表中对应槽的内容,这样下一次再进来的时候ref指向就有值了

      if (1
#if INIT_HTAB
          && ref < ip /* the next test will actually take care of this, but this is faster */ 
          下一个测试会实际的解决这个问题,但是这个更快
#endif
          && (off = ip - ref - 1) < MAX_OFF
          && ref > (u8 *)in_data   因为初始化的时候全部是这个初始值,这个判断表示是初始值,不用进行下一步对比
          && ref[2] == ip[2]
#if STRICT_ALIGN
          && ((ref[1] << 8) | ref[0]) == ((ip[1] << 8) | ip[0])
#else
          && *(u16 *)ref == *(u16 *)ip
#endif
        )
        {
          /* match found at *ref++ */  在*ref++找到匹配项
          unsigned int len = 2;
          unsigned int maxlen = in_end - ip - len;
          maxlen = maxlen > MAX_REF ? MAX_REF : maxlen;  

          if (expect_false (op + 3 + 1 >= out_end)) /* first a faster conservative test */ 首先是更快的保守测试
            if (op - !lit + 3 + 1 >= out_end) /* second the exact but rare test */ 期次是精确而稀少的测试
              return 0;

          op [- lit - 1] = lit - 1; /* stop run */ 有新的匹配,需要将之前的非压缩字符保存起来
          op -= !lit; /* undo run if length is zero */ 如果非压缩字符长度为0,那么就回退一个字节,长度为0不需要记录

          for (;;) 开始对匹配的长度进行统计
            {
              if (expect_true (maxlen > 16))
                {
                  len++; if (ref [len] != ip [len]) break; 
                  因为匹配的长度至少为3,所以先加1到3,在进行比较下一个
                  
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;

                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;

                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;

                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                  len++; if (ref [len] != ip [len]) break;
                }

              do
                len++;  因为匹配的长度至少为3,所以先加1到3,在进行比较下一个,直到不相等为止
              while (len < maxlen && ref[len] == ip[len]);

              break;
            }

          len -= 2; /* len is now #octets - 1 */  这里的长度为实际字节数减2
          ip++;  指向相等开始的下一个字符

          if (len < 7)  长度小于7,那么使用第一种压缩格式
            {
              *op++ = (off >> 8) + (len << 5);  这里表示将偏移量向后移动8位,保留前面几位,最高三位表示长度
            }
          else
            {
              *op++ = (off >> 8) + (  7 << 5); 
              这里的7 << 5 就是将最高三位设置为111,标志是长序列重复压缩,将偏移量的高位设置和标志在同一字节
              *op++ = len - 7;  将长度再减去7,进行保存(所以总的长度应该加上9)
            }

          *op++ = off;  将off低字节的值赋给下一个输出字节

          lit = 0; op++; /* start run */ 开启下一段的压缩

          ip += len + 1; 这里需要加上实际的长度,因为前面已经ip++了,所以  即只需要加 len+1 即可

          if (expect_false (ip >= in_end - 2))   (ip >= in_end - 2)  为假的概率高,所以用expect_false,提高程序效率
            break;
            
#if ULTRA_FAST || VERY_FAST 如果是超级快或者非常快,那么向后回退一格
          --ip;
# if VERY_FAST && !ULTRA_FAST  如果是非常快但不是超级快,再向后回退一格
          --ip;
# endif
这里目的是记录不同的字符的hash值,跳过就记录的少一点,超级快和非常快只差一格
所以超级快只有一个hash值,回退了一个字符
          hval = FRST (ip); 

          hval = NEXT (hval, ip);
          htab[IDX (hval)] = ip - LZF_HSLOT_BIAS;
          ip++;  加一个回去

# if VERY_FAST && !ULTRA_FAST  
但是非常快回退了两个字符,需要再记录一个hash值
          hval = NEXT (hval, ip);
          htab[IDX (hval)] = ip - LZF_HSLOT_BIAS;
          ip++;  再加一个回去,指向原先压缩之后的第一个字符
# endif
#else
    平常情况,需要把这一路上的hash值全部记录下来,这样能压缩的会更多
          ip -= len + 1;            
          do
            {
              hval = NEXT (hval, ip);
              htab[IDX (hval)] = ip - LZF_HSLOT_BIAS;
              ip++;
            }
          while (len--);
#endif
        }
      else
        {
          /* one more literal byte we must copy */ 我们必须再复制一个文本字节,输出第一个字节是用来表示原文标志的000LLLLL
          if (expect_false (op >= out_end)) 当超出输出结尾长度时,退出, (大部分情况下是假的)
            return 0;

          lit++; *op++ = *ip++;   刚开始的时候,肯定没有相等的,所以lit(原字节)加1, 输出采用原来字节

          if (expect_false (lit == MAX_LIT))  如果原字节的长度已经超过定义的最大长度32,那么结束这段序列,开始下一段
            {
              op [- lit - 1] = lit - 1; /* stop run */  
              负指针,向后回退lit个字节,-1是当前位置,再向前回退lit个字节,然后在这个位置写上长度值
              lit = 0; op++; /* start run */开始新的一段
            }
        }
    }
  此处最多可缺少3个字节没有被处理,否则压缩结果长度超出太多,表示输出的缓存不够大
  if (op + 3 > out_end) /* at most 3 bytes can be missing here */   
    return 0;

  while (ip < in_end)
    {
      lit++; *op++ = *ip++; 挨个往后赋值,从ip赋值给op,lit计数

      if (expect_false (lit == MAX_LIT)) 如果到最大计数,那么重新再来
        {
          op [- lit - 1] = lit - 1; /* stop run */
          lit = 0; op++; /* start run */
        }
    }

  op [- lit - 1] = lit - 1; /* end run */ 结束最后的非压缩段
  op -= !lit; /* undo run if length is zero */ 长度为0就撤销

  return op - (u8 *)out_data; 返回最后压缩的长度
}
*********************************************************************************************************************
花了3天的时间熟悉这个lzf算法,因为给出的网页(http://liblzf.plan9.de/)不能访问,所以主要根据代码debug来验证所想
前面的部分程序说明是过时或有笔误的,特别是对压缩格式的说明,先重新说明如下:
LZF压缩格式分为三种:
1原文表示
前面的000表示压缩格式,000是指原文,LLLLL表示原文的长度,这里默认需要加1
000LLLLL <L+1>    ; literal, L+1=1..33 octets  
不压缩的格式,最长可以表示32个不压缩字节,这里33应该为笔误
 
2短序列重复
这种格式是对于短序列的重复,为什么要设置这种格式,因为实际中短序列重复是比较多的,
如果也和长序列重复一样采用三个字节代价太高,所以这里采用了两个字节的压缩方式。
前面的三位LLL表示长度,后面是原字节的偏移量,就是当前位置和原字符串所在的位置的差值
 * LLLooooo oooooooo ; backref L+2=3..8 octets, o+1=1..4096 offset 
这里4096也估计也不对,应该为8192,
 对于一个字符的重复不压缩,又因为LLL不能为0,原文格式已经占用,也不能为111,因为111是长序列格式,
所以取值为1到6,加上2 ,也就是从3到8
 
这里需要说明 :因为如果只是压缩两个字节,没有任何意义,用原字符表示也只需两个字节,没有减少长度,
所以压缩的长度至少从3开始
 
3长序列重复(超过8个字节重复) 
111是长序列压缩的格式,后面5位和下下个字节一起组成偏移量,长度的则在下一个字节
111ooooo LLLLLLLL oooooooo ; backref L+9 octets, o+1=1..4096 offset 
压缩格式, 长序列重复, 这里也是8192, 
这里从9开始,因为短的(2到8)在上面已经包括了,最长为 2^8-1 + 9 = 264字节


整体的核心算法如下:

根据输入的数据,按每3个字节进行对比,如果后续的3个字节和前面的3个字节出现重复(3个字节是最短的有利于压缩的长度),
那么就可以继续对比第4个字节,依次往下,直到不等为止。
这部分数据就可以用前面的数据来表示(需要记录从哪里开始,长度是多少,这两个关键要素),
对于不重复的数据,那么需要将其原本记录下来,供后面输入的数据进行对比使用。

那么如何判别是否出现过重复的数据: 这里使用了一个3字节的hash映射,如果出现同样的三字节,那么映射值也必相等,
就可以从这个HASH映射中获取前面出现过的数据进行记录。 当然这里hash映射值会进行动态的调整,总是最近的一个引用值。
这个保证了引用的总是举例自己最近的重复数据
具体说明见源码解释。

*********************************************************************************************************************