java应用中cache最常用的场合是:将程序或系统经常要调用的对象存在内存中,以便其使用时可以快速调用,不必再去创建新的重复的实例。这样做可以减少系统开销,提高系统效率。一般的用法就是把数据从数据库读到内存,然后之后的数据访问都从内存来读,从而减少对数据库的读取次数来提高效率。
使用cache时,不应涉及业务逻辑,而是单纯的为了提高程序效率。应该保证cache拿掉了程序也能运行,且结果正确!读访问远大于写访问的数据是适合作为cache的!因为写操作是针对数据库的,而读操作是针对cache的,经过一次写操作以后,数据库和cache的数据就会不一致,带来问题。
cache最基本的实现是用HashTable。cache的内存大小是有限的,当内存满时需要一种机制删除cache中旧的数据,其中就有3种机制:最近最少使用算法 Least Recently Used (LRU)、First In, First Out算法、使用次数最小算法 Least Frequently Used (LFU)。下面依次介绍:
一、最近最少使用算法 Least Recently Used (LRU)
这个算法就是把最近一次使用时间离现在时间最远的数据删除掉。常用的方法是HashTable + LinkedList,HashTable作为缓存容器,然后用LinkedList连接所有的entry,这样就实现了顺序,就可以通过一定的算法得到LRU了!
对于LRU cache,往往会有以下要求:
1. 假设Cache里面的 entry 都是按照序列保存的,那么,对于新的entry,我们把它放置在最前面。
2. 如果一个entry已经存在,我们再次访问到该entry的时候,我们需要把它放在cache的最前面。
3. 当cache满了的时候,需要把最后一个entry 从cache里面移除出去,然后再往里插入 entry。
4. 以上所有的操作复杂度必须为 O(1).
对于操作复杂度,一旦看到要求为O(1), 一般我们都会立刻想到 hashtable, 所以,为了实现“顺序”的要求,我们需要有一个链表来连接所有的entry. 所以,在实现时,我们将Cache的所有 entry 都用doubly linked list 连接起来,当一个 entry 被命中之后,就将通过调整链表的指向,将该位置调整到链表头的位置,新加入的Cache直接加到链表头中。这样,在多次进行Cache操作后,最近被命中的,就会被向链表头方向移动,而没有命中的,而想链表后面移动,链表尾则表示最近最少使用的Cache。当需要替换内容时候,链表的最后位置就是最少被命中的位置,我们只需要淘汰链表最后的部分即可。我们首先定义entry, 每一个entry包括键(key)和 值 (value),而且,每一个 entry 都带有两个指针分别指向它们的前一个和后一个 entry。
1 class Entry {
2 Entry prev;//前一节点
3 Entry next;//后一节点
4 Object value;//值
5 Object key;//键
6 }
hashtable里,我们需要保存该entry, 这个时候,我们用entry的键作为hashtable 里的键,而hashtable的值呢就是entry。
1 public class LRUCache {
2
3 private int cacheSize;
4 private Hashtable<Object, Entry> nodes;//缓存容器
5 private int currentSize;
6 private Entry first;//链表头
7 private Entry last;//链表尾
8
9 public LRUCache(int i) {
10 currentSize = 0;
11 cacheSize = i;
12 nodes = new Hashtable<Object, Entry>(i);//缓存容器
13 }
14
15 /**
16 * 获取缓存中对象,并把它放在最前面
17 */
18 public Entry get(Object key) {
19 Entry node = nodes.get(key);
20 if (node != null) {
21 moveToHead(node);
22 return node;
23 } else {
24 return null;
25 }
26 }
27
28 /**
29 * 添加 entry到hashtable, 并把entry
30 */
31 public void put(Object key, Object value) {
32 //先查看hashtable是否存在该entry, 如果存在,则只更新其value
33 Entry node = nodes.get(key);
34
35 if (node == null) {
36 //缓存容器是否已经超过大小.
37 if (currentSize >= cacheSize) {
38 nodes.remove(last.key);
39 removeLast();
40 } else {
41 currentSize++;
42 }
43 node = new Entry();
44 }
45 node.value = value;
46 //将最新使用的节点放到链表头,表示最新使用的.
47 moveToHead(node);
48 nodes.put(key, node);
49 }
50
51 /**
52 * 将entry删除, 注意:删除操作只有在cache满了才会被执行
53 */
54 public void remove(Object key) {
55 Entry node = nodes.get(key);
56 //在链表中删除
57 if (node != null) {
58 if (node.prev != null) {
59 node.prev.next = node.next;
60 }
61 if (node.next != null) {
62 node.next.prev = node.prev;
63 }
64 if (last == node)
65 last = node.prev;
66 if (first == node)
67 first = node.next;
68 }
69 //在hashtable中删除
70 nodes.remove(key);
71 }
72
73 /**
74 * 删除链表尾部节点,即使用最后 使用的entry
75 */
76 private void removeLast() {
77 //链表尾不为空,则将链表尾指向null. 删除连表尾(删除最少使用的缓存对象)
78 if (last != null) {
79 if (last.prev != null)
80 last.prev.next = null;
81 else
82 first = null;
83 last = last.prev;
84 }
85 }
86
87 /**
88 * 移动到链表头,表示这个节点是最新使用过的
89 */
90 private void moveToHead(Entry node) {
91 if (node == first)
92 return;
93 if (node.prev != null)
94 node.prev.next = node.next;
95 if (node.next != null)
96 node.next.prev = node.prev;
97 if (last == node)
98 last = node.prev;
99 if (first != null) {
100 node.next = first;
101 first.prev = node;
102 }
103 first = node;
104 node.prev = null;
105 if (last == null)
106 last = first;
107 }
108 /*
109 * 清空缓存
110 */
111 public void clear() {
112 first = null;
113 last = null;
114 currentSize = 0;
115 }
116
117 }
二、First In, First Out算法
算法是根据先进先出原理来淘汰数据的,实现上是最简单的一种,具体算法如下:
1. 新访问的数据插入FIFO队列尾部,数据在FIFO队列中顺序移动;
2. 淘汰FIFO队列头部的数据;
三、LFU(Least Frequently Used,最不经常使用)
算法根据数据的历史访问频率来淘汰数据,其原理是如果数据过去被访问次数越多,将来被访问的几概率相对比较高。LFU的每个数据块都有一个引用计数,所有数据块按照引用计数排序,具有相同引用计数的数据块则按照时间排序。
具体算法如下:
1. 新加入数据插入到队列尾部(因为引用计数为1);
2. 队列中的数据被访问后,引用计数增加,队列重新排序;
3. 当需要淘汰数据时,将已经排序的列表最后的数据块删除;
评价一个缓存算法好坏的标准主要有两个,一是命中率要高,二是算法要容易实现。当存在热点数据时,LRU的效率很好,但偶发性的、周期性的批量操作会导致LRU命中率急剧下降,缓存污染情况比较严重。LFU效率要优于LRU,且能够避免周期性或者偶发性的操作导致缓存命中率下降的问题。但LFU需要记录数据的历史访问记录,一旦数据访问模式改变,LFU需要更长时间来适用新的访问模式,即:LFU存在历史数据影响将来数据的“缓存污染”效用。FIFO虽然实现很简单,但是命中率很低,实际上也很少使用这种算法。