最近看 << Thinking in Java >>,发现Map 有一个很好地作用:计数!
举个例子:设Pet 有5个种类,包括 dog, cat, rat, mouse, pig。 List 集合随机添加不同的宠物,比如添加了100只,怎么统计这100 只宠物中,dog 有几只,cat 有几只...
实现代码:
public class PetCount {
static class PetCounter extends HashMap<String, Interger> {
public void count(String type) {
Integer quantity = get(type);
if (quantity == null)
put(type, 1);
else
put(type, quantity+1);
}
}
public static void countPets(PetCreator creator) {
PetCounter counter = new PetCounter();
for (Pet pet: creator.createArray(20)) {
if ((pet instanceof Dog)
counter.count("Dog");
if ((pet instanceof Cat)
counter.count("Cat");
if ((pet instanceof Rat)
counter.count("Rat");
if ((pet instanceof Mouse)
counter.count("Mouse");
if ((pet instanceof Pig)
counter.count("Pig");
}
}
}
这本是多年前一个stackoverflow上的一个讨论,回答中涉及到了多种计数方法。对于一个key-value结构的map,我们在编程时会经常涉及到key是对象,而value是一个integer或long来负责计数,从而统计多个key的频率。
面对这样一个基本需求,可能有很多种实现。比如最基本的使用jdk的map直接实现——value是一个integer或者long。其基本代码型如下:
1: final Map<String, Integer> freq = new HashMap<String, Integer>();
2: int count = ntainsKey(word) ? freq.get(word) : 0;
3: freq.put(word, count + 1);
逻辑简单,判断是否存在,是则get取值,否则为0,再put进去一个加1后的值。总共要contain判断,get,put做三次方法调用。
当然进一步我们可以把contain判断去掉,代码如下:
1: final Map<String, Integer> freq = new HashMap<String, Integer>();
2: Integer count = freq.get(word);
3: if (count == null) {
4: freq.put(word, 1);
5: } else {
6: freq.put(word, count + 1);
7: }
一般情况,我们做到这个地步,多数人对其逻辑已经满足,简单性能也能接受,试着想一下,难道不是这样吗?get加put,解决了。
当然这样的实现还不够高效,于是我们开始去尝试实现或寻找更高效的方法,看看开源的集合类库是否有需要的:
有个Trove,可以让我们参考一下:
1: final TObjectIntHashMap<String> freq = new TObjectIntHashMap<String>();
2: freq.adjustOrPutValue(word, 1, 1);
这样做,非常优雅啊,性能如何呢?不知道,需要看源码了解细节。那再看看大名鼎鼎的guava如何呢?
1: AtomicLongMap<String> map = AtomicLongMap.create();
2: map.getAndIncrement(word);
实现依然优雅,但是,但是看这名字,再看源码,好吧,线程安全的,支持并发,这不好搞了,我们场景需要吗?不需要的话直觉告诉我们这肯定是“慢”的。再找:
1: Multiset<String> bag = HashMultiset.create();
2: bag.add(word);
这个看上去合适了,bag的实现明显好很多,而且从语义理解上,这样的接口更容易让人理解。
那么这些方法,性能如何呢?
一般结论:单线程使用MutableInt,多线程使用guava的AtomicLongMap。