java basemapper 再多线程内速度上不去多线程使用map

转载

imking 2024-01-03 22:09:20

多线程下使用HashMap

如果在被问及：“HashMap是否线程安全，如何线程安全地使用HashMap?”，你会如何回答，以前的话我会这样回答：“HashMap是非线程安全的，如果要保证线程安全的话，就需要使用Hashtable。”但是经过最近的学习，我又了解到了ConcurrentHashMap和SyschronizedMap，其实这个问题的本质就是：HashMap、Hashtable、ConcurrentHashMap、SyschronizedMap的原理与区别。接下来我就总结一下的我的学习成果：

1. 为什么HashMap不安全？

我们大家总说HashMap不安全，那么它到底为什么不安全呢？首先来看看HashMap的实现，HashMap内部使用一个数组链表的方式来实现，使用的存储结构如下(基于JDK1.7)：

transient Entry<K,V>[] table ;
static class Entry<K,V> implements Map.Entry<K,V> {
        final K key;
        V value;
        Entry<K,V> next;
        int hash;
        ...
}

从源码中可以看出HashMap使用了一个Entry数组，而Entry类又包含一个类型为Entry的next变量，也就相当于是一个链表，所有根据 hash 值计算的 bucket 一样的 key 会存储到同一个链表里(即产生了冲突)，大概就是下图的样子：

java basemapper 再多线程内速度上不去多线程使用map_数组

HashMap的自动扩容机制

HashMap 内部的 Entry 数组默认的大小是16，假设有100万个元素，那么最好的情况下每个 hash 桶里都有62500个元素，这时get(),put(),remove()等方法效率都会降低。为了解决这个问题，HashMap 提供了自动扩容机制，当元素个数达到数组大小*loadFactor 后会扩大数组的大小，在默认情况下，数组大小为16，loadFactor 为0.75，也就是说当 HashMap 中的元素超过16\0.75=12时，会把数组大小扩展为2*16=32，并且重新计算每个元素在新数组中的位置。如下图所示:

java basemapper 再多线程内速度上不去多线程使用map_数组_02

为什么线程不安全

简单来说：假设两个线程同时进行put操作，并且两个put操作元素的key发生了碰撞(根据 hash 值计算的 bucket 一样)，那么根据 hashMap 的实现，这两个值将会添加到数组的同一个地方，那么就会有一个值被覆盖，因为造成了数据丢失，所以 HashMap 线程不安全，如下图示：

java basemapper 再多线程内速度上不去多线程使用map_数组_03

HashMap 中更为危险的是，HashMap 在并发执行扩容操作时会引起死循环，导致 CPU 利用率接近100%。因为多线程会导致 HashMap 的 Entry 链表形成环形数据结构，一旦形成环形数据结构，Entry 的 next 节点永远不为空，就会在获取 Entry 时产生死循环。形成环形链表的原因主要跟 JDK1.7 下 HashMap 发生碰撞后，链表是前序插入有关，后续文章会详细讲述。
具体更为细节方面的原因，大家可以自行查阅资料。

如何线程安全的使用HashMap

了解了 HashMap 为什么线程不安全，那现在看看如何线程安全的使用 HashMap。这个无非就是以下三种方式：

Hashtable
Sysnchronized Map
ConcurrentHashMap

Hashtable

首先，Hashtable 是将绝大部分方法都加上 synchronized 来保证线程安全的，由于绝大部分方法都同步，所以它的性能低下，是jdk1.0遗弃的类，不建议使用，部分源码如下：

java basemapper 再多线程内速度上不去多线程使用map_数组_04

Sysnchronized Map

Sysnchronized Map 和 Hashtable 相似，也是采用 synchronized 来保证线程安全的，唯一不同的是，SysnchronizedMap使用一个 Object 对象进行同步，并且它也没有被没遗弃，部分源码如下：

private static class SynchronizedMap<K,V>
        implements Map<K,V>, Serializable {

        private final Map<K,V> m;     // Backing Map
        final Object      mutex;
        ...

java basemapper 再多线程内速度上不去多线程使用map_数组_05

ConcurrentHashMap

ConcurrentHashMap 是 java.util.concurrent 包下的一个类，该包下拥有许多线程安全、测试良好、高性能的类，大家有兴趣可以去看看。同 Hashtable 相比，ConcurrentHashMap 不仅保证了访问的线程安全性，而且在效率上有较大的提高。ConcurrentHashMap 的数据结构图如下：

java basemapper 再多线程内速度上不去多线程使用map_线程安全_06

可以看出，相对 HashMap 和 Hashtable， ConcurrentHashMap 增加了Segment 层，每个 Segment 原理上等同于一个 Hashtable。

final Segment<K,V> segmentFor(int hash) {
        return segments[(hash >>> segmentShift) & segmentMask];
    }
public V put(K key, V value) {
        if (value == null)
            throw new NullPointerException();
        int hash = hash(key.hashCode());
        return segmentFor(hash).put(key, hash, value, false);
    }
public V get(Object key) {
        int hash = hash(key.hashCode());
        return segmentFor(hash).get(key, hash);
    }

向 ConcurrentHashMap 中插入数据或者读取数据，首先都要讲相应的 Key 映射到对应的 Segment，因此不用锁定整个类，只要对单个的 Segment 操作进行上锁操作就可以了。理论上如果有 n 个 Segment，那么最多可以同时支持 n 个线程的并发访问，从而大大提高了并发访问的效率。另外 rehash() 操作也是对单个的 Segment 进行的，所以由 Map 中的数据量增加导致的 rehash 的成本也是比较低的。

性能对比

孰优孰劣，空口无凭，下面的代码分别通过Hashtable、SynchronizedMap、ConcurrentHashMap三种方式创建 Map 对象，使用来并发运行5个线程，每个线程添加/获取500K个元素。

public class CrunchifyConcurrentHashMapVsSynchronizedMap {
    public final static int THREAD_POOL_SIZE = 5;
    public static Map<String, Integer> crunchifyHashTableObject = null;
    public static Map<String, Integer> crunchifySynchronizedMapObject = null;
    public static Map<String, Integer> crunchifyConcurrentHashMapObject = null;
    public static void main(String[] args) throws InterruptedException {
        // Test with Hashtable Object
        crunchifyHashTableObject = new Hashtable<>();
        crunchifyPerformTest(crunchifyHashTableObject);
        // Test with synchronizedMap Object
        crunchifySynchronizedMapObject = Collections.synchronizedMap(new HashMap<String, Integer>());
        crunchifyPerformTest(crunchifySynchronizedMapObject);
        // Test with ConcurrentHashMap Object
        crunchifyConcurrentHashMapObject = new ConcurrentHashMap<>();
        crunchifyPerformTest(crunchifyConcurrentHashMapObject);
    }
    public static void crunchifyPerformTest(final Map<String, Integer> crunchifyThreads) throws InterruptedException {
        System.out.println("Test started for: " + crunchifyThreads.getClass());
        long averageTime = 0;
        for (int i = 0; i < 5; i++) {
            long startTime = System.nanoTime();
            ExecutorService crunchifyExServer = Executors.newFixedThreadPool(THREAD_POOL_SIZE);
            for (int j = 0; j < THREAD_POOL_SIZE; j++) {
                crunchifyExServer.execute(new Runnable() {
                    @SuppressWarnings("unused")
                    @Override
                    public void run() {
                        for (int i = 0; i < 500000; i++) {
                            Integer crunchifyRandomNumber = (int) Math.ceil(Math.random() * 550000);
                            // Retrieve value. We are not using it anywhere
                            Integer crunchifyValue = crunchifyThreads.get(String.valueOf(crunchifyRandomNumber));
                            // Put value
                            crunchifyThreads.put(String.valueOf(crunchifyRandomNumber), crunchifyRandomNumber);
                        }
                    }
                });
            }
            // Make sure executor stops
            crunchifyExServer.shutdown();
            // Blocks until all tasks have completed execution after a shutdown request
            crunchifyExServer.awaitTermination(Long.MAX_VALUE, TimeUnit.DAYS);
            long entTime = System.nanoTime();
            long totalTime = (entTime - startTime) / 1000000L;
            averageTime += totalTime;
            System.out.println("2500K entried added/retrieved in " + totalTime + " ms");
        }
        System.out.println("For " + crunchifyThreads.getClass() + " the average time is " + averageTime / 5 + " ms\n");
    }
}

测试数据结果如下，可以明显看出HashTable、SynchronizedMap两者的效率接近，而ConcurrentHashMap的效率是明显比另外两者高的：

Test started for: class java.util.Hashtable
2500K entried added/retrieved in 4238 ms
2500K entried added/retrieved in 3806 ms
2500K entried added/retrieved in 3992 ms
2500K entried added/retrieved in 3725 ms
2500K entried added/retrieved in 4040 ms
For class java.util.Hashtable the average time is 3960 ms

Test started for: class java.util.Collections$SynchronizedMap
2500K entried added/retrieved in 5618 ms
2500K entried added/retrieved in 3759 ms
2500K entried added/retrieved in 3921 ms
2500K entried added/retrieved in 3626 ms
2500K entried added/retrieved in 3791 ms
For class java.util.Collections$SynchronizedMap the average time is 4143 ms

Test started for: class java.util.concurrent.ConcurrentHashMap
2500K entried added/retrieved in 2884 ms
2500K entried added/retrieved in 2272 ms
2500K entried added/retrieved in 2383 ms
2500K entried added/retrieved in 2221 ms
2500K entried added/retrieved in 3975 ms
For class java.util.concurrent.ConcurrentHashMap the average time is 2747 ms

PS: 写于 2018 年 6 月 6 日

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。