java HashMap可以存储重复数据吗

转载

bingfeng 2024-11-07 16:00:05

一：hashMap的原理

HashMap的主干是一个Entry数组。Entry是HashMap的基本组成单元，每一个Entry包含一个key-value键值对。

//HashMap的主干数组，可以看到就是一个Entry数组，初始值为空数组{}，主干数组的长度一定是2的次幂，至于为什么这么做，后面会有详细分析。
transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE;

Entry是HashMap中的一个静态内部类。代码如下：

   static class Entry<K,V> implements Map.Entry<K,V> {
        final K key;
        V value;
        Entry<K,V> next;//存储指向下一个Entry的引用，单链表结构
        int hash;//对key的hashcode值进行hash运算后得到的值，存储在Entry，避免重复计算

        /**
         * Creates new entry.
         */
        Entry(int h, K k, V v, Entry<K,V> n) {
            value = v;
            next = n;
            key = k;
            hash = h;
        }

所以，HashMap的整体结构如下

java HashMap可以存储重复数据吗_链表

简单来说，HashMap由数组+链表组成的，数组是HashMap的主体，链表则是主要为了解决哈希冲突而存在的，如果定位到的数组位置不含链表（当前entry的next指向null）,那么对于查找，添加等操作很快，仅需一次寻址即可；如果定位到的数组包含链表，对于添加操作，其时间复杂度为O(n)，首先遍历链表，存在即覆盖，否则新增；对于查找操作来讲，仍需遍历链表，然后通过key对象的equals方法逐一比对查找。所以，性能考虑，HashMap中的链表出现越少，性能才会越好。

其他几个重要字段

//实际存储的key-value键值对的个数
 transient int size;
 //阈值，当table == {}时，该值为初始容量（初始容量默认为16）；当table被填充了，也就是为table分配内存空间后，threshold一般为 capacity*loadFactory。HashMap在进行扩容时需要参考threshold，后面会详细谈到
 int threshold;
 //负载因子，代表了table的填充度有多少，默认是0.75
 final float loadFactor;
 //用于快速失败，由于HashMap非线程安全，在对HashMap进行迭代时，如果期间其他线程的参与导致HashMap的结构发生变化了（比如put，remove等操作），需要抛出异常ConcurrentModificationException
 transient int modCount;HashMap有4个构造器，其他构造器如果用户没有传入initialCapacity 和loadFactor这两个参数，会使用默认值
initialCapacity默认为16，loadFactory默认为0.75
我们看下其中一个
public HashMap(int initialCapacity, float loadFactor) {
 //此处对传入的初始容量进行校验，最大不能超过MAXIMUM_CAPACITY = 1<<30(230)
         if (initialCapacity < 0)
             throw new IllegalArgumentException("Illegal initial capacity: " +
                                                initialCapacity);
         if (initialCapacity > MAXIMUM_CAPACITY)
             initialCapacity = MAXIMUM_CAPACITY;
         if (loadFactor <= 0 || Float.isNaN(loadFactor))
             throw new IllegalArgumentException("Illegal load factor: " +
                                                loadFactor);        this.loadFactor = loadFactor;
         threshold = initialCapacity;        init();//init方法在HashMap中没有实际实现，不过在其子类如 linkedHashMap中就会有对应实现
     }      从上面这段代码我们可以看出，在常规构造器中，没有为数组table分配内存空间（有一个入参为指定Map的构造器例外），而是在执行put操作的时候才真正构建table数组
　　OK,接下来我们来看看put操作的实现吧
public V put(K key, V value) {
         //如果table数组为空数组{}，进行数组填充（为table分配实际内存空间），入参为threshold，此时threshold为initialCapacity 默认是1<<4(24=16)
         if (table == EMPTY_TABLE) {
             inflateTable(threshold);
         }
        //如果key为null，存储位置为table[0]或table[0]的冲突链上
         if (key == null)
             return putForNullKey(value);
         int hash = hash(key);//对key的hashcode进一步计算，确保散列均匀
         int i = indexFor(hash, table.length);//获取在table中的实际位置
         for (Entry<K,V> e = table[i]; e != null; e = e.next) {
         //如果该对应数据已存在，执行覆盖操作。用新value替换旧value，并返回旧value
             Object k;
             if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
                 V oldValue = e.value;
                 e.value = value;
                 e.recordAccess(this);
                 return oldValue;
             }
         }
         modCount++;//保证并发访问时，若HashMap内部结构发生变化，快速响应失败
         addEntry(hash, key, value, i);//新增一个entry
         return null;
     } 先来看看inflateTable这个方法
private void inflateTable(int toSize) {
         int capacity = roundUpToPowerOf2(toSize);//capacity一定是2的次幂
         threshold = (int) Math.min(capacity * loadFactor, MAXIMUM_CAPACITY + 1);//此处为threshold赋值，取capacity*loadFactor和MAXIMUM_CAPACITY+1的最小值，capaticy一定不会超过MAXIMUM_CAPACITY，除非loadFactor大于1
         table = new Entry[capacity];
         initHashSeedAsNeeded(capacity);
     }       inflateTable这个方法用于为主干数组table在内存中分配存储空间，通过roundUpToPowerOf2(toSize)可以确保capacity为大于或等于toSize的最接近toSize的二次幂，比如toSize=13,则capacity=16;to_size=16,capacity=16;to_size=17,capacity=32.
private static int roundUpToPowerOf2(int number) {
         // assert number >= 0 : "number must be non-negative";
         return number >= MAXIMUM_CAPACITY
                 ? MAXIMUM_CAPACITY
                 : (number > 1) ? Integer.highestOneBit((number - 1) << 1) : 1;
     }roundUpToPowerOf2中的这段处理使得数组长度一定为2的次幂，Integer.highestOneBit是用来获取最左边的bit（其他bit位为0）所代表的数值.
hash函数
//这是一个神奇的函数，用了很多的异或，移位等运算，对key的hashcode进一步进行计算以及二进制位的调整等来保证最终获取的存储位置尽量分布均匀
 final int hash(Object k) {
         int h = hashSeed;
         if (0 != h && k instanceof String) {
             return sun.misc.Hashing.stringHash32((String) k);
         }        h ^= k.hashCode();
        h ^= (h >>> 20) ^ (h >>> 12);
         return h ^ (h >>> 7) ^ (h >>> 4);
     }以上hash函数计算出的值，通过indexFor进一步处理来获取实际的存储位置
/**
      * 返回数组下标
      */
     static int indexFor(int h, int length) {
         return h & (length-1);
     }

h&（length-1）保证获取的index一定在数组范围内，举个例子，默认容量16，length-1=15，h=18,转换成二进制计算为

1  0  0  1  0
    &   0  1  1  1  1
    __________________
        0  0  0  1  0    = 2

　最终计算出的index=2。有些版本的对于此处的计算会使用取模运算，也能保证index一定在数组范围内，不过位运算对计算机来说，性能更高一些（HashMap中有大量位运算）

所以最终存储位置的确定流程是这样的：

java HashMap可以存储重复数据吗_链表_02

再来看看addEntry的实现：

void addEntry(int hash, K key, V value, int bucketIndex) {
        if ((size >= threshold) && (null != table[bucketIndex])) {
            resize(2 * table.length);//当size超过临界阈值threshold，并且即将发生哈希冲突时进行扩容
            hash = (null != key) ? hash(key) : 0;
            bucketIndex = indexFor(hash, table.length);
        }

createEntry(hash, key, value, bucketIndex);
}

通过以上代码能够得知，当发生哈希冲突并且size大于阈值的时候，需要进行数组扩容，扩容时，需要新建一个长度为之前数组2倍的新的数组，然后将当前的Entry数组中的元素全部传输过去，扩容后的新数组长度为之前的2倍，所以扩容相对来说是个耗资源的操作。

二：hashMap中用到的方法（HashMap实现原理）

（1）get方法

public V get(Object key) {

Node<K,V> e;

return (e = getNode(hash(key), key)) == null ? null : e.value;

}

1）先从数组下标，找到对应的Node

2）如果Node里的第一个节点命中，直接返回

3）如果有冲突，则通过key.equals(k)去查找对应的entry

若为树，则在树中通过key.equals(k)查找，O(logn)；

若为链表，则在链表中通过key.equals(k)查找，O(n)。

（2）put方法

这个中间涉及的逻辑多一些，方法需要分不同的步骤看。
思路：

对key的hashCode()做hash，然后再计算index;
如果没碰撞直接放到bucket里；
如果碰撞了，以链表的形式存在buckets后；

如果节点已经存在就替换old value(保证key的唯一性)
如果碰撞导致链表过长(大于等于TREEIFY_THRESHOLD)，就把链表转换成红黑树；

如果Node的容量满了(超过load factor*current capacity)，就要resize。

（3）resize方法

这个涉及的内容，有不少线需要捋一捋。首先看申明时候会resize()。它们都在调用put的时候执行的

三：hash冲突如何解决

（1）Hash函数

　　非哈希表的特点：关键字在表中的位置和它之间不存在一个确定的关系，查找的过程为给定值一次和各个关键字进行比较，查找的效率取决于和给定值进行比较的次数。

哈希表的特点：关键字在表中位置和它之间存在一种确定的关系。

　　哈希函数：一般情况下，需要在关键字与它在表中的存储位置之间建立一个函数关系，以f(key)作为关键字为key的记录在表中的位置，通常称这个函数f(key)为哈希函数。

hash : 翻译为“散列”，就是把任意长度的输入，通过散列算法，变成固定长度的输出，该输出就是散列值。

这种转换是一种压缩映射，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来唯一的确定输入值。

简单的说就是一种将任意长度的消息压缩到莫伊固定长度的消息摘要的函数。

hash冲突：就是根据key即经过一个函数f(key)得到的结果的作为地址去存放当前的key value键值对(这个是hashmap的存值方式)，但是却发现算出来的地址上已经有人先来了。就是说这个地方被抢了啦。这就是所谓的hash冲突啦。

（2）哈希函数处理冲突的方法

　　1）.开放定址法：

java HashMap可以存储重复数据吗_链表_03

其中 m 为表的长度

　　　　对增量di有三种取法：

　　　　线性探测再散列 di = 1 , 2 , 3 , ... , m-1

　　　　平方探测再散列 di = 1 2 , -2 , 4 , -4 , 8 , -8 , ... , k的平方 , -k平方

　　　　随机探测再散列 di 是一组伪随机数列

java HashMap可以存储重复数据吗_数组_04

　 2）.链地址法

　　这种方法的基本思想是将所有哈希地址为i的元素构成一个称为同义词链的单链表，并将单链表的头指针存在哈希表的第i个单元中，因而查找、插入和删除主要在同义词链中进行。链地址法适用于经常进行插入和删除的情况。

java HashMap可以存储重复数据吗_数组_05

3）.再哈希

　　　　这种方法是同时构造多个不同的哈希函数：

　　Hi=RH1（key） i=1，2，…，k

　　当哈希地址Hi=RH1（key）发生冲突时，再计算Hi=RH2（key）……，直到冲突不再产生。这种方法不易产生聚集，但增加了计算时间。

　　4）.建立公共溢出区

这种方法的基本思想是：将哈希表分为基本表和溢出表两部分，凡是和基本表发生冲突的元素，一律填入溢出表

HashMap的Hash冲突处理办法

　　hashmap出现了Hash冲突的时候采用第二种办法：链地址法。

代码示例：

　　有一个”国家”(Country)类，我们将要用Country对象作为key，它的首都的名字（String类型）作为value。下面的例子有助于我们理解key-value对在HashMap中是如何存储的。

public class Country {
     String name;
     long population;
     public Country(String name, long population) {
         super();
         this.name = name;
         this.population = population;
     }
     public String getName() {
         return name;
     }
     public void setName(String name) {
         this.name = name;
     }
     public long getPopulation() {
         return population;
     }
     public void setPopulation(long population) {
         this.population = population;
     }
     // If length of name in country object is even then return 31(any random
     // number) and if odd then return 95(any random number).
     // This is not a good practice to generate hashcode as below method but I am
     // doing so to give better and easy understanding of hashmap.
     @Override
     public int hashCode() {
         if (this.name.length() % 2 == 0)
             return 31;
         else
             return 95;
     }
     @Override
     public boolean equals(Object obj) {
         Country other = (Country) obj;
         if (name.equalsIgnoreCase((other.name)))
             return true;
         return false;
     }}
public class HashMapStructure {
    public static void main(String[] args) {
         Country india = new Country("India", 1000);
         Country japan = new Country("Japan", 10000);
         Country france = new Country("France", 2000);
         Country russia = new Country("Russia", 20000);        HashMap<Country, String> countryCapitalMap = new HashMap<Country, String>();
         countryCapitalMap.put(india, "Delhi");
         countryCapitalMap.put(japan, "Tokyo");
         countryCapitalMap.put(france, "Paris");
         countryCapitalMap.put(russia, "Moscow");        Iterator<Country> countryCapitalIter = countryCapitalMap.keySet().iterator();// put debug point at this line
         while (countryCapitalIter.hasNext()) {
             Country countryObj = countryCapitalIter.next();
             String capital = countryCapitalMap.get(countryObj);
             System.out.println(countryObj.getName() + "----" + capital);
         }
     }

}

在注释处加入debug，可以通过watch查看countryCapitalMap的结构：

java HashMap可以存储重复数据吗_ci_06

从上图可以观察到以下几点：

1）有一个叫做table大小是16的Entry数组。

2）这个table数组存储了Entry类的对象。HashMap类有一个叫做Entry的内部类。这个Entry类包含了key-value作为实例变量。我们来看下Entry类的结构。Entry类的结构：　

static class Entry implements Map.Entry{
         final K key;
         V value;
         Entry next;
         final int hash;
         ...//More code goes here
 }

1).每当往hashmap里面存放key-value对的时候，都会为它们实例化一个Entry对象，这个Entry对象就会存储在前面提到的Entry数　　组table中。现在你一定很想知道，上面创建的Entry对象将会存放在具体哪个位置（在table中的精确位置）。答案就是，根据key的　　　　　hashcode()方法计算出来的hash值（来决定）。hash值用来计算key在Entry数组的索引。

　　　　 2).现在，如果你看下上图中数组的索引15，它有一个叫做HashMap$Entry的Entry对象。

　　　　3).我们往hashmap放了4个key-value对，但是看上去好像只有1个元素！！！这是因为，如果两个元素有相同的hashcode，它们会　　被放在同一个索引上。问题出现了，该怎么放呢？原来它是以链表(LinkedList)的形式来存储的(逻辑上)。因此他们都在hash值为15的位置　　上存着了，然后把多个Entry，用next进行链接。

本文章为转载内容，我们尊重原作者对文章享有的著作权。如有内容错误或侵权问题，欢迎原作者联系我们进行内容更正或删除文章。