HashMap源码解释

HashMap


前言:
本文的hashMap是基于jdk1.7的hashMap.
关于jdk1.8的hashMap在另一篇中,那里将会介绍与1.7的差异与优势

首先基础知识介绍:

1.HashMap的成员变量
  int DEFAULT_INITIAL_CAPACITY = 16:默认的初始容量为2 ^ 4
  int MAXIMUM_CAPACITY = 1 << 30:最大的容量为 2 ^ 30
  float DEFAULT_LOAD_FACTOR = 0.75f:默认的加载因子为 0.75f
  Entry< K,V>[] table:Entry类型的数组,HashMap用这个来维护内部的数据结构,它的长度由容量决定
  int size:HashMap的大小
  int threshold:HashMap的极限容量,扩容临界点(容量和加载因子的乘积),默认为12

2.HashMap的构造函数
  public HashMap():构造一个具有默认初始容量 (16) 和默认加载因子 (0.75) 的空 HashMap
  public HashMap(int initialCapacity):构造一个带指定初始容量和默认加载因子 (0.75) 的空 HashMap
  public HashMap(int initialCapacity, float loadFactor):构造一个带指定初始容量和加载因子的空 HashMap
  public HashMap(Map< ? extends K, ? extends V> m):构造一个映射关系与指定 Map 相同的新 HashMap
  
3.HashMap的数据结构
要知道hashmap是什么,首先要搞清楚它的数据结构,在java编程语言中,最基本的结构就是两种,一个是数组,另外一个是模拟指针(引用),所有的数据结构都可以用这两个基本结构来构造的,hashmap也不例外。Hashmap实际上是一个数组和链表的结合体(在数据结构中,一般称之为“链表散列“),请看下图(纵排表示数组,横排表示数组元素【实际上是一个链表】)。
hash
从图中我们可以看到一个hashmap就是一个数组结构,当新建一个hashmap的时候,就会初始化一个数组。

4.hashMap的put逻辑
首先put有两个入参,我们拟定叫k和v,
提前申明上图中的纵列,我们也叫hash表,也称table,table[index]表示下标为index的bucket(这里的bucket可能是多个entry,比如上图的第一行,有4个)
1).根据k算出hash值(这个hash方法,可以说是整个hashMap的精华所在,后面讲)
2).根据这个hash值,算出index下标(这里算的地方很巧妙,Entry数组的大小规定为2的幂就是为了能够使用这个算法来确定数组的下标,具体实现后面讲)
3).如果找不到该下标对应的entry,就新建一个entry(新建entry涉及到扩容,后面讲)
4),如果找到了该下标,就在对应的多个entry中找对应k的entry,找到就替换这个entry的value,找不到就新建一个entry
注意:hash表的初始化过程,并不是在new HashMap的时候执行的,而是在第一次push的时候执行的

5.hash表的初始化
初始化方法内部会重新计算Entry数组的容量,因为在构造HashMap时传入的初始化大小可能不是2的幂(前面有提到,hashMap的构造函数,忘了快去看…),因此要将这个数转换成2的幂再去根据新的容量新建Entry数组。初始化哈希表时再次重新设置阀值,阀值一般是capacity*loadFactor。
此外,在初始化哈希表时还会去初始化哈希种子(hashSeed),这个hashSeed用于优化哈希函数,默认为0是不使用替代哈希算法,但是也可以自己去设置hashSeed的值,以达到优化效果。

6.entry新建与扩容
新建一个Entry之前会先判断当前集合元素的大小是否超过了阀值,如果超过了阀值就调用resize进行扩容。传入的新的容量是原来哈希表的两倍,在resize方法内部会新建一个容量为原先的2倍的Entry数组。然后将旧的哈希表里面的元素全部迁移到新的哈希表,其中可能会进行再哈希,根据initHashSeedAsNeeded方法计算的值来确定是否进行再哈希。完成哈希表的迁移之后,将当前哈希表替换为新的,最后再根据新的哈希表容量来重新计算HashMap的阀值。

7.如何根据hash值,算出index下标
indexFor方法是根据hash码来计算出在数组中对应的下标。我们可以看到在这个方法内部使用了与(&)操作符。与操作是对两个操作数进行位运算,如果对应的两个位都为1,结果才为1,否则为0。与操作经常会用于去除操作数的高位值,例如:01011010 & 00001111 = 00001010。

//返回哈希码对应的数组下标
static int indexFor(int h, int length) {
    return h & (length-1);
}

与操作
已知传入的length是Entry数组的长度,我们知道数组下标是从0开始计算的,所以数组的最大下标为length-1.如果length为2的幂,那么length-1的二进制位后面都为1.这时h&(length-1)的作用就是去掉了h的高位值,只留下h的低位值来作为数组的下标.由此可以看到Entry数组的大小规定为2的幂就是为了能够使用这个算法来确定数组的下标.

8.计算hash
这个先上源码

final int hash(Object k) {
        int h = hashSeed;
        if (0 != h && k instanceof String) {
            return sun.misc.Hashing.stringHash32((String) k);
        }
        h ^= k.hashCode();
        h ^= (h >>> 20) ^ (h >>> 12);
        return h ^ (h >>> 7) ^ (h >>> 4);
    }

hash方法的最后两行是真正计算hash值的算法,计算hash码的算法被称为扰动函数,所谓的扰动函数就是把所有东西杂糅到一起,可以看到这里使用了四个向右移位运算.目的就是将h的高位值与低位值混合一下,以此增加低位值的随机性.在上面我们知道定位数组的下标是根据hash码的低位值来确定的.key的hash码是通过hashCode方法来生成的,而一个糟糕的hashCode方法生成的hash码的低位值可能会有很大的重复.为了使得hash码在数组上映射的比较均匀,扰动函数就派上用场了,把高位值的特性糅合进低位值,增加低位值的随机性,从而使散列分布的更加松散,以此提高性能.下图举了个例子帮助理解.
这里写图片描述

9.hashMap的get逻辑
1).如果key为null,求null键
2).调用hash(key)求得key的hash值,然后调用indexFor(hash)求得hash值对应的table的索引位置,然后遍历索引位置的链表,如果存在key,则把key对应的Entry返回,否则返回null
注意:这里经常会有人问:如果两个key的hashcode一样,那么会怎么取.其实只要记住,相同的hashcode的entry会放在同一个位置,这个位置可能会有多个entry形成链表,每个entry存储key,value值,所以再用key找到对应的entry,就能拿到真正要的value了.
其实,在整个get方法中,key是被用了两次,一次是用来计算hash值,为了找到bucket位置(哪一行(每行有多个value)),另外一次是找到某行后,用在寻找具体的某一个entry,从而拿到真正的value.

10.为什么hashMap是线程不安全的
一句话解释:当多线程的情况下,扩容过程可能产生条件竞争(race condition),可能会带来循环链表,导致死循环致使线程挂掉.
慢慢解释:如果两个线程都发现HashMap需要重新调整大小了,它们会同时试着调整大小.在调整大小的过程中,存储在链表中的元素的次序会反过来,因为移动到新的bucket位置的时候,HashMap并不会将元素放在链表的尾部,而是放在头部,这是为了避免尾部遍历(tail traversing).如果条件竞争发生了,就可能存在链表末尾的元素的next指针指向了链表头,循环链表就出现了.按道理,HashMap是不存在循环链表的,当我们调用get()这个链表中不存在的元素的时候,那么就死循环了.
注:hashTable是线程安全的,但它并未使用分段锁,而是锁住整个数组,高并发环境下效率非常的低,会导致大量线程等待.因此并发环境下,建议使用Java.util.concurrent包中的ConcurrentHashMap以保证线程安全.

最后附带成员变量源码的简单解释(可自己参照源码对比,效果更好)

    /**
     * The default initial capacity - MUST be a power of two.
     * 默认初始容量(16)
     */
    static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16

    /**
     * The maximum capacity, used if a higher value is implicitly specified
     * by either of the constructors with arguments.
     * MUST be a power of two <= 1<<30.
     * 默认最大容量
     */
    static final int MAXIMUM_CAPACITY = 1 << 30;

    /**
     * The load factor used when none specified in constructor.
     * 默认加载因子, 指哈希表可以达到多满的尺度
     */
    static final float DEFAULT_LOAD_FACTOR = 0.75f;

    /**
     * An empty table instance to share when the table is not inflated.
     * 空的哈希表
     */
    static final Entry<?,?>[] EMPTY_TABLE = {};

    /**
     * The table, resized as necessary. Length MUST Always be a power of two.
     * 实际使用的哈希表
     * 其实是一个Entry数组,Entry是HashMap的静态内部类
     */
    transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE;

    /**
     * The number of key-value mappings contained in this map.
     * HashMap大小, 即HashMap存储的键值对数量
     */
    transient int size;

    /**
     * The next size value at which to resize (capacity * load factor).
     * 键值对的阈值, 用于判断是否需要扩增哈希表容量
     * 默认是初始容量*加载因子,也就是16*0.75=12
     * 当键值对超过阈值,会触发自动扩容机制
     */
    // If table == EMPTY_TABLE then this is the initial capacity at which the
    // table will be created when inflated.
    int threshold;

    /**
     * The load factor for the hash table.
     * 加载因子
     */
    final float loadFactor;

    /**
     * The number of times this HashMap has been structurally modified
     * Structural modifications are those that change the number of mappings in
     * the HashMap or otherwise modify its internal structure (e.g.,
     * rehash).  This field is used to make iterators on Collection-views of
     * the HashMap fail-fast.  (See ConcurrentModificationException).
     * 修改次数, 用于fail-fast机制
     */
    transient int modCount;

    /**
     * The default threshold of map capacity above which alternative hashing is
     * used for String keys. Alternative hashing reduces the incidence of
     * collisions due to weak hash code calculation for String keys.
     * <p/>
     * This value may be overridden by defining the system property
     * {@code jdk.map.althashing.threshold}. A property value of {@code 1}
     * forces alternative hashing to be used at all times whereas
     * {@code -1} value ensures that alternative hashing is never used.
     * 使用替代哈希的默认阀值
     */
    static final int ALTERNATIVE_HASHING_THRESHOLD_DEFAULT = Integer.MAX_VALUE;
    /**
     * A randomizing value associated with this instance that is applied to
     * hash code of keys to make hash collisions harder to find. If 0 then
     * alternative hashing is disabled.
     * 随机的哈希种子, 有助于减少哈希碰撞的次数
     */
    transient int hashSeed = 0;

猜你喜欢

转载自blog.csdn.net/java_zhangshuai/article/details/79873743