存储结构
HashMap是非常常用的数据结构之一,由数组和链表组合构成。
注:以下内容基于JDK1.8
HashMap内部实际是一个 Node 类型的数组 table,每一个Node存储着键值对、hash值以及next节点一共四个字段,从 next 字段我们可以看出 Node 是一个链表。Node<K, V>[]数组中的每个位置被当成一个桶,一个桶存放一个链表。
static class Node<K,V> implements Map.Entry<K,V> {
final int hash;
final K key;
V value;
Node<K,V> next;
put()操作
确定桶下标
- 计算hash值:调用put(K, V)方法时,根据键Key去计算hash值
- 取模:确定桶下标的最后一步是将 key 的 hash 值对桶个数取模:hash % capacity。
注:我们知道,位运算比求模运算效率高很多,如果能保证 capacity 为 2 的 n 次方,那么就可以将取模操作转换为位运算。如下:
x : 00010000
x-1 : 00001111
------------------------
y : 10110010
x-1 : 00001111
------------------------
y & (x - 1) : 00000010
y : 10110010
x : 00010000
------------------------
y % x : 00000010
由于哈希本身就存在概率性,即使两个不同键,它们的hash值有一定的概率会一样,因此会对应到同一个桶下标,这时就形成链表了。
注:JDK1.8之前,新的Node插入链表时采用头插法;JDK1.8及之后采用尾插法。
扩容
为什么扩容
设 HashMap 的 table 长度为 M,需要存储的键值对数量为 N,如果哈希函数满足均匀性的要求,那么每条链表的长度大约为 N/M,因此查找的复杂度为 O(N/M)。
为了让查找的成本降低,应该使 N/M 尽可能小,因此需要保证 M 尽可能大,也就是说 table 要尽可能大。HashMap 采用动态扩容来根据当前的 N 值来调整 M 值,使得空间效率和时间效率都能得到保证。
如何扩容
HashMap数组长度默认值为16(保证为2的n次方,原因上面已经说过了):
/**
* The default initial capacity - MUST be a power of two.
*/
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
负载因子的默认值为0.75f:比如当前的容量大小为100,当你存进第76个键值对的时候,那就进行扩容了
/**
* The load factor used when none specified in constructor.
*/
static final float DEFAULT_LOAD_FACTOR = 0.75f;
进行扩容时,会重新创建一个table,并将capacity容量设为原来的两倍(仍然保持为2的n次方),然后把原table中所有键值对重新插入扩容之后的table中,因此是很费时的。
需要注意的是,扩容会遍历原来的table,重新计算hash值(因为table的长度扩大为两倍之后,确定桶下标的规则也随之改变了!)。