java速学教程(入门到精通)
java怎么学习?java怎么入门?java在哪学?java怎么学才快?不用担心,这里为大家提供了java速学教程(入门到精通),有需要的小伙伴保存下载就能学习啦!
哈希表需要扩容是为了降低哈希冲突、提升查询效率,当元素数量超过容量与负载因子的乘积时,HashMap会触发扩容机制,通过创建容量翻倍的新数组并将所有元素重新哈希到新数组中来减少冲突,尽管该过程耗时,但能保障后续操作的高效性;为优化性能,可通过设置合理的初始容量以减少扩容次数,并根据空间与时间的权衡调整负载因子,默认0.75在多数场景下已实现良好平衡;此外,Java 8引入了链表长度超过8时转为红黑树的机制,在数组容量不低于64的前提下提升最坏情况下的性能至O(log n),而元素减少至6以下时则转回链表,从而在不同数据分布下保持高效与稳定。
哈希表的扩容机制,说白了,就是当哈希表里的元素多到一定程度,冲突变得频繁,性能开始下降时,它会偷偷地给自己“换个更大的房子”。这通常发生在元素数量达到其容量与负载因子的乘积(也就是所谓的“阈值”)时。至于优化,核心思想无非就是尽量减少这种昂贵的“搬家”行为,并有效处理不可避免的冲突,让数据查找和存储始终保持高效。
Java中
HashMap的扩容(resize)是一个相当精妙但也挺耗费资源的操作。它不是简单地增加数组大小,而是涉及到整个表的“重建”。当
HashMap中的元素数量达到
threshold(阈值,等于
capacity * loadFactor)时,扩容就会被触发。
扩容的具体流程是这样的:
HashMap会创建一个新的内部数组,其容量通常是原数组的两倍。比如,如果原数组是16,新数组就是32。
HashMap会遍历旧数组中的每一个桶(bucket),然后对桶中的每一个Entry(或Node)重新计算其哈希值,并根据新的数组长度(新的容量)重新确定它在新数组中的位置。这个过程,我们称之为“rehash”。
i,但在新数组长度下,它可能落在索引
i或
i + oldCapacity。这是因为新的索引计算通常是
hash & (newCapacity - 1),而当
newCapacity是
oldCapacity的两倍时,这个位运算的特性会让元素的分布变得更均匀。
这个过程听起来简单,但想想看,如果你的
HashMap里有几十万甚至上百万的元素,每次扩容都意味着要对所有这些元素进行一次哈希计算和数组位置的确定,这无疑是一个性能瓶颈。所以,优化哈希表,很大程度上就是想办法减少这种扩容的次数,或者让扩容的影响尽可能小。
我觉得,理解哈希表为什么需要扩容,得从它的“本职工作”——快速查找和存储——说起。哈希表之所以能做到平均O(1)的时间复杂度,关键在于它能通过哈希函数,将键(Key)“映射”到一个数组的特定位置。但问题来了,不同的键可能会被映射到同一个位置,这就是所谓的“哈希冲突”(Hash Collision)。
当冲突发生时,
HashMap通常会用链表(在Java 8之前,或者冲突较少时)或红黑树(Java 8及以后,当链表过长时)来存储这些冲突的元素。想象一下,如果一个桶里挂着很长的链表,那么查找一个元素就不得不遍历这个链表,这时间复杂度就从O(1)退化到了O(n)(n是链表长度)。这完全违背了哈希表设计的初衷。
扩容的目的,就是为了降低哈希冲突的概率。通过增加底层数组的容量,哈希函数可以将元素分散到更多的桶中,从而减少每个桶中元素的数量,缩短链表长度。这就像在一个原本只有几间小房间的公寓里住满了人,大家挤得不行,互相影响,效率低下。扩容就是把公寓扩建成一栋大楼,每个人都有了更宽敞的独立空间,自然就更有效率了。
当然,扩容本身是有代价的。就像前面说的,它需要重新计算所有元素的哈希值并移动它们。所以,这是一个性能上的权衡:一次性的、可能比较大的性能开销,换取之后更长久的、更高效的查找和插入性能。在设计系统时,我们得考虑这个平衡点,尽量让扩容发生在系统负载较低的时候,或者通过其他方式避免频繁扩容。
优化
HashMap,我觉得最直接、也是最常用的两个杠杆就是“初始容量”(initial capacity)和“负载因子”(load factor)。这两个参数,在
HashMap的构造函数里就能设置,它们直接影响了
HashMap何时扩容以及扩容的频率。
HashMap的默认初始容量是16。如果你知道你的
HashMap大概会存储多少个元素,那么设置一个合适的初始容量能显著减少扩容的次数。
HashMap会经历多次扩容(16 -> 32 -> 64 -> 128 -> 256 -> 512 -> 1024)。每次扩容都是一次昂贵的rehash操作。直接设置一个接近或略大于1000的初始容量,比如
new HashMap(2048)(因为容量必须是2的幂次方,并且通常建议设置为
预期元素数量 / 负载因子 + 1,然后取最近的2的幂),就能避免前面所有的扩容开销。
N个元素,那么初始容量可以设置为
N / loadFactor + 1,然后向上取整到最近的2的幂。例如,如果预计1000个元素,默认负载因子0.75,那么
1000 / 0.75 + 1大约是1334。最近的2的幂是2048。所以,
new HashMap(2048)会是个不错的选择。
负载因子,默认是0.75。它决定了
HashMap在多“满”的时候会触发扩容。
threshold = capacity * loadFactor。
HashMap在扩容前可以存储更多的元素。这样可以节省内存空间,因为不需要那么快地分配更大的数组。但缺点是,每个桶里的元素会更多,链表会更长,哈希冲突的概率增加,查找和插入的平均性能可能会下降,极端情况下甚至接近O(n)。
HashMap会更早地进行扩容。这会增加内存消耗(因为分配了更大的数组但没有完全利用),但每个桶里的元素会更少,冲突概率降低,查找和插入的性能通常会更好。代价是,扩容的频率可能会增加。
说白了,这两个参数就是让你在“空间”和“时间”之间做权衡。一个合适的初始容量能避免很多不必要的“搬家”,而负载因子则决定了“搬家”的触发时机。
哈希冲突是哈希表设计中一个永恒的话题,Java的
HashMap在这方面也一直在演进。理解它如何处理冲突,能帮助我们更好地把握其性能特性。
HashMap主要采用的是“分离链接法”(Separate Chaining)。这意味着当多个键映射到同一个数组索引时,这些键值对不会覆盖彼此,而是以链表的形式挂在这个数组索引下。每个数组元素实际上是一个指向链表头部的指针。
put一个元素时,
HashMap计算其哈希值,找到对应的数组索引。如果该索引处已经有元素,它就将新元素添加到这个链表的末尾(或者头部,取决于具体实现细节)。当你
get一个元素时,它同样计算哈希值找到索引,然后遍历该索引下的链表,直到找到匹配的键。
这种方式的好处是实现相对简单,而且不会浪费太多空间(相对于开放寻址法)。但正如前面所说,链表过长会导致性能下降。
Java 8对
HashMap的底层实现进行了一项重要的优化,旨在解决在极端哈希冲突情况下(例如,恶意攻击或哈希函数设计不佳导致大量键都映射到同一个桶)的性能退化问题。
TREEIFY_THRESHOLD,默认为8)时,
HashMap不会继续使用链表,而是会将这个链表转换成一个平衡二叉搜索树,具体来说是红黑树(Red-Black Tree)。
HashMap的性能也能保持在可接受的范围内,而不是退化到线性搜索。
UNTREEIFY_THRESHOLD,默认为6)时,它又会变回链表。这是因为对于少量元素,链表的开销比红黑树要小。
HashMap也不是立刻就转成红黑树。它还有一个前提条件:底层数组的容量必须达到
MIN_TREEIFY_CAPACITY(默认为64)。如果容量小于64,
HashMap会选择先扩容,而不是立即树化。这是因为在小容量下,扩容比树化更能有效分散元素,解决冲突。
在我看来,Java 8的这个优化是一个非常实用的进步。它让
HashMap在面对各种复杂数据分布时,都能保持相对稳定的高性能表现,大大增强了其健壮性。作为开发者,我们通常不需要直接干预这个过程,但了解它的存在,能在我们分析
HashMap性能问题时提供重要的线索。
Java免费学习笔记:立即学习
解锁 Java 大师之旅:从入门到精通的终极指南
已抢9633个
抢已抢2834个
抢已抢3201个
抢已抢5106个
抢已抢4646个
抢已抢34898个
抢