哈希的缺陷
对于任意的哈希函数而言,都存在一个不好的键集,使得所有键值都会哈希映射到同一个槽中。
- 解决方案:
随机选择哈希函数,使其与输入哈希运算的键值情况相独立。
全域哈希(universal hashing)
定义:设U为键值的全域,H为哈希函数的一个有限集,H的哈希函数将U的键映射到哈希表的槽
{0,1,2,…,m-1}里,并且满足:
对任意的x、y∈U,且x≠y,|{h∈H,h(x)=h(y)}|=|H|/m
从另一个角度看,如果哈希函数h是随机的从函数H里选出的,那么x和y发生碰撞的几率为1/m。
- 在哈希函数集H中,随机的选择函数h,假设我们要将n个键放入T表的m个槽里,对于给定的键x,它发生碰撞的期望次数E[#collision]小于n/m(load factor α)。
- 证明过程如下:
构造全域哈希函数:
证明此函数集H是全域的:
数论定理
m为一个质数,对于任意的z∈Zm(对m取余后的整数),且z≠0,存在唯一一个z^(-1)(z的倒数)∈Zm,使得z·z^(-1)≡1(mod m)。
注:必须为质数。
完全哈希(perfect hashing)
将n个键值创建为一个静态的哈希表,其空间上槽的数量m=O(n),并且在最坏的情况下能得到O(1)的
运行时间。
使用两级哈希的方法,使得在第二级哈希函数运算结果中不会出现碰撞现象。
设在一级哈希中,有ni个元素被哈希映射到同一个槽i中,则在此槽的二级哈希中使用m=ni^2个槽。
采用二级哈希的策略,查找一条记录只需进行两次哈希函数的计算,可以实现常数时间内的查找。
- 证明二级哈希的策略可以避免碰撞:
马尔可夫(Markov)不等式
课外补充
- 生日悖论: