深入理解哈希表：从原理到实现的完全指南

1918 字

10 分钟

深入理解哈希表：从原理到实现的完全指南

2025-05-12

数据结构

/

哈希表

/

算法

/

Python

写在前面#

哈希表（Hash Table）是计算机科学中最重要的数据结构之一。它能在平均 O(1) 的时间复杂度内完成查找、插入和删除操作——比数组的 O(n) 遍历和二叉搜索树的 O(log n) 都要快得多。

本文将从零开始，用生活类比 + 图解 + 代码的方式，带你彻底理解哈希表的内部工作原理。

一、什么是哈希表？#

生活类比#

想象你去图书馆找一本《哈利·波特》：

笨办法：从第一个书架开始，一本一本地翻，直到找到为止（O(n)）
聪明办法：图书管理员根据书名的首字母，直接带你到 H 开头的书架区域（O(1)）

哈希表就是这个”聪明的图书管理员”——它通过一个哈希函数，把键（Key）直接转换成存储位置，省去了遍历的麻烦。

核心概念#

概念	说明	类比
键（Key）	用于查找数据的标识符	书名
值（Value）	与键关联的实际数据	书的内容
哈希函数	将键映射到数组索引的函数	图书管理员的索引规则
哈希值	哈希函数的输出（数组下标）	书架编号

二、哈希表的工作原理#

整体流程#

哈希表工作原理图解

以电话簿为例，查找 “Tom” 的电话号码：

将键 "Tom" 输入哈希函数
哈希函数计算出索引值 2
直接访问数组下标 [2]，取出值 138xxxx

整个过程不需要遍历，一步到位。

哈希函数的本质#

哈希函数的核心任务：将任意大小的输入，映射到固定范围的整数索引。

$\text{index} = \text{hash}(\text{key}) \mod \text{table\_size}$

一个最简单的哈希函数示例（字符串键）：

1
def simple_hash(key: str, table_size: int) -> int:
2
    """将字符串中每个字符的 ASCII 码相加，再取余"""
3
    total = sum(ord(ch) for ch in key)
4
    return total % table_size

例如：simple_hash("Tom", 7) = (84 + 111 + 109) % 7 = 304 % 7 = 3

好的哈希函数的特性#

特性	说明	重要性
确定性	相同输入始终产生相同输出	必须
均匀分布	输出尽可能均匀分布在数组范围内	必须
高效计算	计算过程简单快速	重要
雪崩效应	输入的微小变化导致输出巨大变化	加分项

三、哈希冲突#

为什么会产生冲突？#

哈希函数把无限的输入空间映射到有限的数组空间，根据鸽巢原理，冲突是不可避免的。

例如，假设数组大小为 7：

hash("Tom") = 3
hash("Max") = 3

两个不同的键映射到了同一个索引——这就是哈希冲突。

解决方法一：链地址法（Separate Chaining）#

思路：每个数组位置不再只存一个元素，而是维护一个链表。所有哈希到同一位置的元素，都挂在这个链表上。

链地址法与开放定址法对比

1
class ChainingHashTable:
2
    def __init__(self, size=7):
3
        self.size = size
4
        self.table = [[] for _ in range(size)]  # 每个槽位是一个空链表
5

6
    def _hash(self, key):
7
        return hash(key) % self.size
8

9
    def put(self, key, value):
10
        idx = self._hash(key)
11
        # 如果 key 已存在，更新 value
12
        for i, (k, v) in enumerate(self.table[idx]):
13
            if k == key:
14
                self.table[idx][i] = (key, value)
15
                return
16
        # 否则追加到链表末尾
17
        self.table[idx].append((key, value))
18

19
    def get(self, key):
20
        idx = self._hash(key)
21
        for k, v in self.table[idx]:
22
            if k == key:
23
                return v
24
        raise KeyError(key)
25

26
    def delete(self, key):
27
        idx = self._hash(key)
28
        for i, (k, v) in enumerate(self.table[idx]):
29
            if k == key:
30
                del self.table[idx][i]
31
                return
32
        raise KeyError(key)

复杂度：

操作	平均	最坏（所有键冲突）
查找	O(1)	O(n)
插入	O(1)	O(n)
删除	O(1)	O(n)

解决方法二：开放定址法（Open Addressing）#

思路：冲突发生时，不使用链表，而是按照某种探测序列在数组中寻找下一个空位。

1
class OpenAddressingHashTable:
2
    def __init__(self, size=7):
3
        self.size = size
4
        self.keys = [None] * size
5
        self.values = [None] * size
6

7
    def _hash(self, key):
8
        return hash(key) % self.size
9

10
    def put(self, key, value):
11
        idx = self._hash(key)
12
        while self.keys[idx] is not None:
13
            if self.keys[idx] == key:
14
                self.values[idx] = value  # 更新
15
                return
16
            idx = (idx + 1) % self.size   # 线性探测：找下一个位置
17
        self.keys[idx] = key
18
        self.values[idx] = value
19

20
    def get(self, key):
21
        idx = self._hash(key)
22
        while self.keys[idx] is not None:
23
            if self.keys[idx] == key:
24
                return self.values[idx]
25
            idx = (idx + 1) % self.size
26
        raise KeyError(key)

三种探测策略对比#

策略	探测序列	优点	缺点
线性探测	h, h+1, h+2, …	实现简单	容易聚集（primary clustering）
二次探测	h, h+1², h+2², …	减少聚集	可能无法探测所有位置
双重哈希	h, h+hash₂(key), h+2·hash₂(key), …	分布最均匀	计算开销较大

四、哈希表的存储结构#

底层数组#

哈希表的底层是一个固定大小的数组（称为”桶数组”或”bucket array”）。

1
索引:  [0]    [1]    [2]    [3]    [4]    [5]    [6]
2
值:   Amy    ---    Tom    Bob    Eve    Max    ---

当数据量接近数组大小时，冲突概率急剧上升，查找退化为 O(n)。此时需要扩容（rehash）。

负载因子#

$\text{负载因子} = \frac{\text{已存储元素数量}}{\text{数组大小}} = \frac{n}{m}$

负载因子	冲突概率	性能
0 ~ 0.5	低	优秀
0.5 ~ 0.75	适中	良好
0.75+	高	明显退化
1.0（满）	100%	退化为 O(n)

[!tip] Java HashMap 的阈值 Java 的 HashMap 默认负载因子阈值为 0.75。当超过这个值时，数组大小翻倍，所有元素重新哈希（rehash）到新数组中。

扩容（Rehash）过程#

1
def _resize(self):
2
    """当负载因子超过阈值时扩容"""
3
    old_table = self.table
4
    self.size *= 2                    # 数组大小翻倍
5
    self.table = [[] for _ in range(self.size)]
6
    self.count = 0
7
    for bucket in old_table:
8
        for key, value in bucket:
9
            self.put(key, value)      # 重新哈希所有元素

五、常见哈希函数#

类型	公式	适用场景
除法取余	`hash = key % table_size`	整数键
乘法取整	`hash = floor(key * A % 1 * table_size)`	浮点数键
平方取中	`hash = (key²) // 10^(n/2) % table_size`	数字键
字符串哈希	逐字符加权求和	字符串键

一个更健壮的字符串哈希函数（DJB2 算法）：

1
def djb2_hash(key: str, table_size: int) -> int:
2
    """Dan Bernstein 的经典哈希算法"""
3
    hash_val = 5381
4
    for ch in key:
5
        hash_val = ((hash_val << 5) + hash_val) + ord(ch)  # hash * 33 + c
6
    return hash_val % table_size

六、完整实现：带扩容的哈希表#

1
class HashMap:
2
    """链地址法实现，支持自动扩容"""
3

4
    def __init__(self, initial_size=7, load_factor=0.75):
5
        self.size = initial_size
6
        self.load_factor = load_factor
7
        self.count = 0
8
        self.table = [[] for _ in range(self.size)]
9

10
    def _hash(self, key):
11
        return hash(key) % self.size
12

13
    def _check_resize(self):
14
        if self.count / self.size > self.load_factor:
15
            self._resize()
16

17
    def _resize(self):
18
        old_table = self.table
19
        self.size *= 2
20
        self.table = [[] for _ in range(self.size)]
21
        self.count = 0
22
        for bucket in old_table:
23
            for key, value in bucket:
24
                self.put(key, value)
25

26
    def put(self, key, value):
27
        self._check_resize()
28
        idx = self._hash(key)
29
        bucket = self.table[idx]
30
        for i, (k, v) in enumerate(bucket):
31
            if k == key:
32
                bucket[i] = (key, value)
33
                return
34
        bucket.append((key, value))
35
        self.count += 1
36

37
    def get(self, key):
38
        idx = self._hash(key)
39
        for k, v in self.table[idx]:
40
            if k == key:
41
                return v
42
        raise KeyError(key)
43

44
    def delete(self, key):
45
        idx = self._hash(key)
46
        bucket = self.table[idx]
47
        for i, (k, v) in enumerate(bucket):
48
            if k == key:
49
                del bucket[i]
50
                self.count -= 1
51
                return
52
        raise KeyError(key)
53

54
    def __repr__(self):
55
        items = []
56
        for bucket in self.table:
57
            for k, v in bucket:
58
                items.append(f"{k}: {v}")
59
        return "{" + ", ".join(items) + "}"

使用示例：

1
hm = HashMap()
2
hm.put("Tom", 13800001111)
3
hm.put("Amy", 13900002222)
4
hm.put("Bob", 13600003333)
5
print(hm.get("Tom"))   # 13800001111
6
hm.delete("Amy")
7
print(hm)              # {Tom: 13800001111, Bob: 13600003333}

七、实际应用#

场景	说明
字典/Map	Python `dict`、Java `HashMap`、JS `Object`
缓存系统	Redis、Memcached 的核心数据结构
数据库索引	加速 WHERE 条件查询
去重	利用键的唯一性快速判重
计数器	统计词频、访问次数等
符号表	编译器中变量名到内存地址的映射

八、总结#

对比项	数组/链表	哈希表
查找	O(n)	O(1) 平均
插入	O(n)	O(1) 平均
删除	O(n)	O(1) 平均
有序性	有序（数组）	无序
空间	紧凑	需要额外空间

哈希表的核心就一句话：用空间换时间。通过哈希函数把查找变成计算，把遍历变成定位，从而实现了常数级的操作速度。

[!note] 参考资料

菜鸟教程 - 哈希表

《算法（第4版）》— Robert Sedgewick

Python dict 源码解析

深入理解哈希表：从原理到实现的完全指南

https://qiandaos.top/posts/hash-table/

作者

千岛寒流

发布于

2025-05-12

许可协议

CC BY-NC-SA 4.0

部分信息可能已经过时

小白自制Linux开发板（一）—— 原理图设计与PCB绘制

Redis学习系列 | Redis 不只是缓存——一个数据结构服务器的世界观

千岛の摸鱼小栈

写在前面#

一、什么是哈希表？#

生活类比#

核心概念#

二、哈希表的工作原理#

整体流程#

哈希函数的本质#

好的哈希函数的特性#

三、哈希冲突#

为什么会产生冲突？#

解决方法一：链地址法（Separate Chaining）#

解决方法二：开放定址法（Open Addressing）#

三种探测策略对比#

四、哈希表的存储结构#

底层数组#

负载因子#

扩容（Rehash）过程#

五、常见哈希函数#

六、完整实现：带扩容的哈希表#

七、实际应用#

八、总结#