Python 字典演化史：从无序哈希表到高效有序结构

CS创新实验室

于 2025-06-28 08:15:00 发布

阅读量801

点赞数 15

CC 4.0 BY-SA版权

分类专栏： Python 文章标签： python 散列表开发语言

本文链接：https://blog.csdn.net/qiwsir/article/details/148960687

Python 专栏收录该内容

92 篇文章

订阅专栏

1. 早期版本 (Python 1.x - Python 3.5)：经典哈希表

数据结构：哈希表 + 冲突链表

早期 Python 字典采用开放寻址哈希表（Open Addressing Hash Table）结合拉链法（Separate Chaining）处理冲突。具体实现为：

桶数组（Bucket Array）：固定大小的数组，每个桶存储键值对的哈希值、键指针和值指针。
冲突链表：当多个键的哈希值映射到同一个桶时，通过链表存储后续的键值对。例如，若键 ‘a’ 和 ‘b’ 哈希到同一桶，桶中存储 ‘a’ 的键值对，链表后续节点存储 ‘b’ 的键值对。

技术特点

无序性

键的遍历顺序由哈希函数、桶大小和插入历史共同决定，无法预测。例如，插入 {‘a’: 1, ‘b’: 2, ‘c’: 3} 时，键顺序可能因哈希冲突而随机排列。

内存占用高

每个 PyDictEntry 对象需存储哈希值、键指针、值指针和链表指针，导致内存开销较大。例如，一个包含 1000 个键值对的字典可能占用超过 100KB 内存。

缓存不友好

链表节点在内存中分散存储，CPU 缓存命中率低。例如，遍历字典时需频繁跳转内存地址，导致性能下降。

冲突处理

极端情况下（如大量哈希冲突），查找时间复杂度退化为 O (n)。例如，若所有键哈希到同一桶，查找操作需遍历整个链表。

示例代码

d = {}
d['a'] = 1; d['b'] = 2; d['c'] = 3
print(d.keys())  # 可能输出: ['c', 'a', 'b']（顺序不确定）

2. Python 3.6：革命性优化 - 紧凑字典 (Compact Dict)

核心动机

内存优化：减少字典内存占用，提升内存利用率。
性能提升：提高遍历速度和 CPU 缓存命中率。

数据结构变革：分离存储

索引数组 (Indices)
- 稀疏数组，大小为 2 的幂（如 16、32），存储桶在条目数组中的索引或特殊标记（如 DKIX_EMPTY 表示空桶）。
- 每个索引值对应一个哈希桶，通过开放寻址法（如线性探测）解决冲突。
条目数组 (Entries)
- 连续紧凑存储键值对的数组（PyDictKeyEntry），按插入顺序排列。
- 每个条目包含键指针、值指针、哈希值和状态标记（如 DK_INACTIVE 表示已删除）。

技术突破

内存优化（约 20-25%）

条目数组连续存储，消除链表指针开销。例如，一个包含 1000 个键值对的字典内存占用可减少至约 80KB。

遍历速度飞跃

遍历只需扫描紧凑的条目数组（O (n)），无需跳转链表。例如，遍历 100 万个键值对的时间缩短约 30%。

缓存友好

条目数组的连续内存布局提升 CPU 缓存命中率。例如，遍历操作的缓存命中率从早期版本的 30% 提升至 70% 以上。

副作用 - 有序性

条目数组按插入顺序存储，导致遍历顺序变为插入顺序。例如，d = {‘a’: 1, ‘b’: 2} 的 keys() 输出始终为 [‘a’, ‘b’]。

重要说明

Python 3.6 的有序性是 CPython 实现细节，未成为语言标准。其他 Python 实现（如 PyPy）可能不保证插入顺序。

3. Python 3.7：官方确认有序性

重大变化

语言规范：将插入顺序保持特性正式纳入 Python 语言规范（PEP 468）。
兼容性要求：所有 Python 实现（如 PyPy、Jython）必须保证字典的插入顺序。

技术意义

编程可靠性

开发者可依赖字典的插入顺序进行编程。例如，json.dumps(d) 的输出顺序与插入顺序一致。

语言一致性

消除不同实现间的行为差异。例如，PyPy 3.7+ 中字典的 keys() 顺序与 CPython 一致。

示例代码

d = {'a': 1, 'b': 2, 'c': 3}
assert list(d.keys()) == ['a', 'b', 'c']  # 在任何兼容 Python 3.7+ 的实现中都成立

4. Python 3.10：共享键字典 (Shared-Key Dict)

优化场景

大量相似字典：类实例的 dict 通常共享相同键集（如多个 MyClass 实例的属性键）。

核心机制

共享键对象

首次使用某组键创建字典时，生成 PyDictKeysObject，存储键元数据（哈希值、键指针）。

键对象复用

后续用相同键集创建的字典共享该 PyDictKeysObject，仅存储独立的值数组。

值独立存储

每个字典的值数组（Values Array）独立存储，避免重复存储键元数据。

技术优势

内存节省显著

例如，1000 个共享相同键集的字典可节省约 90% 的键元数据内存。

创建加速

复用键对象，减少初始化开销。例如，创建 1000 个共享键字典的时间缩短约 50%。

影响

面向对象程序：类实例的 dict 内存占用大幅降低。例如，1000 个 MyClass 实例的内存占用从 1MB 降至约 100KB。

现代字典核心技术与特点总结 (Python 3.7+)

有序性

插入顺序被严格保证（keys()、values()、items()、迭代均遵守）。

高性能哈希表

基于开放寻址法，结合Robin Hood 哈希优化冲突解决。Robin Hood 哈希通过调整探测深度平衡冲突，减少查找时间。

紧凑内存布局

索引数组（稀疏）+ 条目数组（紧凑连续）的分离结构，内存利用率提升 20-25%。

缓存高效

条目数组的连续性使 CPU 缓存命中率提高 40% 以上。

共享键优化

相同键集的字典共享键对象，内存节省显著。

动态扩容

填充因子达到阈值（通常为 2/3）时自动扩容，重建索引和条目数组。

快速查找

平均时间复杂度 O (1)，依赖良好的哈希函数和冲突解决策略。

版本关键特性对比表

Python 版本	核心数据结构	有序性	内存效率	关键技术
3.5 及更早	哈希表 + 冲突链表	❌ 无序	较低	拉链法冲突解决
3.6 (转折点)	索引数组 + 条目数组	✅ (实现细节)	★★★ 高	紧凑布局，缓存优化
3.7+ (现代)	索引数组 + 条目数组	✅ (语言规范)	★★★ 高	共享键字典，开放寻址优化

Python 字典的演化是数据结构优化的典范：从经典的无序哈希表出发，通过分离存储（索引 + 条目）实现内存与速度双赢，并意外催生有序性这一实用特性，最终被确立为语言标准。后续的共享键优化进一步针对特定场景深挖潜力。这些改进体现了 Python 在保持接口简洁性的同时，对底层性能与资源效率的不懈追求。现代字典的高效和有序性，已成为 Python 开发者日常编程的强大基石。