Python 中哈希冲突是如何处理的？

来源：IPIPP.com作者：越南程序员头衔：程序员

导读：本期聚焦于小伙伴创作的《Python 中哈希冲突是如何处理的？》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Python 中哈希冲突是如何处理的？》有用，将其分享出去将是对创作者最好的鼓励。

哈希冲突指的是不同的键通过哈希函数计算后得到相同的哈希值，导致在哈希表中无法存放到同一个位置的情况。Python中大部分哈希表结构比如字典、集合都采用了特定的策略来处理这种问题，保证数据的正常存储和查询。

Python 中哈希冲突是如何处理的？

Python 哈希冲突处理的核心机制

Python的字典和集合底层采用的是开放寻址法（Open Addressing）来处理哈希冲突，而不是链表法。当发生哈希冲突时，Python会按照特定的探测序列寻找下一个可用的哈希表槽位，直到找到空位或者目标键为止。

开放寻址法的探测逻辑

Python使用的探测序列是二次探测的变体，探测步长会随着冲突次数的增加而逐步增大，避免连续的冲突导致大量槽位被占用。探测的索引计算逻辑可以简化为以下公式：

index = (hash(key) & mask) + i * (i + 1) // 2

其中mask是哈希表大小减1，i是冲突次数，每次探测后i自增1，直到找到可用的槽位。当索引超过哈希表大小时，会对哈希表大小取模回到前面的槽位。

哈希表的扩容机制

当哈希表的负载因子（已使用槽位数量/总槽位数量）超过三分之二时，Python会自动触发哈希表扩容，将哈希表的大小扩大为原来的2到4倍，同时重新计算所有已有键的哈希值并分配到新的槽位中，减少后续哈希冲突的概率。

哈希冲突模拟示例

我们可以通过自定义简单的哈希函数来模拟哈希冲突的场景，观察冲突后的处理过程：

# 模拟简单的哈希表，使用开放寻址法处理冲突
class SimpleHashTable:
    def __init__(self, size=8):
        self.size = size
        # 初始化哈希表，用None表示空槽位
        self.table = [None] * self.size
        self.mask = self.size - 1

    def hash_func(self, key):
        # 简单的哈希函数，返回键的哈希值对size取模的结果
        return hash(key) & self.mask

    def probe(self, hash_val, i):
        # 二次探测变体的索引计算
        return (hash_val + i * (i + 1) // 2) & self.mask

    def put(self, key, value):
        hash_val = self.hash_func(key)
        i = 0
        while True:
            index = self.probe(hash_val, i)
            # 槽位为空或者键已存在，直接存入或更新
            if self.table[index] is None or self.table[index][0] == key:
                self.table[index] = (key, value)
                return
            # 冲突发生，增加探测次数
            i += 1
            # 避免无限循环，这里简单判断i超过size就停止
            if i >= self.size:
                print("哈希表已满，无法插入")
                return

    def get(self, key):
        hash_val = self.hash_func(key)
        i = 0
        while True:
            index = self.probe(hash_val, i)
            if self.table[index] is None:
                return None
            if self.table[index][0] == key:
                return self.table[index][1]
            i += 1
            if i >= self.size:
                return None

# 测试哈希冲突场景
if __name__ == "__main__":
    ht = SimpleHashTable(size=8)
    # 插入两个不同的键，假设它们哈希后初始索引相同，模拟冲突
    # 这里为了方便演示，我们手动指定哈希值相同的键
    # 实际中Python的hash函数对不同对象会返回不同值，除非是相同对象
    ht.put("a", 1)
    ht.put("b", 2)
    print("键a对应的值:", ht.get("a"))
    print("键b对应的值:", ht.get("b"))
    print("当前哈希表内容:", ht.table)

不同冲突处理方式的对比

为了更清楚Python选择开放寻址法的原因，我们可以对比两种常见的哈希冲突处理方式：

处理方式	实现逻辑	优势	劣势
分离链表法（Separate Chaining）	每个哈希槽位存放一个链表，冲突的键都放到同一个链表中	实现简单，删除操作方便，负载因子可以大于1	需要额外的链表内存开销，缓存局部性差
开放寻址法（Open Addressing）	冲突后寻找下一个可用槽位存放数据	所有数据都存在哈希表数组中，缓存局部性好，内存开销小	负载因子较高时性能下降明显，删除操作需要标记删除位

Python选择开放寻址法主要是因为字典和集合是高频使用的数据结构，开放寻址法的缓存友好性可以提升查询和插入的性能，适合Python的使用场景。

Python 中哈希冲突是如何处理的？

Python 哈希冲突处理的核心机制

开放寻址法的探测逻辑

哈希表的扩容机制

哈希冲突模拟示例

不同冲突处理方式的对比

相关问题说明

为什么Python不用链表法处理冲突

哈希冲突会影响Python字典的性能吗