Python 数据去重的多种实现方式对比

来源：IT编程作者：天马头衔：网络博主

导读：本期聚焦于小伙伴创作的《Python 数据去重的多种实现方式对比》，敬请观看详情，探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Python 数据去重的多种实现方式对比》有用，将其分享出去将是对创作者最好的鼓励。

Python 数据去重的多种实现方式对比

在实际的Python数据处理场景中，重复数据是非常常见的问题，比如从数据库查询的结果、爬虫获取的列表、用户上传的文件内容等，都可能存在重复项。不同的去重方式在效率、顺序保留、适用数据类型等方面存在差异，下面逐一介绍并对比。

1. 基于列表遍历的去重方式

这是最基础的去重思路，遍历原始列表，将不在新列表中的元素依次添加进去，实现逻辑简单易懂，适合新手理解。

# 原始待去重列表
original_list = [1, 2, 2, 3, 4, 4, 5, 1]
# 定义空列表存储去重后结果
deduplicated_list = []
# 遍历原始列表
for item in original_list:
    # 判断元素是否已经在结果列表中
    if item not in deduplicated_list:
        deduplicated_list.append(item)
print(deduplicated_list)  # 输出 [1, 2, 3, 4, 5]

这种方式的优点是会严格保留原始数据的出现顺序，缺点是时间复杂度为O(n²)，当列表数据量较大时，执行效率会明显下降。

2. 基于set集合的去重方式

集合（set）是Python中无序且不重复的数据结构，利用这个特性可以快速实现去重，代码非常简洁。

original_list = [1, 2, 2, 3, 4, 4, 5, 1]
# 先将列表转换为集合去重，再转回列表
deduplicated_list = list(set(original_list))
print(deduplicated_list)  # 输出顺序不固定，比如 [1, 2, 3, 4, 5] 或 [1, 3, 2, 4, 5] 等

这种方式的优势是时间复杂度接近O(n)，执行效率很高，缺点是集合是无序的，转换后无法保留原始列表的元素顺序，如果需要顺序则不适合单独使用。

3. 基于字典的去重方式

Python3.7及以上版本的字典会保留键值对的插入顺序，利用这个特性可以实现既去重又保留顺序的效果。

original_list = [1, 2, 2, 3, 4, 4, 5, 1]
# 利用字典的fromkeys方法，键会去重且保留插入顺序，再转换为列表
deduplicated_list = list(dict.fromkeys(original_list))
print(deduplicated_list)  # 输出 [1, 2, 3, 4, 5]

这种方式的时间复杂度为O(n)，同时可以保留原始顺序，适合Python3.7+的环境使用，逻辑也比较清晰。

4. 基于列表推导式的去重方式

结合列表推导式和辅助集合，可以一行代码实现去重并保留顺序，代码更加简洁。

original_list = [1, 2, 2, 3, 4, 4, 5, 1]
# 定义空集合用于记录已出现的元素
seen = set()
# 列表推导式遍历元素，判断是否在seen中，不在则添加并返回
deduplicated_list = [x for x in original_list if not (x in seen or seen.add(x))]
print(deduplicated_list)  # 输出 [1, 2, 3, 4, 5]

这里seen.add(x)会返回None，所以判断逻辑是如果x不在seen中，就执行seen.add(x)并保留x，否则跳过，这种方式效率高且保留顺序，是常用的进阶写法。

5. 不同去重方式的对比

下面从多个维度对以上几种去重方式进行对比，方便开发者根据场景选择：

去重方式	时间复杂度	是否保留原始顺序	代码简洁度	适用场景
列表遍历去重	O(n²)	是	一般	数据量小、新手入门场景
set集合去重	O(n)	否	很高	数据量大、不需要保留顺序的场景
字典fromkeys去重	O(n)	是（Python3.7+）	高	Python3.7+环境、需要保留顺序的场景
列表推导式+集合去重	O(n)	是	高	全版本Python、需要保留顺序的高效率场景

6. 复杂数据类型的去重

以上方式主要针对可哈希的基础数据类型，如果是列表、字典等不可哈希的复杂数据类型，无法直接用set或字典去重，需要先处理为可哈希类型，比如将列表转换为元组。

# 待去重的嵌套列表
original_nested_list = [[1, 2], [1, 2], [3, 4], [3, 4]]
# 将子列表转换为元组后去重，再转回列表
deduplicated_list = [list(t) for t in set(tuple(sub) for sub in original_nested_list)]
print(deduplicated_list)  # 输出 [[1, 2], [3, 4]]，顺序不固定

如果复杂数据类型需要保留顺序，可以结合前面提到的遍历思路，将子元素转换为可哈希形式后再判断。

7. 选型建议

在实际开发中，可以根据以下原则选择去重方式：

如果数据量很小，对效率没有要求，优先选择逻辑简单的列表遍历方式
如果数据量大且不需要保留顺序，优先选择set集合去重，效率最高
如果需要保留顺序且使用Python3.7+，优先选择字典fromkeys去重，代码简洁
如果需要兼容低版本Python且保留顺序，选择列表推导式+集合的去重方式
如果是不可哈希的复杂数据类型，先转换为可哈希类型再选择对应去重方案

Python 数据去重 set 字典列表推导式修改时间：2026-06-10 22:18:22

免责声明：已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰，观点力求客观中立。本站旨在免费分享，内容仅供个人学习、研究或参考使用。若引用了第三方作品，版权归原作者所有。如内容涉及您的权益，请联系我们处理。