Python 数据去重的多种实现方式对比

在实际的Python数据处理场景中,重复数据是非常常见的问题,比如从数据库查询的结果、爬虫获取的列表、用户上传的文件内容等,都可能存在重复项。不同的去重方式在效率、顺序保留、适用数据类型等方面存在差异,下面逐一介绍并对比。
1. 基于列表遍历的去重方式
这是最基础的去重思路,遍历原始列表,将不在新列表中的元素依次添加进去,实现逻辑简单易懂,适合新手理解。
# 原始待去重列表
original_list = [1, 2, 2, 3, 4, 4, 5, 1]
# 定义空列表存储去重后结果
deduplicated_list = []
# 遍历原始列表
for item in original_list:
# 判断元素是否已经在结果列表中
if item not in deduplicated_list:
deduplicated_list.append(item)
print(deduplicated_list) # 输出 [1, 2, 3, 4, 5]
这种方式的优点是会严格保留原始数据的出现顺序,缺点是时间复杂度为O(n²),当列表数据量较大时,执行效率会明显下降。
2. 基于set集合的去重方式
集合(set)是Python中无序且不重复的数据结构,利用这个特性可以快速实现去重,代码非常简洁。
original_list = [1, 2, 2, 3, 4, 4, 5, 1] # 先将列表转换为集合去重,再转回列表 deduplicated_list = list(set(original_list)) print(deduplicated_list) # 输出顺序不固定,比如 [1, 2, 3, 4, 5] 或 [1, 3, 2, 4, 5] 等
这种方式的优势是时间复杂度接近O(n),执行效率很高,缺点是集合是无序的,转换后无法保留原始列表的元素顺序,如果需要顺序则不适合单独使用。
3. 基于字典的去重方式
Python3.7及以上版本的字典会保留键值对的插入顺序,利用这个特性可以实现既去重又保留顺序的效果。
original_list = [1, 2, 2, 3, 4, 4, 5, 1] # 利用字典的fromkeys方法,键会去重且保留插入顺序,再转换为列表 deduplicated_list = list(dict.fromkeys(original_list)) print(deduplicated_list) # 输出 [1, 2, 3, 4, 5]
这种方式的时间复杂度为O(n),同时可以保留原始顺序,适合Python3.7+的环境使用,逻辑也比较清晰。
4. 基于列表推导式的去重方式
结合列表推导式和辅助集合,可以一行代码实现去重并保留顺序,代码更加简洁。
original_list = [1, 2, 2, 3, 4, 4, 5, 1] # 定义空集合用于记录已出现的元素 seen = set() # 列表推导式遍历元素,判断是否在seen中,不在则添加并返回 deduplicated_list = [x for x in original_list if not (x in seen or seen.add(x))] print(deduplicated_list) # 输出 [1, 2, 3, 4, 5]
这里seen.add(x)会返回None,所以判断逻辑是如果x不在seen中,就执行seen.add(x)并保留x,否则跳过,这种方式效率高且保留顺序,是常用的进阶写法。
5. 不同去重方式的对比
下面从多个维度对以上几种去重方式进行对比,方便开发者根据场景选择:
| 去重方式 | 时间复杂度 | 是否保留原始顺序 | 代码简洁度 | 适用场景 |
|---|---|---|---|---|
| 列表遍历去重 | O(n²) | 是 | 一般 | 数据量小、新手入门场景 |
| set集合去重 | O(n) | 否 | 很高 | 数据量大、不需要保留顺序的场景 |
| 字典fromkeys去重 | O(n) | 是(Python3.7+) | 高 | Python3.7+环境、需要保留顺序的场景 |
| 列表推导式+集合去重 | O(n) | 是 | 高 | 全版本Python、需要保留顺序的高效率场景 |
6. 复杂数据类型的去重
以上方式主要针对可哈希的基础数据类型,如果是列表、字典等不可哈希的复杂数据类型,无法直接用set或字典去重,需要先处理为可哈希类型,比如将列表转换为元组。
# 待去重的嵌套列表 original_nested_list = [[1, 2], [1, 2], [3, 4], [3, 4]] # 将子列表转换为元组后去重,再转回列表 deduplicated_list = [list(t) for t in set(tuple(sub) for sub in original_nested_list)] print(deduplicated_list) # 输出 [[1, 2], [3, 4]],顺序不固定
如果复杂数据类型需要保留顺序,可以结合前面提到的遍历思路,将子元素转换为可哈希形式后再判断。
7. 选型建议
在实际开发中,可以根据以下原则选择去重方式:
- 如果数据量很小,对效率没有要求,优先选择逻辑简单的列表遍历方式
- 如果数据量大且不需要保留顺序,优先选择set集合去重,效率最高
- 如果需要保留顺序且使用Python3.7+,优先选择字典fromkeys去重,代码简洁
- 如果需要兼容低版本Python且保留顺序,选择列表推导式+集合的去重方式
- 如果是不可哈希的复杂数据类型,先转换为可哈希类型再选择对应去重方案