Python 数据去重的多种实现方式对比

来源:IT编程作者:天马头衔:网络博主
导读:本期聚焦于小伙伴创作的《Python 数据去重的多种实现方式对比》,敬请观看详情,探索知识的价值。以下视频、文章将为您系统阐述其核心内容与价值。如果您觉得《Python 数据去重的多种实现方式对比》有用,将其分享出去将是对创作者最好的鼓励。

Python 数据去重的多种实现方式对比

Python 数据去重的多种实现方式对比

在实际的Python数据处理场景中,重复数据是非常常见的问题,比如从数据库查询的结果、爬虫获取的列表、用户上传的文件内容等,都可能存在重复项。不同的去重方式在效率、顺序保留、适用数据类型等方面存在差异,下面逐一介绍并对比。

1. 基于列表遍历的去重方式

这是最基础的去重思路,遍历原始列表,将不在新列表中的元素依次添加进去,实现逻辑简单易懂,适合新手理解。

# 原始待去重列表
original_list = [1, 2, 2, 3, 4, 4, 5, 1]
# 定义空列表存储去重后结果
deduplicated_list = []
# 遍历原始列表
for item in original_list:
    # 判断元素是否已经在结果列表中
    if item not in deduplicated_list:
        deduplicated_list.append(item)
print(deduplicated_list)  # 输出 [1, 2, 3, 4, 5]

这种方式的优点是会严格保留原始数据的出现顺序,缺点是时间复杂度为O(n²),当列表数据量较大时,执行效率会明显下降。

2. 基于set集合的去重方式

集合(set)是Python中无序且不重复的数据结构,利用这个特性可以快速实现去重,代码非常简洁。

original_list = [1, 2, 2, 3, 4, 4, 5, 1]
# 先将列表转换为集合去重,再转回列表
deduplicated_list = list(set(original_list))
print(deduplicated_list)  # 输出顺序不固定,比如 [1, 2, 3, 4, 5] 或 [1, 3, 2, 4, 5] 等

这种方式的优势是时间复杂度接近O(n),执行效率很高,缺点是集合是无序的,转换后无法保留原始列表的元素顺序,如果需要顺序则不适合单独使用。

3. 基于字典的去重方式

Python3.7及以上版本的字典会保留键值对的插入顺序,利用这个特性可以实现既去重又保留顺序的效果。

original_list = [1, 2, 2, 3, 4, 4, 5, 1]
# 利用字典的fromkeys方法,键会去重且保留插入顺序,再转换为列表
deduplicated_list = list(dict.fromkeys(original_list))
print(deduplicated_list)  # 输出 [1, 2, 3, 4, 5]

这种方式的时间复杂度为O(n),同时可以保留原始顺序,适合Python3.7+的环境使用,逻辑也比较清晰。

4. 基于列表推导式的去重方式

结合列表推导式和辅助集合,可以一行代码实现去重并保留顺序,代码更加简洁。

original_list = [1, 2, 2, 3, 4, 4, 5, 1]
# 定义空集合用于记录已出现的元素
seen = set()
# 列表推导式遍历元素,判断是否在seen中,不在则添加并返回
deduplicated_list = [x for x in original_list if not (x in seen or seen.add(x))]
print(deduplicated_list)  # 输出 [1, 2, 3, 4, 5]

这里seen.add(x)会返回None,所以判断逻辑是如果x不在seen中,就执行seen.add(x)并保留x,否则跳过,这种方式效率高且保留顺序,是常用的进阶写法。

5. 不同去重方式的对比

下面从多个维度对以上几种去重方式进行对比,方便开发者根据场景选择:

去重方式时间复杂度是否保留原始顺序代码简洁度适用场景
列表遍历去重O(n²)一般数据量小、新手入门场景
set集合去重O(n)很高数据量大、不需要保留顺序的场景
字典fromkeys去重O(n)是(Python3.7+)Python3.7+环境、需要保留顺序的场景
列表推导式+集合去重O(n)全版本Python、需要保留顺序的高效率场景

6. 复杂数据类型的去重

以上方式主要针对可哈希的基础数据类型,如果是列表、字典等不可哈希的复杂数据类型,无法直接用set或字典去重,需要先处理为可哈希类型,比如将列表转换为元组。

# 待去重的嵌套列表
original_nested_list = [[1, 2], [1, 2], [3, 4], [3, 4]]
# 将子列表转换为元组后去重,再转回列表
deduplicated_list = [list(t) for t in set(tuple(sub) for sub in original_nested_list)]
print(deduplicated_list)  # 输出 [[1, 2], [3, 4]],顺序不固定

如果复杂数据类型需要保留顺序,可以结合前面提到的遍历思路,将子元素转换为可哈希形式后再判断。

7. 选型建议

在实际开发中,可以根据以下原则选择去重方式:

  • 如果数据量很小,对效率没有要求,优先选择逻辑简单的列表遍历方式
  • 如果数据量大且不需要保留顺序,优先选择set集合去重,效率最高
  • 如果需要保留顺序且使用Python3.7+,优先选择字典fromkeys去重,代码简洁
  • 如果需要兼容低版本Python且保留顺序,选择列表推导式+集合的去重方式
  • 如果是不可哈希的复杂数据类型,先转换为可哈希类型再选择对应去重方案

Python数据去重set字典列表推导式修改时间:2026-06-10 22:18:22

免责声明:​ 已尽一切努力确保本网站所含信息的准确性。网站内容多为原创整理与精心编撰,观点力求客观中立。本站旨在免费分享,内容仅供个人学习、研究或参考使用。若引用了第三方作品,版权归原作者所有。如内容涉及您的权益,请联系我们处理。
内容垂直聚焦
专注技术核心技术栏目,确保每篇文章深度聚焦于实用技能。从代码技巧到架构设计,为用户提供无干扰的纯技术知识沉淀,精准满足专业提升需求。
知识结构清晰
覆盖从开发到部署的全链路。AI、前端、编程、数据库、服务器、建站、系统层层递进,构建清晰学习路径,帮助用户系统化掌握开发与运维所需的核心技术。
深度技术解析
拒绝泛泛而谈,深入技术细节与实践难点。无论是数据库优化还是服务器配置,均结合真实场景与代码示例进行剖析,致力于提供可直接应用于工作的解决方案。
专业领域覆盖
精准对应开发生命周期。从前端界面到后端编程,从数据库操作到服务器运维,形成完整闭环,一站式满足全栈工程师和运维人员的技术需求。
即学即用高效
内容强调实操性,步骤清晰、代码完整。用户可根据教程直接复现和应用于自身项目,显著缩短从学习到实践的距离,快速解决开发中的具体问题。
持续更新保障
专注既定技术方向进行长期、稳定的内容输出。确保各栏目技术文章持续更新迭代,紧跟主流技术发展趋势,为用户提供经久不衰的学习价值。