在Pandas的日常使用中,添加新行、去重和维护ID序列是高频操作,不同的实现方式会带来完全不同的性能表现和结果准确性,掌握最佳实践能大幅提升数据处理效率。

一、Pandas高效添加新行的方法
添加新行时需要根据数据量和场景选择合适的方式,避免性能损耗。
1. 单条/少量新行添加
如果只需要添加少量新行,使用loc方法是最直观的方式,示例如下:
import pandas as pd
# 初始化原始数据
df = pd.DataFrame({
'id': [1, 2, 3],
'name': ['张三', '李四', '王五'],
'score': [85, 90, 88]
})
# 添加单条新行
df.loc[len(df)] = [4, '赵六', 92]
print(df)
2. 批量新行添加
当需要添加多条新行时,先构造DataFrame再使用concat拼接的效率远高于循环调用loc,示例如下:
# 构造批量新行数据
new_rows = pd.DataFrame({
'id': [5, 6],
'name': ['孙七', '周八'],
'score': [89, 91]
})
# 拼接数据
df = pd.concat([df, new_rows], ignore_index=True)
print(df)
二、Pandas数据去重的最佳实践
去重操作需要根据业务需求选择判断重复的依据,常用方法如下:
1. 基于全部列去重
如果只要所有列的值都完全相同才判定为重复,直接使用drop_duplicates即可:
# 添加重复行用于测试
df = pd.concat([df, pd.DataFrame({'id': [5], 'name': ['孙七'], 'score': [89]})], ignore_index=True)
# 全列去重
df = df.drop_duplicates()
print(df)
2. 基于指定列去重
如果只需要根据部分列判断重复,比如只根据name列去重,保留第一次出现的数据:
df = df.drop_duplicates(subset=['name'], keep='first') print(df)
三、ID序列维护的最佳实践
添加新行和去重操作很容易导致ID序列出现断层或者不唯一的问题,需要单独处理ID列。
1. 去重后重置ID序列
去重完成后,重新生成连续的ID序列,保证ID从1开始自增:
df['id'] = range(1, len(df) + 1) print(df)
2. 添加新行时自动维护ID
添加新行前先获取当前最大的ID值,新行的ID基于最大值自增,避免ID重复:
# 获取当前最大ID
max_id = df['id'].max() if len(df) > 0 else 0
# 构造新行,ID自动自增
new_row = pd.DataFrame({'id': [max_id + 1], 'name': ['吴九'], 'score': [93]})
df = pd.concat([df, new_row], ignore_index=True)
print(df)
四、完整流程示例
将添加新行、去重、ID维护的流程整合,形成完整的可复用逻辑:
def process_data(df, new_rows):
# 1. 拼接新行
if new_rows is not None and len(new_rows) > 0:
df = pd.concat([df, new_rows], ignore_index=True)
# 2. 基于name列去重,保留第一次出现的数据
df = df.drop_duplicates(subset=['name'], keep='first')
# 3. 重置ID序列,保证连续自增
df['id'] = range(1, len(df) + 1)
return df
# 测试完整流程
original_df = pd.DataFrame({
'id': [1, 2, 3],
'name': ['张三', '李四', '王五'],
'score': [85, 90, 88]
})
add_rows = pd.DataFrame({
'id': [None, None],
'name': ['赵六', '张三'],
'score': [92, 85]
})
result_df = process_data(original_df, add_rows)
print(result_df)
通过上述方法,可以在Pandas数据处理过程中高效完成新行添加、去重操作,同时保证ID序列的连续性和唯一性,适配大多数业务场景的数据维护需求。