在Python的数据处理场景中,pandas库的concat函数是实现数据对象合并的重要工具,它可以对Series、DataFrame等数据结构进行灵活的拼接操作,适配多种数据处理需求。

concat函数基本语法
concat函数属于pandas库的顶层函数,基本调用格式如下:
import pandas as pd # 基本语法 pd.concat(objs, axis=0, join='outer', ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, sort=False, copy=True)
其中最常用的参数有三个:
- objs:需要合并的数据对象序列,通常是列表形式,包含要拼接的Series或DataFrame
- axis:拼接方向,0表示按行拼接(纵向),1表示按列拼接(横向),默认值为0
- join:合并方式,outer表示外连接保留所有数据,inner表示内连接只保留交集部分,默认值为outer
按行拼接DataFrame
按行拼接是concat函数最常见的使用场景,适合将多个结构相同的DataFrame纵向合并为一个。
import pandas as pd
# 创建两个测试DataFrame
df1 = pd.DataFrame({
'name': ['张三', '李四'],
'age': [20, 22],
'score': [85, 90]
})
df2 = pd.DataFrame({
'name': ['王五', '赵六'],
'age': [21, 23],
'score': [88, 92]
})
# 按行拼接,默认保留原索引
result1 = pd.concat([df1, df2])
print(result1)
# 重置索引,避免索引重复
result2 = pd.concat([df1, df2], ignore_index=True)
print(result2)
第一个拼接结果会保留两个原始DataFrame的原有索引,第二个拼接结果通过ignore_index参数重置了索引,索引会从0开始连续排列。
按列拼接DataFrame
将axis参数设置为1就可以实现横向的按列拼接,适合合并不同特征的DataFrame。
import pandas as pd
# 创建两个列不同的DataFrame
df3 = pd.DataFrame({
'name': ['张三', '李四', '王五'],
'age': [20, 22, 21]
})
df4 = pd.DataFrame({
'name': ['张三', '李四', '王五'],
'score': [85, 90, 88]
})
# 按列外连接拼接
result3 = pd.concat([df3, df4], axis=1)
print(result3)
# 按列内连接拼接
result4 = pd.concat([df3, df4], axis=1, join='inner')
print(result4)
外连接会保留所有行,内连接只会保留两个DataFrame都存在的行,这里两个DataFrame的行完全匹配,所以两种拼接结果一致。
处理索引冲突的情况
当合并的数据对象存在索引冲突时,可以通过参数调整处理方式。
import pandas as pd
df5 = pd.DataFrame({'a': [1, 2]}, index=[0, 1])
df6 = pd.DataFrame({'b': [3, 4]}, index=[1, 2])
# 外连接拼接,默认处理重复索引
result5 = pd.concat([df5, df6], axis=1)
print(result5)
# 重置索引避免冲突
result6 = pd.concat([df5, df6], axis=1, ignore_index=False)
print(result6)
拼接后不存在的列会用NaN填充,如果需要严格检查索引是否重复,可以设置verify_integrity为True,此时存在重复索引会直接抛出异常。
合并Series对象
concat函数同样支持Series对象的合并,用法和合并DataFrame类似。
import pandas as pd s1 = pd.Series([1, 2, 3], name='col1') s2 = pd.Series([4, 5, 6], name='col2') # 合并两个Series为DataFrame result7 = pd.concat([s1, s2], axis=1) print(result7) # 按行合并Series result8 = pd.concat([s1, s2], axis=0) print(result8)
常用参数总结
为了方便查阅,这里整理concat函数的常用参数及含义:
| 参数名 | 参数含义 | 默认值 |
|---|---|---|
| objs | 待合并的数据对象列表 | 无 |
| axis | 拼接方向,0为行,1为列 | 0 |
| join | 合并方式,outer外连接,inner内连接 | outer |
| ignore_index | 是否重置索引,True则重新生成连续索引 | False |
| keys | 用于创建多层索引,区分不同来源的数据 | None |
| verify_integrity | 是否检查索引是否重复,True时重复则报错 | False |