在数据处理相关的Java开发中,对比两个CSV文件的数据一致性是常见需求,但很多时候两个文件的列顺序存在差异,比如一个文件的列顺序是姓名、年龄、性别,另一个文件的列顺序是年龄、姓名、性别,这种场景下无法直接逐行逐列对比,需要更灵活的方案。

基础CSV文件读取
要实现对比功能,首先需要正确读取CSV文件的内容,这里使用开源库Apache Commons CSV来简化读取操作,先添加依赖:
<dependency>
<groupId>org.apache.commons</groupId>
<artifactId>commons-csv</artifactId>
<version>1.10.0</version>
</dependency>
读取CSV文件的示例代码:
import org.apache.commons.csv.CSVFormat;
import org.apache.commons.csv.CSVParser;
import org.apache.commons.csv.CSVRecord;
import java.io.FileReader;
import java.io.Reader;
import java.util.ArrayList;
import java.util.List;
public class CsvReaderUtil {
// 读取CSV文件,返回表头和行数据
public static CsvData readCsv(String filePath) throws Exception {
Reader reader = new FileReader(filePath);
CSVParser parser = CSVFormat.DEFAULT.withFirstRecordAsHeader().parse(reader);
List<String> headers = new ArrayList<>(parser.getHeaderMap().keySet());
List<List<String>> rows = new ArrayList<>();
for (CSVRecord record : parser) {
List<String> row = new ArrayList<>();
for (String header : headers) {
row.add(record.get(header));
}
rows.add(row);
}
parser.close();
reader.close();
return new CsvData(headers, rows);
}
// 封装CSV数据的内部类
static class CsvData {
private List<String> headers;
private List<List<String>> rows;
public CsvData(List<String> headers, List<List<String>> rows) {
this.headers = headers;
this.rows = rows;
}
public List<String> getHeaders() {
return headers;
}
public List<List<String>> getRows() {
return rows;
}
}
}
基于列名映射的对比方法
列序不同的核心问题是两个文件的列对应关系不明确,因此首先需要建立两个文件列名的映射关系,假设我们明确知道两个文件的列含义对应,比如文件1的姓名列对应文件2的name列,年龄列对应age列,建立映射后再按映射后的列顺序对比数据。
步骤1:定义列名映射关系
假设文件1的表头是[姓名, 年龄, 性别],文件2的表头是[age, name, gender],我们可以定义映射关系:
import java.util.HashMap;
import java.util.Map;
public class ColumnMapping {
// key是文件1的列名,value是文件2的对应列名
public static Map<String, String> getMapping() {
Map<String, String> mapping = new HashMap<>();
mapping.put("姓名", "name");
mapping.put("年龄", "age");
mapping.put("性别", "gender");
return mapping;
}
}
步骤2:执行数据对比
根据映射关系,将两个文件的行数据转换为统一的列顺序后再对比:
import java.util.*;
public class CsvComparator {
// 对比两个CSV数据是否一致,考虑列序不同的情况
public static boolean compareCsv(CsvReaderUtil.CsvData data1, CsvReaderUtil.CsvData data2, Map<String, String> columnMapping) {
// 先检查行数是否一致
if (data1.getRows().size() != data2.getRows().size()) {
System.out.println("两个CSV文件的行数不一致");
return false;
}
// 构建文件2的列名到索引的映射,方便快速取值
Map<String, Integer> data2HeaderIndex = new HashMap<>();
List<String> data2Headers = data2.getHeaders();
for (int i = 0; i < data2Headers.size(); i++) {
data2HeaderIndex.put(data2Headers.get(i), i);
}
// 逐行对比
List<List<String>> rows1 = data1.getRows();
List<List<String>> rows2 = data2.getRows();
for (int rowIdx = 0; rowIdx < rows1.size(); rowIdx++) {
List<String> row1 = rows1.get(rowIdx);
List<String> row2 = rows2.get(rowIdx);
// 按文件1的列顺序,根据映射取文件2的对应列值对比
for (int colIdx = 0; colIdx < data1.getHeaders().size(); colIdx++) {
String header1 = data1.getHeaders().get(colIdx);
String header2 = columnMapping.get(header1);
if (header2 == null) {
// 如果没有映射关系,跳过该列
continue;
}
Integer colIdx2 = data2HeaderIndex.get(header2);
if (colIdx2 == null) {
System.out.println("文件2中不存在列:" + header2);
return false;
}
String value1 = row1.get(colIdx);
String value2 = row2.get(colIdx2);
// 处理空值,将空字符串和null视为相等
if (isEmpty(value1) && isEmpty(value2)) {
continue;
}
if (!Objects.equals(value1, value2)) {
System.out.println("第" + (rowIdx + 1) + "行,列" + header1 + "数据不一致,值1:" + value1 + ",值2:" + value2);
return false;
}
}
}
return true;
}
// 判断字符串是否为空
private static boolean isEmpty(String str) {
return str == null || str.trim().isEmpty();
}
public static void main(String[] args) {
try {
CsvReaderUtil.CsvData data1 = CsvReaderUtil.readCsv("file1.csv");
CsvReaderUtil.CsvData data2 = CsvReaderUtil.readCsv("file2.csv");
Map<String, String> mapping = ColumnMapping.getMapping();
boolean result = compareCsv(data1, data2, mapping);
System.out.println("CSV数据一致性对比结果:" + result);
} catch (Exception e) {
e.printStackTrace();
}
}
}
优化方案:自动识别列名映射
如果手动定义列映射比较麻烦,可以通过列名的相似度自动匹配对应关系,比如处理大小写差异、同义词等情况,示例逻辑如下:
import java.util.*;
public class AutoColumnMapper {
// 自动匹配两个CSV文件的列名映射
public static Map<String, String> autoMapHeaders(List<String> headers1, List<String> headers2) {
Map<String, String> mapping = new HashMap<>();
// 先处理大小写不敏感的匹配
Map<String, String> lowerCaseHeaders2 = new HashMap<>();
for (String h : headers2) {
lowerCaseHeaders2.put(h.toLowerCase().trim(), h);
}
for (String h1 : headers1) {
String lowerH1 = h1.toLowerCase().trim();
if (lowerCaseHeaders2.containsKey(lowerH1)) {
mapping.put(h1, lowerCaseHeaders2.get(lowerH1));
}
}
// 未匹配到的列可以打印提示
for (String h1 : headers1) {
if (!mapping.containsKey(h1)) {
System.out.println("未找到文件2中与列" + h1 + "匹配的列");
}
}
return mapping;
}
}
在实际使用时,只需要将之前的手动映射替换为自动映射即可,适配更多列名存在细微差异的场景。
忽略无关列的对比方案
如果两个CSV文件存在部分列不需要对比,可以在映射阶段排除这些列,或者在对比时跳过指定的列名,示例中可以新增一个忽略列集合:
public class CsvComparatorWithIgnore {
// 对比时忽略指定列
public static boolean compareWithIgnore(CsvReaderUtil.CsvData data1, CsvReaderUtil.CsvData data2, Map<String, String> columnMapping, Set<String> ignoreColumns) {
if (data1.getRows().size() != data2.getRows().size()) {
return false;
}
Map<String, Integer> data2HeaderIndex = new HashMap<>();
List<String> data2Headers = data2.getHeaders();
for (int i = 0; i < data2Headers.size(); i++) {
data2HeaderIndex.put(data2Headers.get(i), i);
}
List<List<String>> rows1 = data1.getRows();
List<List<String>> rows2 = data2.getRows();
for (int rowIdx = 0; rowIdx < rows1.size(); rowIdx++) {
List<String> row1 = rows1.get(rowIdx);
List<String> row2 = rows2.get(rowIdx);
for (int colIdx = 0; colIdx < data1.getHeaders().size(); colIdx++) {
String header1 = data1.getHeaders().get(colIdx);
// 跳过忽略的列
if (ignoreColumns.contains(header1)) {
continue;
}
String header2 = columnMapping.get(header1);
if (header2 == null) {
continue;
}
Integer colIdx2 = data2HeaderIndex.get(header2);
if (colIdx2 == null) {
return false;
}
String value1 = row1.get(colIdx);
String value2 = row2.get(colIdx2);
if (isEmpty(value1) && isEmpty(value2)) {
continue;
}
if (!Objects.equals(value1, value2)) {
return false;
}
}
}
return true;
}
private static boolean isEmpty(String str) {
return str == null || str.trim().isEmpty();
}
}
这种方案可以灵活适配只需要对比核心字段的场景,减少不必要的对比逻辑。