在Java开发中,处理CSV格式数据是常见需求,很多开发者会尝试用split方法快速解析CSV字符串,但CSV中的转义规则、引号包裹内容等特性会让简单split方法失效。本文介绍如何结合split方法与转义处理逻辑,手动实现简单CSV字符串的解析。

CSV格式的基础规则
标准的简单CSV格式遵循以下基础规则:
- 字段之间默认使用英文逗号分隔
- 如果字段内容包含逗号、换行符或者双引号,需要使用双引号将整个字段包裹
- 字段内部的双引号需要转义为两个连续的双引号
- 行与行之间使用换行符分隔
直接使用split方法的缺陷
很多开发者第一反应是用String的split方法按逗号分割字段,这种方式只适用于没有任何转义、没有引号包裹的简单场景,一旦遇到复杂内容就会出错。比如下面的CSV行:
// 包含引号包裹和内部逗号的CSV行
String csvLine = "张三,"北京市,海淀区",28";
// 直接用split分割
String[] wrongSplit = csvLine.split(",");
// 输出结果会错误分割引号内的逗号
for (String s : wrongSplit) {
System.out.println(s);
}
上述代码会把北京市,海淀区错误分割成两个字段,不符合CSV的实际规则。
手动解析CSV的核心思路
手动解析需要遍历字符串的每个字符,记录当前是否在引号包裹的字段内,遇到不同字符做不同处理:
- 如果当前不在引号内,遇到逗号则结束当前字段,开始下一个字段
- 如果当前在引号内,遇到双引号需要判断是转义还是字段结束
- 遇到换行符则结束当前行解析
完整实现代码示例
下面是一个支持基础转义处理的CSV行解析实现:
import java.util.ArrayList;
import java.util.List;
public class CsvParser {
/**
* 解析单行CSV字符串,返回字段列表
* @param line 待解析的CSV行
* @return 解析后的字段集合
*/
public static List<String> parseLine(String line) {
List<String> fields = new ArrayList<>();
StringBuilder currentField = new StringBuilder();
// 标记当前是否在引号包裹的字段内
boolean inQuotes = false;
int length = line.length();
for (int i = 0; i < length; i++) {
char c = line.charAt(i);
if (c == '"') {
// 处理双引号:如果是两个连续双引号则是转义,否则切换inQuotes状态
if (i + 1 < length && line.charAt(i + 1) == '"') {
currentField.append('"');
i++; // 跳过下一个双引号
} else {
inQuotes = !inQuotes;
}
} else if (c == ',' && !inQuotes) {
// 不在引号内遇到逗号,结束当前字段
fields.add(currentField.toString());
currentField.setLength(0);
} else {
// 其他字符直接追加到当前字段
currentField.append(c);
}
}
// 添加最后一个字段
fields.add(currentField.toString());
return fields;
}
public static void main(String[] args) {
// 测试用例1:普通无转义CSV
String line1 = "张三,男,25";
System.out.println("测试用例1结果:" + parseLine(line1));
// 测试用例2:包含引号包裹的字段
String line2 = "李四,"上海市,浦东新区",30";
System.out.println("测试用例2结果:" + parseLine(line2));
// 测试用例3:字段内部有转义双引号
String line3 = "王五,"他说""你好""",28";
System.out.println("测试用例3结果:" + parseLine(line3));
}
}
解析结果说明
上述代码的输出结果如下:
| 测试用例 | 输入内容 | 解析结果 |
|---|---|---|
| 用例1 | 张三,男,25 | [张三, 男, 25] |
| 用例2 | 李四,"上海市,浦东新区",30 | [李四, 上海市,浦东新区, 30] |
| 用例3 | 王五,"他说""你好""",28 | [王五, 他说"你好", 28] |
注意事项
上述实现是基础版本,仅支持简单的CSV解析场景,实际使用中还需要注意:
- 如果CSV包含换行符在引号内的场景,需要扩展到多行解析逻辑
- 如果字段内的双引号没有正确转义,解析会出现异常,需要添加异常处理逻辑
- 如果需要解析整个CSV文件,可以在此基础上添加行遍历逻辑,逐行调用parseLine方法
手动解析CSV适合轻量场景,如果需要处理复杂的CSV规则,建议使用Apache Commons CSV或者OpenCSV等成熟的开源库,避免重复造轮子。