在C++开发中,读取并解析CSV文件是处理结构化数据的常见需求,CSV文件以逗号分隔字段,通常第一行是表头,后续每行对应一条数据记录。解析的核心是先读取文件内容,再按规则拆分字段,同时处理字段被引号包裹、字段内包含逗号或换行符等特殊情况。

基础CSV解析实现
最基础的CSV解析逻辑是逐行读取文件,再用逗号分割每行的字段。首先我们需要包含必要的头文件,然后使用ifstream打开文件,逐行读取内容后用stringstream分割字段。
#include <iostream>
#include <fstream>
#include <sstream>
#include <vector>
#include <string>
using namespace std;
// 解析单行CSV数据,返回字段列表
vector<string> parse_csv_line(const string& line) {
vector<string> fields;
stringstream ss(line);
string field;
// 按逗号分割字段
while (getline(ss, field, ',')) {
fields.push_back(field);
}
return fields;
}
int main() {
ifstream file("test.csv");
if (!file.is_open()) {
cout << "无法打开CSV文件" << endl;
return 1;
}
string line;
// 先读取表头
if (getline(file, line)) {
vector<string> headers = parse_csv_line(line);
cout << "表头字段:" << endl;
for (const auto& header : headers) {
cout << header << " ";
}
cout << endl;
}
// 读取数据行
while (getline(file, line)) {
vector<string> data = parse_csv_line(line);
cout << "数据行字段:" << endl;
for (const auto& field : data) {
cout << field << " ";
}
cout << endl;
}
file.close();
return 0;
}
处理带引号的字段
上面的基础实现无法处理字段被双引号包裹的情况,比如字段内容包含逗号时,通常会用双引号将整个字段包裹,例如"张三,男",25,北京这样的内容,直接按逗号分割会把姓名字段错误拆成两部分。我们需要修改解析逻辑,识别引号包裹的字段,忽略字段内的逗号。
#include <iostream>
#include <fstream>
#include <sstream>
#include <vector>
#include <string>
using namespace std;
// 增强版CSV行解析,支持引号包裹的字段
vector<string> parse_csv_line_advanced(const string& line) {
vector<string> fields;
string field;
bool in_quotes = false; // 标记是否在引号包裹的字段内
for (size_t i = 0; i < line.size(); ++i) {
char c = line[i];
if (c == '"') {
// 处理双引号,如果是两个连续的双引号则是一个转义的双引号
if (i + 1 < line.size() && line[i + 1] == '"') {
field += '"';
++i; // 跳过下一个双引号
} else {
in_quotes = !in_quotes;
}
} else if (c == ',' && !in_quotes) {
// 不在引号内遇到逗号,说明一个字段结束
fields.push_back(field);
field.clear();
} else {
field += c;
}
}
// 添加最后一个字段
fields.push_back(field);
return fields;
}
int main() {
ifstream file("test_advanced.csv");
if (!file.is_open()) {
cout << "无法打开CSV文件" << endl;
return 1;
}
string line;
while (getline(file, line)) {
vector<string> data = parse_csv_line_advanced(line);
cout << "解析结果:" << endl;
for (const auto& field : data) {
cout << "[" << field << "] ";
}
cout << endl;
}
file.close();
return 0;
}
特殊场景处理与优化
实际使用中还会遇到字段内包含换行符的情况,比如某个字段用引号包裹,内部有换行,这时候不能按行分割后直接解析,需要拼接跨行的字段内容。我们可以在读取时判断是否在引号包裹的字段内,如果是则继续读取下一行拼接到当前行。
#include <iostream>
#include <fstream>
#include <vector>
#include <string>
using namespace std;
// 读取并拼接跨行的CSV内容,处理字段内的换行符
string read_csv_line(ifstream& file, bool& in_quotes) {
string line;
string full_line;
while (getline(file, line)) {
full_line += line;
// 检查当前行是否有未闭合的引号
for (char c : line) {
if (c == '"') {
// 转义双引号判断
size_t pos = &c - &line[0];
if (pos + 1 < line.size() && line[pos + 1] == '"') {
continue;
}
in_quotes = !in_quotes;
}
}
// 如果不在引号内,说明当前行是一个完整的CSV行
if (!in_quotes) {
break;
}
// 如果在引号内,拼接换行符继续读取下一行
full_line += 'n';
}
return full_line;
}
int main() {
ifstream file("test_multiline.csv");
if (!file.is_open()) {
cout << "无法打开CSV文件" << endl;
return 1;
}
bool in_quotes = false;
string line;
while (!file.eof()) {
line = read_csv_line(file, in_quotes);
if (line.empty()) {
continue;
}
// 这里可以调用之前的parse_csv_line_advanced解析当前行
cout << "读取到完整CSV行:" << line << endl;
}
file.close();
return 0;
}
解析结果存储
解析完成后,通常需要将结果存储为结构化的形式,比如用vector<vector<string>>存储所有行的字段,或者用map<string, string>将表头和数据行对应,方便后续按字段名获取数据。
#include <iostream>
#include <fstream>
#include <vector>
#include <string>
#include <map>
using namespace std;
// 解析CSV文件,返回表头和所有数据行(每行是字段名到值的映射)
bool parse_csv_file(const string& filename, vector<string>& headers, vector<map<string, string>>& data) {
ifstream file(filename);
if (!file.is_open()) {
return false;
}
string line;
// 读取表头
if (!getline(file, line)) {
file.close();
return false;
}
// 这里可以调用之前的parse_csv_line_advanced解析表头
stringstream ss(line);
string header;
while (getline(ss, header, ',')) {
headers.push_back(header);
}
// 读取数据行
while (getline(file, line)) {
// 解析数据行字段,这里简化使用基础分割,实际可替换为高级解析函数
stringstream data_ss(line);
string field;
vector<string> fields;
while (getline(data_ss, field, ',')) {
fields.push_back(field);
}
map<string, string> row;
for (size_t i = 0; i < headers.size() && i < fields.size(); ++i) {
row[headers[i]] = fields[i];
}
data.push_back(row);
}
file.close();
return true;
}
int main() {
vector<string> headers;
vector<map<string, string>> data;
if (parse_csv_file("test.csv", headers, data)) {
cout << "解析完成,共" << data.size() << "条数据" << endl;
// 输出第一条数据的姓名(假设表头有姓名)
if (!data.empty() && data[0].count("姓名")) {
cout << "第一条数据的姓名:" << data[0]["姓名"] << endl;
}
} else {
cout << "解析CSV文件失败" << endl;
}
return 0;
}