基于二进制偏移量的文件数据库查询引擎核心思路是将数据按固定或动态格式写入二进制文件,同时维护一份偏移量索引记录每条数据的起始位置和长度,查询时直接通过索引定位到文件对应位置读取数据,避免全量扫描。

核心设计思路
整个引擎分为三个核心部分:数据存储结构、偏移量索引管理、查询逻辑实现。数据文件采用二进制格式写入,每条记录包含头部元信息和实际数据内容,索引文件单独存储每条记录的偏移量、长度、唯一标识等信息。
数据结构定义
首先定义单条记录的结构,包含记录ID、数据长度、实际数据内容,写入文件时按二进制格式序列化:
#include <iostream>
#include <fstream>
#include <string>
#include <vector>
#include <unordered_map>
// 单条记录的结构定义
struct Record {
int id; // 记录唯一ID
int data_len; // 数据内容长度
std::string data; // 实际数据内容
};
// 偏移量索引项,记录ID对应的文件偏移和长度
struct IndexItem {
int id;
long offset; // 记录在数据文件中的起始偏移量
int length; // 记录的总长度(id+data_len+data的总字节数)
};
数据写入与索引维护
写入数据时,先将记录序列化为二进制格式写入数据文件,同时记录当前写入位置的偏移量,将偏移量信息存入索引结构:
// 将数据记录写入文件,并返回写入的偏移量和总长度
IndexItem write_record(std::ofstream& data_file, const Record& record) {
IndexItem item;
item.id = record.id;
// 获取当前文件写入位置作为偏移量
item.offset = data_file.tellp();
// 序列化写入:先写id,再写data_len,最后写data内容
data_file.write(reinterpret_cast<const char*>(&record.id), sizeof(record.id));
data_file.write(reinterpret_cast<const char*>(&record.data_len), sizeof(record.data_len));
data_file.write(record.data.c_str(), record.data_len);
// 计算当前记录的总长度
item.length = sizeof(record.id) + sizeof(record.data_len) + record.data_len;
return item;
}
// 维护内存中的索引,也可以持久化到索引文件
std::unordered_map<int, IndexItem> index_map;
// 示例:写入两条测试记录
void test_write() {
std::ofstream data_file("data.db", std::ios::binary | std::ios::app);
if (!data_file.is_open()) {
std::cout << "打开数据文件失败" << std::endl;
return;
}
Record r1;
r1.id = 1;
r1.data = "hello_world_test_data";
r1.data_len = r1.data.size();
IndexItem idx1 = write_record(data_file, r1);
index_map[r1.id] = idx1;
Record r2;
r2.id = 2;
r2.data = "second_record_content_here";
r2.data_len = r2.data.size();
IndexItem idx2 = write_record(data_file, r2);
index_map[r2.id] = idx2;
data_file.close();
}
基于偏移量的查询实现
查询时直接从内存索引中获取目标ID对应的偏移量和长度,定位到数据文件对应位置读取数据,反序列化为Record结构返回:
// 根据记录ID查询数据,返回对应的Record,不存在返回空结构体
Record query_record(std::ifstream& data_file, int target_id) {
Record result;
result.id = -1; // 标记为无效
// 先查内存索引
auto it = index_map.find(target_id);
if (it == index_map.end()) {
return result;
}
IndexItem item = it->second;
// 定位到文件对应偏移量
data_file.seekg(item.offset, std::ios::beg);
// 读取id
data_file.read(reinterpret_cast<char*>(&result.id), sizeof(result.id));
// 读取数据长度
data_file.read(reinterpret_cast<char*>(&result.data_len), sizeof(result.data_len));
// 读取实际数据内容
result.data.resize(result.data_len);
data_file.read(&result.data[0], result.data_len);
return result;
}
// 示例查询逻辑
void test_query() {
std::ifstream data_file("data.db", std::ios::binary);
if (!data_file.is_open()) {
std::cout << "打开数据文件失败" << std::endl;
return;
}
Record res = query_record(data_file, 1);
if (res.id != -1) {
std::cout << "查询到ID为1的记录,内容:" << res.data << std::endl;
} else {
std::cout << "未找到对应记录" << std::endl;
}
data_file.close();
}
进阶优化方向
基础版本的内存索引在重启后会丢失,可将索引持久化到单独的文件,启动时加载索引到内存;如果数据量较大,可采用B+树结构维护偏移量索引,支持范围查询;另外可以增加数据删除标记、碎片整理逻辑,避免删除数据后空间浪费。需要注意的是二进制读写时要严格保证数据类型长度一致,避免不同平台下的兼容性问题,写入字符串时要先记录长度再写内容,防止读取时出现越界错误。