MySQL主从复制是构建数据库集群的核心技术之一,在集群模式下,其实现机制需要在保证数据一致性的同时,适配多节点协同的运行场景,核心围绕日志传输、事务重放、节点协同三个维度展开。

集群模式下主从复制的核心组件
集群模式下的主从复制依赖多个核心组件协同工作,各组件的职责与基础单机主从复制存在差异,适配集群的多节点特性:
- 主库binlog:主库所有数据变更都会记录到二进制日志binlog中,集群模式下binlog需要支持全局事务标识,方便跨节点的事务追踪。
- 从库IO线程:负责向主库拉取binlog日志,在集群模式下需要支持多主库的连接切换,应对主库故障场景。
- 从库SQL线程/并行重放线程:负责读取本地的中继日志relay_log,将事务在从库重放,集群模式下通常开启并行重放提升同步效率。
- GTID全局事务标识:集群模式下每个事务都有唯一的全局标识,避免事务重复执行或者遗漏。
集群模式下的完整同步流程
集群模式下的主从复制流程在基础主从复制之上增加了集群适配逻辑,整体流程分为四个步骤:
1. 主库事务提交与binlog写入
主库执行写事务时,先将事务的变更记录写入binlog缓存,事务提交时,将缓存的binlog刷入磁盘,同时生成对应的GTID标识。如果是集群中的多主节点场景,binlog还会记录节点来源标识,避免循环复制。
以下是binlog相关的基础配置示例,集群模式下需要开启GTID相关参数:
-- 开启binlog SET GLOBAL log_bin = ON; -- 设置binlog格式为行模式,集群模式下更可靠 SET GLOBAL binlog_format = ROW; -- 开启GTID模式 SET GLOBAL gtid_mode = ON; SET GLOBAL enforce_gtid_consistency = ON; -- 设置server_id,集群内每个节点必须唯一 SET GLOBAL server_id = 1;
2. 从库拉取binlog到本地relay_log
从库的IO线程会向主库发起binlog拉取请求,主库将对应的binlog事件发送给从库,从库IO线程接收到事件后,将其写入本地的中继日志relay_log中,同时记录当前拉取到的binlog位置和GTID集合。集群模式下,从库会同时维护多个主库的拉取位点,方便主库切换时快速衔接。
3. 从库重放relay_log事务
从库的SQL线程(或并行重放线程)会读取relay_log中的事务事件,按照事务顺序在从库执行对应的变更操作。集群模式下默认开启基于GTID的并行重放,不同GTID的事务可以并行执行,提升同步效率,同时保证同一GTID的事务不会重复执行。
从库开启并行重放的配置示例:
-- 开启并行重放 SET GLOBAL slave_parallel_workers = 4; -- 基于GTID的并行重放模式 SET GLOBAL slave_parallel_type = LOGICAL_CLOCK; -- 启动从库复制 START SLAVE;
4. 集群节点状态同步与故障切换
集群的管理组件会定期收集所有主从节点的复制状态,包括延迟、GTID集合、binlog位点等信息。当主库出现故障时,管理组件会从从库中选取GTID集合最完整的节点提升为新主库,其他从库自动切换到新主库继续拉取binlog,整个过程依赖GTID保证数据不丢失、不重复。
集群模式下的关键保障机制
为了保证集群场景下主从复制的可靠性,还有几个核心机制需要重点关注:
半同步复制机制
基础的主从复制是异步的,主库提交事务后不需要等待从库确认,集群模式下通常开启半同步复制,主库提交事务后,需要等待至少一个从库接收到binlog并写入relay_log后,才返回事务提交成功,避免主库故障导致数据丢失。
半同步复制的配置示例:
-- 主库安装半同步插件 INSTALL PLUGIN rpl_semi_sync_master SONAME 'semisync_master.so'; -- 开启主库半同步 SET GLOBAL rpl_semi_sync_master_enabled = ON; -- 从库安装半同步插件 INSTALL PLUGIN rpl_semi_sync_slave SONAME 'semisync_slave.so'; -- 开启从库半同步 SET GLOBAL rpl_semi_sync_slave_enabled = ON;
循环复制规避机制
多主集群场景下,从库拉取主库的binlog重放后,生成的binlog可能会被其他主库拉取,导致循环复制。集群模式下会通过GTID和节点标识过滤,从库重放事务时不会将对应事务的binlog再发送给其他主库,从根源规避循环复制问题。
复制延迟监控机制
集群模式下需要实时监控主从复制延迟,避免延迟过大影响读请求的负载均衡。可以通过SHOW SLAVE STATUS命令查看Seconds_Behind_Master字段,也可以通过GTID集合的差值计算更精准的延迟情况。
查看复制状态的示例命令:
-- 查看从库复制状态 SHOW SLAVE STATUSG; -- 查看当前节点的GTID集合 SELECT @@GLOBAL.gtid_executed;
常见问题与排查思路
集群模式下主从复制出现问题,通常可以按照以下思路排查:
- 如果是复制中断,先查看
SHOW SLAVE STATUS中的Last_Error字段,定位错误原因,常见原因包括主键冲突、表结构不一致等。 - 如果是复制延迟过大,检查从库的重放线程是否正常,是否需要增加并行重放的工作线程数,或者排查从库是否有慢查询占用资源。
- 如果是主库切换后复制异常,检查新主库的GTID集合是否完整,从库的拉取位点是否正确,是否需要重置从库复制配置重新搭建同步。