mysql主从复制延迟指的是主库执行的事务在从库上不能及时重放,导致从库数据落后于主库的现象,这种情况会直接影响读写分离场景下的数据一致性,甚至引发业务故障。
mysql主从复制延迟的常见原因
主库侧原因
主库如果写入压力过大,产生binlog的速度超过从库拉取和重放的速度,就会形成延迟。比如主库短时间内执行大量批量写入、大事务操作,这类事务包含的SQL数量多、执行时间长,生成binlog的耗时也会增加,从库需要等待整个事务的binlog传输完成才能开始重放,自然会产生延迟。
网络传输原因
主从库之间的网络带宽不足、网络延迟高,会导致binlog从主库传输到从库的速度变慢,从库的IO线程无法及时获取新的binlog事件,复制进程就会卡住,进而产生延迟。如果主从库跨地域部署,这种网络问题会更明显。
从库侧原因
从库的硬件配置低于主库,比如CPU、内存、磁盘IO性能不足,会导致SQL线程重放binlog的速度跟不上。另外从库上如果开启了其他耗资源的业务查询,占用了大量系统资源,也会挤压SQL线程的执行资源,导致延迟。还有从库的参数配置不合理,比如slave_parallel_workers设置过小,没有开启并行复制,也会降低重放效率。
mysql主从复制延迟的排查方法
查看主从复制状态
首先可以在从库执行以下命令查看复制状态,重点关注Seconds_Behind_Master字段,这个字段表示从库落后主库的秒数,数值越大延迟越严重。
-- 查看从库复制状态 SHOW SLAVE STATUSG;
如果Seconds_Behind_Master为NULL,说明复制进程出现异常,需要查看Last_Error字段定位错误原因;如果是具体数值,说明复制还在运行,只是存在延迟。
定位延迟产生的环节
可以通过对比主从库的binlog位点判断延迟是出在传输环节还是重放环节。在主库执行以下命令查看当前binlog位点:
-- 查看主库当前binlog信息 SHOW MASTER STATUSG;
再对比从库SHOW SLAVE STATUS输出中的Master_Log_File、Read_Master_Log_Pos和主库的信息,如果两者差距很大,说明是IO线程拉取binlog慢,问题出在网络或者主库binlog生成速度;如果IO线程的位点和主库接近,但Relay_Master_Log_File、Exec_Master_Log_Pos和主库差距大,说明是SQL线程重放慢,问题出在从库侧。
分析从库慢查询
开启从库的慢查询日志,查看是否有和主库同步事务相关的慢SQL,这些SQL执行耗时过长会直接导致重放延迟。可以在从库执行以下命令开启慢查询日志:
-- 开启慢查询日志 SET GLOBAL slow_query_log = 'ON'; -- 设置慢查询阈值,单位秒 SET GLOBAL long_query_time = 1; -- 查看慢查询日志路径 SHOW VARIABLES LIKE 'slow_query_log_file';
检查从库资源使用情况
通过系统命令查看从库的CPU、内存、磁盘IO使用情况,比如使用top命令查看CPU占用,iostat命令查看磁盘IO负载,如果从库资源使用率过高,说明是从库硬件性能不足导致的延迟。
常见优化建议
针对不同的延迟原因可以采取对应的优化措施:如果是大事务导致的延迟,尽量拆分大事务为小事务,减少单个事务的binlog体积;如果是网络问题,可以优化主从库之间的网络环境,或者调整slave_net_timeout参数减少网络异常的影响;如果是从库性能不足,可以升级从库硬件,或者调整从库参数,开启并行复制,合理设置slave_parallel_workers参数提升重放效率;如果是从库上有额外业务查询,尽量将读写分离的业务查询路由到其他只读实例,避免占用从库同步资源。