数据库HANG住是生产环境中非常棘手的故障,通常表现为客户端连接数据库后执行操作无返回、现有查询全部卡住、新的连接请求超时失败,业务系统也会随之出现大量报错。遇到这类问题首先要保持冷静,不要贸然重启数据库,避免造成数据不一致或者问题无法复现。

一、先判断数据库是否真的HANG住
很多时候用户感知到的卡顿可能是网络波动或者慢查询导致的,需要先确认是否为真正的数据库HANG,可以通过以下方式验证:
- 在数据库服务器本地使用命令行连接数据库,执行简单查询比如
SELECT 1;,如果也无响应基本可以确定是HANG问题 - 查看数据库进程状态,Linux系统下可以用
ps -ef | grep 数据库进程名看进程是否存在,是否处于不可中断睡眠状态 - 检查服务器的CPU、内存、磁盘IO使用率,用
top、iostat命令查看,排除服务器资源耗尽导致的假死
二、常见HANG原因梳理
不同数据库的HANG原因有共性也有差异,整理常见原因如下:
| 故障类型 | 具体原因 | 适用数据库 |
|---|---|---|
| 锁等待 | 长事务未提交持有锁,大量会话等待锁释放形成阻塞链 | MySQL、Oracle、PostgreSQL等 |
| 日志切换阻塞 | redo log或者归档日志写满,数据库无法继续写入 | MySQL、Oracle |
| 资源耗尽 | 数据库最大连接数达到上限、服务器磁盘满、内存不足触发swap | 所有数据库 |
| 死锁循环 | 多个会话互相持有对方需要的锁,无法自动解除 | MySQL、Oracle |
| BUG问题 | 数据库自身版本缺陷导致的异常挂起 | 所有数据库 |
三、分步骤处理流程
1. 查看当前阻塞会话
先找到阻塞的源头会话,优先处理源头才能快速解除HANG。以MySQL为例,5.7及以上版本可以查询performance_schema库的阻塞关系:
-- 查询当前阻塞关系,找到阻塞源头
SELECT
blocking_pid AS 阻塞会话ID,
blocked_pid AS 被阻塞会话ID,
wait_lock_type AS 等待锁类型,
query AS 被阻塞会话执行的SQL
FROM performance_schema.data_lock_waits w
JOIN performance_schema.threads t ON w.REQUESTING_THREAD_ID = t.THREAD_ID
JOIN information_schema.processlist p ON t.PROCESSLIST_ID = p.ID;Oracle数据库可以查询v$session和v$lock视图找到阻塞链:
-- Oracle查询阻塞会话
SELECT
s.sid 被阻塞SID,
s.serial# 被阻塞序列号,
s.username 用户名,
s.status 状态,
s.sql_id 执行SQL_ID,
l.type 锁类型,
l.lmode 持有锁模式,
l.request 请求锁模式,
s2.sid 阻塞源SID,
s2.serial# 阻塞源序列号
FROM v$lock l
JOIN v$session s ON l.sid = s.sid
LEFT JOIN v$lock l2 ON l.id1 = l2.id1 AND l.id2 = l2.id2 AND l2.block = 1
LEFT JOIN v$session s2 ON l2.sid = s2.sid
WHERE l.block = 0 AND l2.block IS NOT NULL;2. 处理阻塞源头
找到阻塞源头会话后,先确认该会话执行的SQL是否是异常的长事务,如果是未提交的长事务,可以先尝试提交或者回滚;如果是异常的死锁或者无意义的阻塞会话,可以直接杀掉会话:
MySQL杀会话命令:
-- 替换成实际的阻塞会话ID KILL 阻塞会话ID;
Oracle杀会话命令:
-- 替换成实际的阻塞源SID和序列号 ALTER SYSTEM KILL SESSION '阻塞源SID,阻塞源序列号';
3. 排查资源类问题
如果不存在锁阻塞,需要检查资源情况:
- 查看磁盘空间,用
df -h命令,看数据库数据目录、日志目录是否已满,满了的话清理无用日志或者扩容 - 查看数据库连接数,MySQL查询
SHOW STATUS LIKE 'Threads_connected';,对比最大连接数配置,如果满了可以临时调大最大连接数或者杀掉无用连接 - 查看redo log或者归档日志,Oracle如果归档日志满需要清理过期归档,MySQL如果redo log写满需要检查磁盘是否异常
4. 极端情况处理
如果以上方法都无法解除HANG,且业务已经完全不可用,可以考虑重启数据库,但重启前尽量做一次数据刷盘,比如MySQL执行FLUSH TABLES WITH READ LOCK;后再操作,重启后第一时间检查数据一致性。
四、预防HANG问题的建议
- 设置合理的事务超时时间,避免长事务长时间持有锁
- 定期清理数据库的过期日志,预留足够的磁盘空间
- 监控数据库的连接数、锁等待、慢查询等指标,出现异常及时告警
- 生产环境数据库尽量使用稳定版本,避免使用有已知HANG问题的版本
- 重要操作尽量避开业务高峰期,大批量变更操作拆分执行