在Linux系统的日常运维和开发中,I/O性能问题是非常常见的故障类型,轻则导致服务响应延迟,重则引发进程卡死甚至系统宕机。常见的I/O问题主要和磁盘读写、进程调度、文件系统配置等相关,需要结合监控工具和系统日志逐步排查。

常见Linux I/O问题分类
1. 磁盘I/O使用率过高
磁盘I/O使用率持续处于高位,会导致所有依赖磁盘读写的操作都出现延迟,通常可以通过iostat工具查看具体磁盘的使用情况。这类问题常见原因包括大量日志写入、数据库频繁刷盘、备份任务占用过多磁盘带宽等。
2. I/O等待(iowait)占比过高
iowait是CPU空闲时等待磁盘I/O完成的时间占比,如果iowait长期超过30%,说明系统存在严重的I/O瓶颈。常见原因有磁盘本身性能不足、磁盘出现坏道、I/O调度策略不合理等。
3. 进程I/O阻塞
部分进程因为等待I/O资源而进入D状态(不可中断睡眠状态),会导致进程无法被杀死,同时可能影响依赖该进程的其他服务。常见原因是进程访问的存储设备无响应、网络存储挂载异常等。
问题排查工具
排查I/O问题首先需要使用合适的监控工具获取系统状态,常用的工具如下:
- iostat:查看磁盘的读写速率、使用率、iowait等指标,是最常用的I/O监控工具
- iotop:类似top工具,可以实时查看每个进程的I/O读写情况,快速定位高I/O占用的进程
- dmesg:查看系统内核日志,排查磁盘硬件错误、驱动异常等问题
- lsof:查看进程打开的文件,定位异常读写的文件路径
常用解决方法
1. 磁盘I/O使用率过高的解决
首先使用iotop找到占用I/O过高的进程,根据进程类型采取对应措施:
# 安装iotop工具(CentOS系统) yum install -y iotop # 运行iotop查看进程I/O情况,按o键只显示有I/O活动的进程 iotop -o
如果是日志写入过多,可以调整日志级别、配置日志轮转;如果是数据库刷盘频繁,可以调整数据库的刷盘策略、增加内存缓存;如果是备份任务导致,可以调整备份任务到系统空闲时段执行。
2. iowait过高的解决
首先通过iostat确认具体磁盘的问题:
# 查看磁盘I/O状态,每2秒输出一次,共输出5次 iostat -x 2 5
如果磁盘读写速率远未达到磁盘标称性能,可以检查I/O调度策略,对于SSD磁盘建议调整为noop或者deadline调度策略:
# 查看当前磁盘sda的I/O调度策略 cat /sys/block/sda/queue/scheduler # 临时将sda的调度策略改为deadline echo deadline > /sys/block/sda/queue/scheduler
如果是磁盘硬件性能不足,可以考虑更换更高性能的磁盘,或者将热点数据迁移到SSD存储。
3. 进程I/O阻塞的解决
首先通过ps aux | grep D找到处于D状态的进程,查看进程对应的I/O操作:
# 查看所有处于D状态的进程
ps aux | awk '$8 ~ /D/ {print}'
# 查看进程PID打开的所有文件
lsof -p 进程PID
如果是网络存储挂载异常,可以尝试重新挂载存储;如果是磁盘硬件故障,需要更换磁盘后重启相关进程;如果进程无法正常恢复,只能重启系统解决。
预防I/O问题的优化建议
除了故障发生后的排查解决,日常也可以通过以下方式预防I/O问题:
- 合理规划磁盘分区,将日志、数据、系统文件分到不同磁盘,避免单磁盘I/O压力过大
- 对于高I/O场景的服务,优先使用SSD存储,调整合适的I/O调度策略
- 定期清理无用的大文件,避免磁盘空间不足导致的I/O异常
- 配置系统I/O监控告警,当I/O使用率、iowait超过阈值时及时通知运维人员