详解Linux CPU负载和CPU使用率
在Linux系统运维和性能优化工作中,CPU负载和CPU使用率是两个最核心的性能指标,很多初学者容易将二者混淆,实际上它们从不同的维度反映了CPU的工作状态。本文将详细讲解这两个指标的含义、查看方式、二者的区别与联系,以及相关的性能分析思路。
一、什么是CPU使用率
CPU使用率指的是CPU在一段时间内,用于执行非空闲任务的时间占总时间的比例。CPU的工作时间可以分为两类:一类是用户态时间,即执行用户进程代码的时间;一类是内核态时间,即执行系统调用、中断处理等内核代码的时间;剩下的就是空闲时间,此时CPU没有执行任何任务,处于等待状态。
常见的CPU使用率分类包括:
user:用户态CPU使用率,不含优先级调整的用户进程时间
nice:低优先级用户态进程的CPU使用率
system:内核态CPU使用率,包含系统调用、内核线程运行时间
idle:CPU空闲时间占比
iowait:CPU等待IO操作完成的时间占比,此时CPU并未执行任务,只是等待磁盘、网络等IO响应
irq:处理硬件中断的CPU时间占比
softirq:处理软中断的CPU时间占比
steal:虚拟化环境中,被宿主机或其他虚拟机占用的CPU时间占比
1.1 查看CPU使用率的常用工具
最常用的查看CPU使用率的工具是top和mpstat,以下是使用mpstat查看所有CPU核心使用率的示例:
# 安装sysstat工具包(包含mpstat) yum install -y sysstat # CentOS/RHEL系统 apt install -y sysstat # Ubuntu/Debian系统 # 查看所有CPU核心的使用率,每2秒刷新一次,共刷新3次 mpstat -P ALL 2 3
执行后的输出类似如下:
Linux 3.10.0-1160.el7.x86_64 (node1) 2024年05月20日 _x86_64_ (4 CPU) 14时30分00秒 CPU %usr %nice %sys %iowait %irq %soft %steal %guest %gnice %idle 14时30分02秒 all 2.50 0.00 1.20 0.30 0.00 0.10 0.00 0.00 0.00 95.90 14时30分02秒 0 3.00 0.00 1.50 0.50 0.00 0.00 0.00 0.00 0.00 95.00 14时30分02秒 1 2.00 0.00 1.00 0.00 0.00 0.00 0.00 0.00 0.00 97.00 14时30分02秒 2 2.50 0.00 1.00 0.50 0.00 0.50 0.00 0.00 0.00 95.50 14时30分02秒 3 2.50 0.00 1.30 0.00 0.00 0.00 0.00 0.00 0.00 96.20
二、什么是CPU负载
CPU负载(Load Average)指的是在一段时间内,系统中处于可运行状态和不可中断睡眠状态的进程数量的平均值。它反映的是系统整体任务对CPU资源的竞争程度,不仅仅包含正在使用CPU的进程,还包含等待CPU调度、等待IO完成(不可中断睡眠)的进程。
我们常说的负载值通常是1分钟、5分钟、15分钟三个时间维度的平均值,通过uptime或者top命令都可以查看:
uptime
输出示例:
14:35:01 up 120 days, 2:15, 2 users, load average: 1.20, 1.50, 1.80
上述输出中,load average后面的三个值分别对应1分钟、5分钟、15分钟的CPU负载平均值。对于单核心CPU来说,负载为1表示CPU刚好满负荷运行;如果是4核心CPU,负载为4才表示CPU满负荷。通常建议负载值不要超过CPU核心数的70%-80%,如果长时间超过核心数,说明系统任务过多,可能出现性能瓶颈。
2.1 CPU负载的两种状态说明
可运行状态(R状态):进程正在CPU上运行,或者在运行队列中等待被CPU调度执行,这类进程会直接占用CPU资源。
不可中断睡眠状态(D状态):进程正在等待IO操作(如磁盘读写、网络响应)完成,此时进程不会响应信号,也不会被杀死,这类进程虽然没有直接使用CPU,但说明系统IO可能存在瓶颈,也会被计入负载。
三、CPU负载和CPU使用率的区别与联系
| 维度 | CPU使用率 | CPU负载 |
|---|---|---|
| 核心含义 | CPU执行非空闲任务的时间占比 | 一段时间内可运行+不可中断睡眠进程的平均数量 |
| 反映维度 | CPU的繁忙程度(是否在工作) | 系统整体任务的压力程度(是否有大量任务在等待) |
| 包含进程类型 | 仅包含正在使用CPU的进程 | 包含正在使用CPU、等待CPU调度、等待IO完成的进程 |
| 高负载场景 | 可能高,也可能低(如大量进程等待IO时,负载高但CPU使用率可能很低) | 通常伴随高CPU使用率,也可能是IO瓶颈导致 |
3.1 典型场景举例
场景1:计算密集型任务,比如用stress工具压测CPU:
# 安装stress工具 yum install -y stress # 启动4个CPU压测进程,模拟CPU满载 stress --cpu 4 --timeout 300
此时查看CPU使用率会接近100%,同时CPU负载也会快速上升到和CPU核心数相当的值,二者同时升高,说明CPU资源不足。
场景2:IO密集型任务,比如大量磁盘读写操作:
# 启动4个IO压测进程,模拟磁盘高负载 stress --io 4 --timeout 300
此时查看会发现CPU使用率可能只有30%左右,但CPU负载会快速上升到4以上,因为大量进程处于不可中断睡眠状态等待IO完成,被计入了负载。
四、如何结合两个指标分析性能问题
实际运维中,需要结合CPU使用率和负载共同判断系统问题:
如果CPU使用率高,负载也高:说明系统有大量任务在占用CPU,可能是计算密集型进程过多,此时需要定位占用CPU高的进程,通过
top命令按P键按CPU使用率排序,找到对应进程后优化其代码逻辑,或者扩容CPU资源。如果CPU使用率低,但负载高:通常说明存在IO瓶颈,可能是磁盘读写慢、网络延迟高,导致大量进程处于D状态等待IO。此时需要查看
iowait占比,用iostat工具分析磁盘IO情况,定位慢IO的原因,比如更换更快的磁盘、优化IO读写逻辑。如果CPU使用率低,负载也低:说明系统任务少,CPU资源充足,无需特殊优化。
如果1分钟负载远高于15分钟负载:说明最近系统压力突然升高,需要排查是否有突发任务启动;如果15分钟负载远高于1分钟负载,说明之前的压力已经缓解,当前系统处于恢复状态。
五、常见问题总结
问:负载值超过CPU核心数就一定有问题吗?
答:不一定,如果是短时间超过,可能是突发任务导致,只要不是长时间持续超过核心数的80%,通常不需要处理。如果是长时间超过,才需要排查性能问题。
问:为什么有时候CPU使用率100%,但系统还是很流畅?
答:如果CPU核心数较多,某个单核心使用率100%,但其他核心空闲,整体负载不高,系统依然可以正常响应请求。此时需要查看单核心的使用率,而不是整体平均使用率。
掌握CPU负载和CPU使用率的含义和分析方法,是Linux性能优化的基础,日常运维中多结合实际场景练习,就能快速定位大部分CPU相关的性能问题。