Linux系统运行过程中,若出现内存和CPU过度占用的情况,会直接导致系统响应迟缓、应用程序卡顿甚至服务中断。这种现象通常和异常进程、不合理的系统配置或者资源分配策略有关,需要通过系统化的排查和操作来解决。

第一步:定位资源占用的异常进程
要解决问题首先需要找到具体是哪个进程占用了过多的内存和CPU,Linux系统自带了多个工具可以完成这个操作。
使用top命令实时查看资源占用
top是Linux最常用的实时进程监控工具,执行后会动态展示所有进程的资源使用情况,默认按CPU占用率排序。
# 执行top命令,进入实时监控界面 top # 常用交互操作: # 按P:按CPU占用率降序排序 # 按M:按内存占用率降序排序 # 按q:退出top界面
在top的输出结果中,需要重点关注%CPU和%MEM两列,数值过高的进程就是需要优先处理的对象,同时记录下对应的PID(进程ID)。
使用ps命令精准查询进程信息
如果需要更精准地查询特定进程的资源占用,或者需要导出进程信息做后续分析,可以使用ps命令。
# 查看所有进程的CPU和内存占用,按CPU降序排序 ps aux --sort=-%cpu | head -10 # 查看所有进程的CPU和内存占用,按内存降序排序 ps aux --sort=-%mem | head -10 # 查看指定PID的进程详细信息 ps -p 1234 -o pid,ppid,cmd,%cpu,%mem
第二步:处理异常占用进程
定位到异常进程后,需要根据进程的性质选择对应的处理方式,避免直接操作导致数据丢失或者服务异常。
终止异常进程
如果是临时异常的非核心进程,可以直接终止释放资源。首先尝试正常终止,若无法生效再强制终止。
# 正常终止PID为1234的进程,会给进程预留清理资源的时间 kill 1234 # 如果正常终止无效,强制终止进程 kill -9 1234
需要注意,不要随意终止系统核心进程,比如systemd、kthreadd等,否则会导致系统崩溃。如果不确定进程是否可以终止,可以先查询进程对应的程序用途。
# 查看PID为1234的进程对应的启动命令 ps -p 1234 -o cmd
限制进程资源占用
如果是需要长期运行的服务进程,无法直接终止,可以通过cgroups工具限制它的CPU和内存使用上限,避免其过度抢占资源。
# 安装cgroup工具,以CentOS为例 yum install libcgroup libcgroup-tools -y # 创建名为limit_process的cgroup组 cgcreate -g cpu,memory:/limit_process # 限制该组进程最多使用50%的CPU(100000是CPU总量的微秒数,50000即50%) cgset -r cpu.cfs_quota_us=50000 limit_process # 限制该组进程最多使用2G内存(单位字节,2147483648即2G) cgset -r memory.limit_in_bytes=2147483648 limit_process # 将PID为1234的进程加入该cgroup组 cgclassify -g cpu,memory:limit_process 1234
第三步:优化系统内存和CPU配置
除了处理单个异常进程,还可以通过调整系统配置,从整体上优化内存和CPU的使用效率。
释放系统缓存内存
Linux系统会自动使用空闲内存做文件缓存,这部分缓存可以在需要时自动释放,但如果缓存占用过高,也可以手动清理。
# 清理页缓存、目录项缓存、inode缓存 # 操作需要root权限,执行前确保没有重要数据在写入 sync && echo 3 > /proc/sys/vm/drop_caches
注意这个操作只是临时清理,系统后续还会自动生成缓存,不需要频繁执行。
调整CPU调度策略
对于多核心CPU,可以通过调整进程绑核的方式,让关键进程绑定到特定CPU核心运行,减少进程切换带来的CPU开销。
# 将PID为1234的进程绑定到0号和1号CPU核心运行 taskset -pc 0,1 1234
禁用不必要的系统服务
很多Linux系统默认会启动大量非必要的服务,这些服务会长期占用内存和CPU资源,可以关闭不需要的服务。
# 查看当前所有运行的服务 systemctl list-units --type=service --state=running # 关闭并禁用不需要的服务,比如telnet服务 systemctl stop telnet.socket systemctl disable telnet.socket
常见问题排查思路
如果遇到内存和CPU占用高的同时,找不到对应高占用的进程,可能是以下原因:
- 内存占用可能是内核模块异常,可以通过
slabtop命令查看内核 slab 缓存的占用情况 - CPU占用可能是中断异常,可以通过
top命令查看si(软中断)和hi(硬中断)的数值,若数值过高可以排查硬件或者驱动问题 - 如果是云服务器,还需要排查是否有挖矿病毒等恶意程序,可通过
netstat -antlp查看异常网络连接
操作前建议先对重要数据和系统配置做备份,避免操作失误导致数据丢失或者系统不可用。如果是不熟悉的生产环境,建议先在测试环境验证操作步骤再执行。