Linux CPU 飙高的排查流程

发布时间 - 2026-01-24 00:00:00    点击率:
用 top -Hp PID 并按 P 排序定位高 CPU 线程,将 TID 转十六进制后在 jstack 日志中搜索 RUNNABLE 栈帧,即可精准定位 Java 热点代码行。

top 命令怎么快速揪出“真凶”进程?

top 是第一反应工具,但默认视图容易误判:它按进程(PID)排序,而真正吃 CPU 的往往是某个线程(TID),不是整个进程。直接看 %CPU 列最高值,再按大写 P 键强制按 CPU 使用率降序——这是关键动作,否则可能被平均值蒙蔽。

  • 如果 %Cpu(s) 行中 us(user)占比超 80%,大概率是应用层问题(如 Java 死循环、Python 无限 while True
  • 如果 sy(system)高,说明频繁陷入内核,可能是锁竞争、大量 epoll_waitclone 系统调用
  • 如果 wa(iowait)明显,别急着查 CPU,先用 iostat -x 1 看磁盘是否卡住

注意:top 默认刷新间隔是 3 秒,对瞬时尖峰不敏感;可输 1 改为 1 秒刷新,避免漏掉短时爆发。

如何从进程 PID 快速定位到 Java 线程和代码行?

找到高 CPU 进程(比如 PID=12345)后,下一步必须下钻到线程级,因为 JVM 里一个 java 进程常有上百线程,真正“作恶”的往往只有一个。

  • 先用 top -Hp 12345 查看该进程所有线程,同样按 P 排序,记下最高 %CPU 对应的 TID(例如 12399)
  • 立即转十六进制:printf "%x\n" 12399 → 得到 306f(注意:Java jstack 输出里的 nid 就是这个格式,形如 nid=0x306f
  • 出堆栈:jstack 12345 > stack.log,然后搜索 0x306f,重点看状态为 RUNNABLE 的栈帧,通常第 1–3 行就是热点方法

常见坑:

  • 直接在 jstack 输出里搜十进制 TID(比如搜 12399)一定找不到——JVM 日志只存 hex
  • top -H 显示的 PID 列其实是 TID,Linux 内核中线程和进程共享 PID 命名空间,TID = PID,这点别混淆

strace 和 perf 怎么选?什么场景该用哪个?

straceperf 都能深挖系统行为,但目标完全不同:

  • strace -p 是为了确认“它到底在反复调什么系统调用”。比如看到满屏 clock_gettime(CLOCK_MONOTONIC, ...) 或高频 write(1, ...),基本锁定是日志刷屏或时间戳滥用。
  • perf top -p 是为了看“CPU 时间花在哪条指令/函数上”。输出里如果 java::String::equalsPyUnicode_Compare 占比异常高,说明字符串比较逻辑有问题;如果是 memsetmemcpy 高,则可能是大对象频繁复制。

注意:

  • strace 开销极大,线上慎用;perf 相对轻量,但需确保内核开启 perf_event_paranoidcat /proc/sys/kernel/perf_event_paranoid ≤ 2)
  • perf record -p -g -- sleep 10 + perf script 可生成火焰图,比 perf top 更利于发现调用链路中的隐藏瓶颈

为什么 load average 高 ≠ CPU 忙?别被数字骗了

load average(如 load average: 4.15, 3.80, 3.20)反映的是“等待 CPU 或不可中断 I/O 的任务数”,不是 CPU 使用率。

  • 在 4 核机器上,load=4.15 并不意味着 CPU 100%,它可能只是 2 个进程在等磁盘读,另 2 个在等网络响应,此时 %Cpu(s)ussy 可能都不到 30%
  • 真正危险的组合是:load 高 + wa 高 → 磁盘瓶颈;load 高 + us 高 → 应用计算瓶颈;load 高 + sy 高 + cs(context switch)超高 → 锁或调度风暴

所以,看到 load 报警,第一反应不该是杀进程,而是跑一遍:vmstat 1 5(看 csbi/bo)、pidstat -t -p 1(看线程级上下文切换)、iotop(看谁在狂写磁盘)

最易忽略的一点:容器环境里,top 显示的 PID 是宿主机视角的,而 jstackstrace 必须进容器 namespace 才能拿到真实线程栈——别在宿主机上对容器内 Java 进程直接 jstack,那会失败或返回空。


# linux  # python  # java  # js  # 工具  #   # ai  # ios  # switch  # 热点  # 为什么 


相关栏目: 【 网站优化151355 】 【 网络推广146373 】 【 网络技术251813 】 【 AI营销90571


相关推荐: JS碰撞运动实现方法详解  Python函数文档自动校验_规范解析【教程】  Laravel如何实现密码重置功能_Laravel密码找回与重置流程  香港服务器部署网站为何提示未备案?  Laravel如何自定义分页视图?(Pagination示例)  PHP 实现电台节目表的智能时间匹配与今日/明日轮播逻辑  Python高阶函数应用_函数作为参数说明【指导】  Laravel怎么返回JSON格式数据_Laravel API资源Response响应格式化【技巧】  深圳网站制作公司好吗,在深圳找工作哪个网站最好啊?  网站建设保证美观性,需要考虑的几点问题!  详解阿里云nginx服务器多站点的配置  昵图网官网入口 昵图网素材平台官方入口  Win11摄像头无法使用怎么办_Win11相机隐私权限开启教程【详解】  如何在宝塔面板创建新站点?  JavaScript常见的五种数组去重的方式  Laravel怎么生成URL_Laravel路由命名与URL生成函数详解  Laravel如何实现RSS订阅源功能_Laravel动态生成网站XML格式订阅内容【教程】  如何在阿里云服务器自主搭建网站?  Laravel怎么自定义错误页面_Laravel修改404和500页面模板  如何制作公司的网站链接,公司想做一个网站,一般需要花多少钱?  猎豹浏览器开发者工具怎么打开 猎豹浏览器F12调试工具使用【前端必备】  品牌网站制作公司有哪些,买正品品牌一般去哪个网站买?  EditPlus中的正则表达式实战(6)  Linux系统运维自动化项目教程_Ansible批量管理实战  Laravel怎么配置S3云存储驱动_Laravel集成阿里云OSS或AWS S3存储桶【教程】  无锡营销型网站制作公司,无锡网选车牌流程?  怎么用AI帮你设计一套个性化的手机App图标?  如何在腾讯云服务器上快速搭建个人网站?  如何在阿里云虚拟机上搭建网站?步骤解析与避坑指南  文字头像制作网站推荐软件,醒图能自动配文字吗?  Swift中swift中的switch 语句  如何使用 jQuery 正确渲染 Instagram 风格的标签列表  美食网站链接制作教程视频,哪个教做美食的网站比较专业点?  网站制作大概多少钱一个,做一个平台网站大概多少钱?  谷歌浏览器下载文件时中断怎么办 Google Chrome下载管理修复  关于BootStrap modal 在IOS9中不能弹出的解决方法(IOS 9 bootstrap modal ios 9 noticework)  微信h5制作网站有哪些,免费微信H5页面制作工具?  Laravel Seeder怎么填充数据_Laravel数据库填充器的使用方法与技巧  合肥制作网站的公司有哪些,合肥聚美网络科技有限公司介绍?  LinuxCD持续部署教程_自动发布与回滚机制  微信推文制作网站有哪些,怎么做微信推文,急?  Laravel如何创建自定义Artisan命令?(代码示例)  HTML5打空格有哪些误区_新手常犯的空格使用错误【技巧】  JS中对数组元素进行增删改移的方法总结  高性能网站服务器部署指南:稳定运行与安全配置优化方案  Laravel如何使用Blade模板引擎?(完整语法和示例)  EditPlus 正则表达式 实战(3)  网页设计与网站制作内容,怎样注册网站?  如何用wdcp快速搭建高效网站?  Laravel怎么调用外部API_Laravel Http Client客户端使用