谁在占用cpu

在生产环境中，Java 应用程序偶尔会遇到 CPU 使用率突然暴涨的情况。这种问题可能导致服务响应变慢，甚至导致服务不可用。如何快速定位导致 CPU 暴涨的具体线程及其对应的代码位置，是一个关键的运维技能。本文将介绍一种实用的方法，通过 top、jstack 等工具来快速定位问题，并提供一些基于常用监控软件的其他方案。

使用 `top` 获取消耗 CPU 的进程号

首先，我们需要找出哪个进程正在消耗大量的 CPU 资源。可以通过 top 命令来查看系统中各个进程的 CPU 使用情况。

top

在 top 界面下，可以看到一个进程列表，按 CPU 使用率排序。记下消耗 CPU 最高的进程号，假设进程号为 A。

使用 `top` 获取消耗 CPU 的具体线程号

有了进程号 A，我们进一步使用 top 查看该进程内各个线程的 CPU 使用情况。

1	top -H -p <pid>

这里的 <pid> 替换为步骤 1 中获取的进程号 A。这个命令会列出进程 A 的所有线程，并按 CPU 使用率排序。记下 CPU 使用率最高的线程号，假设为 B。

将线程号 `B` 转换为 16 进制

Java 中的线程 ID 是以十六进制格式显示的，而 top 显示的是十进制的线程号。因此，我们需要将线程号 B 转换为十六进制，以便后续使用。

1	printf "%x\n" <B>

例如，如果线程号 B 是 12345，转换后的结果可能是 3039。这个十六进制值就是我们在 jstack 中定位线程的关键。

使用 `jstack` 获取线程堆栈信息

现在，我们使用 jstack 工具来获取 Java 进程的线程堆栈信息。

1	jstack <pid> \| grep -A 30 "nid=0x<hex>"

将 <pid> 替换为进程号 A，<hex> 替换为步骤 3 中得到的十六进制线程号。jstack 输出的内容中包含了线程的调用堆栈信息。通过这些信息，我们可以定位到导致 CPU 暴涨的具体代码位置。

其他思路和工具

除了 top 和 jstack，我们还可以使用其他工具和方法来分析 CPU 暴涨问题。以下是两种常用的方法：

使用 `perf` 和火焰图

perf 是一个强大的 Linux 性能分析工具。通过 perf，我们可以生成火焰图，直观地查看 CPU 消耗的热点代码路径。

1 2	perf record -F 99 -p <pid> -g -- sleep 30 perf script \| ./FlameGraph/stackcollapse-perf.pl \| ./FlameGraph/flamegraph.pl > flamegraph.svg

生成的 flamegraph.svg 文件可以用浏览器打开，从中查看 CPU 消耗的热点函数。

使用常用监控软件

使用 Prometheus + Grafana

如果你的环境中使用了 Prometheus 进行监控，可以通过 Grafana 设置面板查看 JVM 的各项性能指标，如 CPU 使用率、垃圾回收时间、线程数等。这些信息可以帮助你定位问题的根本原因。

使用阿里云 ARMS

阿里云的应用实时监控服务（ARMS）提供了丰富的 JVM 监控功能，可以实时查看线程的 CPU 使用情况，并支持直接分析线程堆栈。ARMS 的图形界面使问题的定位更加直观。

参考资料

通过本文介绍的方法，您可以快速定位 Java 应用中导致 CPU 暴涨的具体线程和代码位置，并进一步优化和解决性能问题。同时，结合监控工具和火焰图等高级分析手段，可以更全面地掌握应用性能状况，为性能调优提供有力支持。

使用 top 获取消耗 CPU 的进程号

使用 top 获取消耗 CPU 的具体线程号

将线程号 B 转换为 16 进制

使用 jstack 获取线程堆栈信息