专栏链接地址
问题起源
线上环境在无秒杀、营销活动等情况下,出现CPU满载,报警
- top命令找到消耗CPU的进程
注意:下图中的load average是当前服务器的负载均衡,表示了过去5/10/15分钟系统的平均负载值,
如果三个值相/3*100% >60% ,那么系统的压力重
uptime 命令也可以看到负载均衡情况的精简版
例如下图:
(3.27+3.18+3.53)/3*100%=333%,系统已经超大负载了
- top -Hp 29751(shift+p 按cpu排序,shift+m 按内存排序)找到进程中消耗CPU的线程
ps -mp 29751 -o THREAD,tid,time也可以
- 得到16进制PID
printf '%x\n' 7065
- jstack 29751 |grep 1b99 -A 30 打印当前时刻线程的线程快照,快速定位线程出现长时间停顿的原因,如线程间死锁、死循环、请求外部资源导致的长时间等待等
- 定位到代码行数,分析问题。
同事写的统计数据代码、一个装有几十万String的ArrayList去和另一个装有几十万StringArrayList取交集,造成了CPU报警
后更改了google的工具类com.google.common.collect.Sets
SetView<String> result = Sets.intersection(ImmutableSet.copyOf(activeUserList),ImmutableSet.copyOf(dealUserList));