Prometheus节点失联后CPU使用率不准确

现象

测试节点失联自恢的程序时发现一个异常现象,失联的节点cpu使用率超过60%,实际上测试节点什么程序都没跑,cpu使用率接近0。
在这里插入图片描述

原因

该节点每分钟刮取一次监控数据,5分钟取得5个数据点,计算CPU使用率使用的公式是5分钟均值:

1 - (rate(node_cpu_seconds_total{mode="idle",instance="192.168.1.1"}[5m]))

节点从失联到自恢用了3-4分钟,这样5分钟之内每分钟少一个数据,除法的分母减1,得到的商就会变大,将5m改成2m就正常了。
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_35753140/article/details/107715776