接入NPD
在容器服务的应用目录里找到“ack-node-problem-detector”
部署NPD要配置的参数较多:
- alibaba_cloud_plugins:不需要选择ram_role_check,nvidia_gpu_check视情况选择
- serviceaccount:填入集群中权限较大的一个,一般自建的有admin-user,可以
kubectl -n kube-system get sa
来查看 - env:填入AccessKeyId、AccessKeySecret、RegionId这三个参数
-
sls:
- enabled:如果需要将event归档到日志服务,就将enabled设为true
- topic:填写您的集群可读名称
- project:填写您的集群对应的日志服务project名称
- logstore:填写project下已有的某个logstore(如果要使用日志服务的事件中心功能,˙这里要填为k8s-event)
- internal:如果有专线,可以填为true,否则填为false
-
dingtalk:
- enabled:如果需要将event告警到钉钉群,就将enabled设为true
- monitorkinds:选择要接收的告警类型,一般选择Node
- token:填入钉钉只能群助手的token(不是全部的URL)
配置成功后,钉钉告警效果如下图: