Browsed by
月度归档: 2021年12月

开箱即用的 Prometheus 告警规则集

开箱即用的 Prometheus 告警规则集

閱讀本文約花費: 3 (分鐘)在配置系统监控的时候,是不是即使绞尽脑汁监控的也还是不够全面,或者不知如何获取想要的指标。 Awesome Prometheus alerts 维护了一套开箱即用的 Prometheus 告警规则集合,有 300 多个告警规则。同时,还是说明如何获取对应的指标。这些规则,对每个 Prometheus 都是通用的。 涉及如主机、硬件、容器等基础资源,到数据库、消息代理、运行时、反向代理、负责均衡器,运行时、服务编排,甚至是网络层面和 Prometheus 自身和集群。 alert_rules Prometheus 的安装和配置不做赘述,配置可以看这里。下面简单看下几个常用规则 主机和硬件资源 主机和硬件资源的告警依赖 node-exporter 输出的指标。例如: 内存不足 可用内存低于阈值 10% 就会触发告警。 YAML 主机异常的网络吞吐 最近两分钟入站的流量超过 100m。 rate 语法见这里。 YAML Mysql Mysql 的告警依赖 prometheus/mysqld_exporter 输出的指标。 连接数过多 Mysql 实例的连接数最近一分钟的连接数超过最大值的 80% 触发告警 YAML 慢查询 最近一分钟慢查询数量大于 …

Read More Read More

Scroll Up