hello云胜

技术与生活

0%

sre6.监控

监控系统的信噪比应该很高。否则运维人员会进入狼来了的状态,怀疑监控的有效性甚至胡月警报。这就是我们常说的,警告过多等于没有警告。

监控系统应该解决两个问题:什么东西出故障了,以及为什么出故障。

即现象和原因。

在一个多层系统中,某个服务的现象可能是另一个服务的原因。比如数据库慢是数据库监控的详细,而是前端服务慢的原因。

监控系统的4个黄金指标

  1. 延迟

  2. 流量

  3. 错误

  4. 饱和度

    前面3个好理解。饱和度是指服务有多满。比如服务器的内存利用率,带宽或者IO使用情况。

​ 延迟增加通常是饱和度增加的早期现象。