sre6.监控
监控系统的信噪比应该很高。否则运维人员会进入狼来了的状态,怀疑监控的有效性甚至胡月警报。这就是我们常说的,警告过多等于没有警告。
监控系统应该解决两个问题:什么东西出故障了,以及为什么出故障。
即现象和原因。
在一个多层系统中,某个服务的现象可能是另一个服务的原因。比如数据库慢是数据库监控的详细,而是前端服务慢的原因。
监控系统的4个黄金指标
延迟
流量
错误
饱和度
前面3个好理解。饱和度是指服务有多满。比如服务器的内存利用率,带宽或者IO使用情况。
延迟增加通常是饱和度增加的早期现象。