hello云胜

技术与生活

0%

从业务视角出发,建立完善的监控体系

为什么我们选择业务视角去添加监控呢?因为可靠性的最终落脚点,就是为用户提供可靠、稳定的服务,业务视角是最贴近用户体验的视角。这就是我们选择业务视角添加监控的原因。

监控的三个层级

  1. 能保证发现问题
  2. 能快速发现问题
  3. 能快速定位问题
  4. 快速做出影响评估,为决策提供有效的信息支撑

如何做

  1. 统一监控门户

    先进行一次全面的监控整理。这个过程本质上是从混沌走向有序的转变。监控数据分散在不同的地方,你把它们集中起来进行分类,往往能激发新的灵感。

    说起来简单,做起来难,各个监控记录格式不统一

  2. 构建业务监控大盘

    业务监控大盘的重要性在于它可以实时且直观地帮助我们去判断当前业务的整体情况。如果大盘稳定就说明这个时候没有大的故障,如果大盘不稳定,说明这个时候已经有故障或者异常出现了。

    为了让大盘看上去更清晰,我建议你给每个功能创建一个面板。在设计这些面板的时候,首先需要关注的是请求量,重点关注同环比,我们可以用红色、蓝色和绿色线条表示今天、昨天、上周。其次是成功率、容量、P99 响应时间,这里我们只需要关注实时数据就可以了,这样做能够确保监控的时效性,同时也能看到同环比。

  3. 进一步细化及拆分核心指标

  4. 梳理和细化核心链路

  5. 统一添加基础指标

  6. 第六步是关键信息的提取、汇总和初步判断

优化监控报警

信息爆炸和报警膨胀的问题

  • 报警分级
  • 报警信息合并:把相同或相似的报警信息进行合并,以减少重复报警
  • 调整报警阈值:合理设置报警阈值,可以避免因小幅度波动而频繁触发报警。
  • 报警规则优化:定期审查和优化报警规则,确保它们仍然符合当前的业务需求和系统状态。
  • 报警响应流程:我们应该建立有效的报警响应流程,确保团队能够及时、有效地处理报警。

img

其他的重要动作:

日常巡检:定期检查监控体系,确保监控系统正常运行,及时发现并解决问题。

报警响应:此外还要建立一个有效的报警响应流程,确保报警信息能够迅速被处理。

定期总结:通过日、周总结机制,回顾监控数据,分析系统表现,识别潜在风险。

问题复盘:对于已经发生的问题,进行深入地复盘分析,从中学习经验,优化监控策略。