sre3
我们不应该试图构建一个百分之百可靠的服务。
事实证明,超过一定值后, 再提高可靠性对于一项服务(和它的用户)来说,结果可能会更差而不是更好!
极端的 可靠性会带来成本的大幅提升:过分追求稳定性限制了新功能的开发速度和将产品交付 给用户的速度,并且很大程度地增加了成本,这反过来又减少了一个团队可以提供的新 功能的数量。
此外,用户通常不会注意到一项服务在高可靠性和极端可靠性之间的差 异,因为用户体验主要是受较不可靠的组件主导,例如手机移动网络或者他们正在使用 的设备。简单地说,用户在一个有着99%可靠性的智能手机上是不能分辨出99.99%和 99.999%的服务可靠性的区别的!
基于这一点,SRE 旨在寻求快速创新和高效的服务运营业务之间的风险的平衡,而不是 简单地将服务在线时间最大化。这样一来,我们可以优化用户的整体幸福感,平衡系统 的功能、服务和性能。
我们的目标是:明确地将运维 风险与业务风险对应起来。我们会努力提高一项服务的可靠性,但不会超过该服务需要 的可靠性。也就是说,当设定了一个可用性目标为99.99%时,我们即使要超过这个目标, 也不会超过太多,否则会浪费为系统增加新功能、清理技术债务或者降低运营成本的机 会。
错误预算!!!
这个设计太牛了。非常值得在公司内部推广使用。