你已沉沉睡去,却突然被闹钟的铃声惊醒。揉揉眼睛,你点亮手机,发现是凌晨三点。好吧,又出问题了。
网站已经关闭,应用程序已经损坏,房间里唯一的光亮来自你的电脑屏幕。系统中的“小幽灵”可能藏在任何地方,你的职责就是带领团队把它们找出来。
之后,修复一切,越快越好。
作为负责帮助各类 DevOps 初创企业打理公关事务的角色,这样的状况在我眼前不断重演。即使是经验最丰富的工程师,也很有可能因为一次重大事故而留下伴随终身的心理阴影。
但不可否认,每一家企业都会遭遇系统故障。而且,我们距离让在线系统像电力等即开即用的传统设施一样触手可及还有很长的路要走。因此,整个行业开始积极分享故障问题与真实故事(包括建立起透明且非指责性事后取证),这也让每位从业者逐渐摆脱了宕机事件带来的恐惧感与孤独感。
这里我们不会粗暴援引冷冰冰的数字,毕竟 Amazon 每小时可能遇到的上百万个问题,而小型企业只是引发糟糕客户体验。但无论规模如何,企业最终总会蒙受金钱损失、声誉损失、工程资源浪费,并导致市场地位下降。
Comments