SRE——让工程师“安心睡觉“的艺术
SRE——让工程师"安心睡觉"的艺术你有没有见过医院的"住院总医师"?生活场景:医院值班制度以前的模式医生A今天值班,处理了5个急诊,写了详细报告。明天换医生B值班,医生B不知道昨晚的情况,又要重新了解一遍。后天换医生C,医生C更蒙了。问题:知识没有积累,人走了经验也没了。住院总医师制度有一个"住院总":长期在岗,熟悉所有病例负责统筹协调总结经验教训制定规范流程专人对系统长期健康负责。技术故事:SRE的诞生SRE(Site Reliability Engineering)是Google在2003年提出的理念。背景:Google的服务规模越来越大传统运维团队无法应对需要用软件工程的方法解决运维问题核心问题:如何让系统可靠运行,同时还能快速迭代?SRE的核心职责