E. Google SRE 其他行业的经验
核心理念
灾难预案与演习
事后书写总结的文化
自动化与降低日常运维负载
结构化的,理智的决策
灾难预案与演习
核心
从组织结构层面坚持不懈地对安全进行关注
高危制造车间
安全文化:每次管理会议都是以安全讨论开头
明确的规范和流程
软件的安全标准是明确定义的
系统的可靠性级别也都是明确定义的
关注任何细节
核潜艇:所有人对某些小任务执行过程中出现的粗心情况可能会导致大型潜艇事故的情况非常了解
冗余容量
通信行业:系统容量
模拟以及进行线上灾难演习
航空工业:部署模拟器,使用线上真实数据
通信行业:采用线上演习模式
核动力海军:进行假想练习和真实的实战演习,但是却不能真正防止灾难发生。灾难的响应机制必须要经过不断联系才能确保不会忘记
救生员:通过构造伪落水事件
培训与考核
救生员:需培训才能够上岗,同时还要定期接收再考核各地培训课程不同,因为游泳池里救人和湖边救人或者海中救人是不一样的培训课程包括
健身部分:例如托住比自己重的人,使得它们肩膀露出水面等
技巧部分:例如急救和CPR
日常流程:例如当某个救生员跳入水中,其他团队成员应该做什么
超乎寻常地关注对细节要求的收集与系统的设计 --- 与用户深入沟通
激光视网膜手术设备:通过极简操作的设计,确保用户不会犯错,因此从使用设备的医生和维护这些设备的工程获得需求是很重要的
国防系统设计:对设计高度重视。有可能设计需要一年,但是编码只需要三周
纵深防御
核能行业:多层防护机制,基本上属于零容忍设计
所有系统都有冗余备份
发电站核辐射物理屏障
等等
事后书写总结的文化 --- 纠正性和预防性操作
核心
究竟发生了什么
响应的有效程度
下次是否可以采用其他方案解决问题
如何确保这次故障不会再次发生
事后总结原动力
政府部门追责
对安全的关注:比如公司CEO要求一线员工在发生事故的24小时内通知他,同时将家里的电话号码直接分发给员工
制造业和化工行业:以至于“差点出事”都要被详细追究。
航空和航海:政府部分允许从业人员匿名回报“差点出事”的事件
救生人员
游泳池或者沙滩上的任何事件都需要一个详细的事后总结
对于严重的问题,团队还会集体从头到尾分析案例,讨论哪些做得对,哪些做得不对。根据讨论结果修改运营规则,同时还会组织培训帮助大家建立类似事故的信息和能力
在某次严重的或者创伤性的事故发生之后,甚至会有医疗顾问来帮助团队从精神创伤中恢复
自动化与降低日常运维负载
核心:不同行业差异很多,有些行业信任人多于自动化
行业
核动力海军:通过交叉管理来避免自动化
私有化交易:对自动化越来越小心。错误的配置在极短的时间之内会造成极大的财务损失
制造业:偏爱自动化,提升效率和节约成本
核电站:如果某个故障必须在30分钟之内报警,那么这种响应必须要自动化
航空工业:根据业务场景而定后备系统切换自动化大部分任务需要人工进行二次检验
激光视网膜手术:自动化在降低用户错误很有效。未自动化之前,经常出现数据输入错误
结构化的,理智的决策
核心
某项决策的基本方向是事先决定的,而不是事后得出的
决策时考虑的信息源是清楚的
任何假设都应该明确说明
数据驱动决策要优于情感驱动的决策,直觉驱动的决策,以及资深人士的一件
指令式的决策
使用场景:发展和演进缓慢的行业
方式:任何人类都想到的故障场景都在一个检查列表中记载,发生故障时,这些资料是进行操作的权威指南
行业
通信行业:不轻易改变底层技术
核能行业:如果目前运行正常,那就不要修改它
清晰的,数据驱动的决策方式
制造行业:试验文化,多构建和测试猜想非常关注
交易行业:将决策划分成更小的块来更好地管理风险
D. Google SRE 其他行业的经验
猜你喜欢
转载自blog.csdn.net/micklongen/article/details/89739686
今日推荐
周排行