什么样的失败? 硬件问题 软件Bug 配置变更错误 系统恶化 外部攻击 依赖库问题 依赖服务问题 面向失败的设计 冗余设计避免单点故障 面向失败的宏观多活架构 服务能力与依赖调用自我保护 为一切不可预料的情况备好预案 自动化运维管控 精细化的监控体系 故障与攻防演练锤炼容灾应急能力
硬件冗余 信息冗余 时间冗余 软件冗余 如何做有效隔离?
以数据为中心进行灾备 以业务为中心进行同城双活(应用层) 以用户为中心进行智能流量分配&多中心部署(异地,存储层做到了多活)