作者:焦振清
时间:2018-12-03
架构
- 业界常见的架构有哪几种形式
- 有无异地多活/同城多活的实现方案
- 你的服务的架构图是什么样的
三板斧系列(要求严格排序第一就是要比第二重要)
- 监控:三个最重要的监控指标和监控策略,以及分别的预案/处理措施
- 预案:三个最重要的预案是什么
- 问题定位:三个最重要的排查内容是什么
部署
- 集群的各类角色,用途,是否可选,角色之间相互依赖和互斥关系
- 集群运行还依赖于哪些服务(如缓存,数据库,存储等)
- 最重要的集群当前的部署情况,从规模,角色分配,机房位置,硬件,版本,四个核心指标
数据
- 数据安全如何保证,不被人误删数据,或者误删后如何快速恢复
- 数据完整性/正确性如何保证,写入的是123,那读取的也应该是123,而不应该是12
- 数据时效性如何?读取的延时是多久
故障
- 通报流程
- 对客户的实际影响
- SLA
- 如果要让集群不可用,破坏集群有多少种方式?这些方式是否覆盖到了历史故障- case
- 你处理过的一些典型的/严重的线上问题(故障解决的标准是如何杜绝故障的发生)
业务
- 配置文件内容逐条解读说明(哪些内容和默认配置不同,为什么)
- 常态下进程的资源消耗特征/规律
- 此服务的使用场景主要有哪些?从业务角度看,最关注哪些功能点?有没有替代产品
- 对于此集群,平时的运维操作主要有哪些
- 有哪些常用的管理工具
- 如果是存储组件,数据安全性如何保证,数据如何实现均衡?
- 近期一次故障复盘串讲
炫技
- 你使用了哪些特性解决了哪些问题/场景