---------高可用------------
Ø不可用=故障。
不用时间=故障修复时间点-故障发现时间点
可用性指标=(1-不可用时间/年度总时间)*100%
Ø高可用:最理想状态可用性100%
系统具备高可用运行能力,说明系统的故障率极低
ØQQ为例:99.99% 一年大约53分钟不可用
广告投放引擎为例:99% 一年大约88小时不可用
---------高并发---------------
Ø并发:同时向系统提交请求的用户数目。
性能指标用于描述并发性能力
性能指标参数:吞吐量(TPS),响应时间(responseTime)
Ø高并发:吞吐量高,响应时间快
系统具备高并发运行能力,说明系统的 吞吐量高,响应时间快。
Ø广告投放引擎系统为例: TPS:10000,responsetime:100ms
高可用 |
||||
容量规划 |
集群容灾 |
运行监控 |
依赖降级 |
|
全链路服务模型 全链路容量模型 全链路容量归一化 优化系统瓶颈 |
全局负载均衡 异地多IDC 应用集群部署 应用故障切换 数据分片 数据故障切换 |
监控指标 1.实现秒级监控和报警(包括业务异常和系统异常); 2.提供的每个服务的访问量,成功率,耗时时间,实时容量占比; 3.外部关键依赖服务的性能指标监控和阀值报警; 4.所有本系统发生的故障,都能实现秒级应急处理; 5.所有的业务的失败率统计。 ====== 1.redis,kaffka,分库分表中间件,SSF的性能指标都设置报警阀值; 2.数据库访问监控:访问量、增长量、数据库连接池,iops,load,top10 分析 ====== 1.服务器的load,cpu,memory,io的峰值和均值; 1.安全风险监控:识别DDOS,CC等常用攻击手段; 2.关注响应时间,吞吐量,资源利用率,随负载的变化 |
强依赖 降级关闭非核心服务 弱依赖 降级旁路依赖服务 路由至备份通道/默认值 |
可伸缩性 |
|||
全链路SLA |
水平扩展 |
多级流控 |
|
定义主链路所有核心服务的SLA, 包含TPS,耗时、异常率、可流控、可降级等指标。 |
应用水平扩展 •SOA面向服务架构从架构层面支持应用的水平扩展 •SSF服务框架解决了服务间通讯的性能瓶颈 缓存水平扩展 •采用数据分片,做到缓存数据可水平扩展 •主备同步,单片主机发生故障,自动切换到备机 数据库水平扩展 •数据库分库,解决了数据库高并发IO瓶颈 •数据库分表,解决了数据库单表容量的性能瓶颈 |
系统安全容量 历史第一高峰容量 历史第二高峰容量 平时高峰容量 平时正常容量 平时正常容量一半 |