如何负责一个系统的稳定性

黄金指标

  1. 延迟:接口的RT。P99
  2. 流量:接口能承受的最大QPS,TPS
  3. 错误:单位时间内,报错个数,业务失败个数
  4. 饱和度:cpu使用率,内存使用率,数据库连接池,线程池,磁盘等使用率

如果让你接手一个新系统,如何保证稳定性

  1. 明确服务责任边界:这个服务是干嘛的
  2. 摸清家底:梳理服务所有出口与入口,都有谁在调用我。我又在调用谁,对谁有依赖。每个接口的重要性进行排序,每个接口的黄金指标和上下游对齐(包括qps,rt等等)
  3. 点亮监控:基于第二步结果,对每个接口的不同指标要求加上监控。
  4. 演练与压测: