ToopTsToopTs
首页
产品文档
策略研究
量化开发
归档
首页
产品文档
策略研究
量化开发
归档
  • 栏目导览

    • 量化开发
  • 专题目录

    • 数据平台专题
    • 研究系统专题
    • 生产运维专题
  • 数据与研究

    • 数据管线设计
    • 研究工作流组织方式
    • 数据质量守门规则
    • 特征仓库设计
    • 数据血缘目录
    • 实验追踪规范
    • 研究报告模板
    • 策略复盘节奏
  • 回测与运维

    • 回测引擎设计
    • 部署与监控基线
    • 任务调度设计
    • 告警与值班手册
    • 发布检查清单

告警与值班手册

告警系统的目标不是“通知很多人”,而是让值班人员在最短时间内知道问题是什么、影响范围多大、应该先做什么。

值班目标

值班体系应该保证任何一个关键问题都能在明确时限内被接住、被分级、被止损,并留下后续修复线索。

告警分级

  • P1:影响实盘交易或核心数据链路
  • P2:影响研究和回测但可临时绕过
  • P3:非关键任务异常或噪声告警

处理顺序

  1. 先判断是否影响交易或核心数据。
  2. 再确定是否需要立即止损或回滚。
  3. 最后安排补数、修复和复盘动作。

值班动作

  1. 确认是否是重复告警。
  2. 判断影响链路和业务范围。
  3. 先止损,再补数,再做复盘。

手册应包含

  • 值班联系方式与升级链路
  • 常见故障定位入口
  • 临时止损动作模板
  • 复盘记录模板和责任归属

常见陷阱

  1. 告警过多但没有分级,导致真正故障被噪声淹没。
  2. 值班手册只写原则,不写明确动作和入口。
  3. 故障复盘没有沉淀到手册,导致问题重复出现。

建议模板

### P1 数据延迟
- 影响范围:实盘信号生成
- 先做什么:停止下游调仓任务
- 排查入口:scheduler / data freshness dashboard
- 升级对象:data oncall, strategy owner

值班交接要点

  1. 当前未关闭的 P1/P2 事件。
  2. 已采取的止损动作和剩余风险。
  3. 需要继续观察的监控项和阈值。
  4. 下一位值班人需要优先关注的系统。

复盘输出建议

  • 故障时间线
  • 首次发现方式
  • 止损动作与恢复时间
  • 根因和长期修复项

评论区待配置

将 Giscus 仓库参数补齐后,这里会显示评论区。

OWNER/REPO
最近更新: 2026/4/11 12:54
Prev
任务调度设计
Next
发布检查清单