任务调度设计
调度层连接了数据、研究和生产,如果依赖关系混乱,就很容易出现静默失败或重复执行。
调度目标
调度系统要解决的不只是“任务按时跑”,还包括依赖正确、失败可见、重跑可控和链路可回放。
设计原则
- 任务依赖显式声明。
- 重试和幂等性分开处理。
- 关键任务需要超时和 SLA 监控。
- 批处理和实时任务分开管理。
关键配置
- 任务 owner 和升级联系人
- 重试次数和退避策略
- 上游依赖和超时阈值
- 失败后的补数或阻断策略
示例 DAG
raw_data -> cleaned_data -> features -> signals -> orders
运行建议
- 为关键链路建立每日摘要报表。
- 将静默失败纳入强制告警范围。
- 所有补跑动作都要保留操作记录。
排障优先级
- 先确认是否是上游数据未到齐。
- 再确认是否是任务依赖配置错误。
- 最后定位计算逻辑或资源问题。
推荐产物
- DAG 总览图
- 关键任务 SLA 清单
- 补跑操作记录表
评论区待配置
将 Giscus 仓库参数补齐后,这里会显示评论区。
OWNER/REPO