ToopTsToopTs
首页
产品文档
策略研究
量化开发
归档
首页
产品文档
策略研究
量化开发
归档
  • 栏目导览

    • 量化开发
  • 专题目录

    • 数据平台专题
    • 研究系统专题
    • 生产运维专题
  • 数据与研究

    • 数据管线设计
    • 研究工作流组织方式
    • 数据质量守门规则
    • 特征仓库设计
    • 数据血缘目录
    • 实验追踪规范
    • 研究报告模板
    • 策略复盘节奏
  • 回测与运维

    • 回测引擎设计
    • 部署与监控基线
    • 任务调度设计
    • 告警与值班手册
    • 发布检查清单

数据血缘目录

数据血缘目录的作用是把一条数据从源头到最终消费方的路径完整记录下来,便于排错、审计和影响分析。

建设目标

血缘目录解决的是“某个字段出了问题时,应该回到哪一层查”的问题。没有这层目录,排障通常只能靠口口相传和临时搜索。

目录应包含

  1. 数据源与采集频率。
  2. 清洗和加工任务链路。
  3. 下游表、特征和服务依赖。
  4. 所属责任人与变更记录。

最低可用视图

  • 表到表的加工链路
  • 特征到原始源表的依赖链路
  • 服务接口到上游数据集的依赖关系
  • schema 变更历史和影响范围

推荐做法

  • 给关键表配置唯一标识。
  • 每次 schema 变更都同步更新血缘说明。
  • 把血缘目录接入告警排查流程。

实际收益

  1. 缩短排障时间。
  2. 提高变更前影响评估的准确度。
  3. 让数据审计和合规检查更可落地。

评论区待配置

将 Giscus 仓库参数补齐后,这里会显示评论区。

OWNER/REPO
最近更新: 2026/4/11 12:54
Prev
特征仓库设计
Next
实验追踪规范