ToopTsToopTs
首页
产品文档
策略研究
量化开发
归档
首页
产品文档
策略研究
量化开发
归档
  • 栏目导览

    • 量化开发
  • 专题目录

    • 数据平台专题
    • 研究系统专题
    • 生产运维专题
  • 数据与研究

    • 数据管线设计
    • 研究工作流组织方式
    • 数据质量守门规则
    • 特征仓库设计
    • 数据血缘目录
    • 实验追踪规范
    • 研究报告模板
    • 策略复盘节奏
  • 回测与运维

    • 回测引擎设计
    • 部署与监控基线
    • 任务调度设计
    • 告警与值班手册
    • 发布检查清单

数据质量守门规则

数据质量问题往往不会让系统立刻崩溃,但会在研究和实盘中持续注入噪声,因此必须有明确的守门规则。

守门目标

数据质量校验的职责不是替代业务判断,而是在错误进入下游之前尽早阻断,并留下可追溯记录。

最低检查集

  • 主键唯一性
  • 时间戳连续性
  • 关键字段缺失率
  • 异常值和突变点

处理策略

  1. 可修复错误自动标注并修复。
  2. 不可修复错误阻断下游任务。
  3. 每次失败都记录样本和原因。

分层策略

  • L1 阻断:关键主键错误、时间错乱、数据截断。
  • L2 告警:缺失率升高、分布突变、字段异常。
  • L3 观察:非关键字段漂移或边缘样本异常。

值得保留的证据

  1. 出错批次 ID。
  2. 原始样本行和清洗后样本行。
  3. 触发规则名称。
  4. 修复动作或人工处理结论。

发布前最低检查

  • 新增字段是否补齐校验规则。
  • 关键主键和时间戳是否覆盖抽样测试。
  • 告警阈值是否与最近数据规模匹配。
  • 失败样本是否能定位到原始批次。

结果输出模板

### Data Quality Report
- batch_id: 2026-04-06-daily-bar
- blocker_count: 2
- warning_count: 5
- impacted_tables: daily_bar, feature_snapshot
- owner: data-platform

常见误区

  1. 只做字段级校验,不做跨表一致性校验。
  2. 只在失败时看日志,不保留结构化质量报告。
  3. 阈值长期不更新,导致告警失真。

评论区待配置

将 Giscus 仓库参数补齐后,这里会显示评论区。

OWNER/REPO
最近更新: 2026/4/11 12:54
Prev
研究工作流组织方式
Next
特征仓库设计