数据管线设计
量化系统的数据管线需要兼顾稳定性、可回溯性和低维护成本。
设计目标
数据管线的职责不是单纯“把数据搬过来”,而是给研究、回测和生产提供一致、可靠、可追溯的数据底座。
基础原则
- 原始数据与清洗数据分层存储。
- 每次加工过程可追踪、可重放。
- 指标计算与因子生产遵循统一时间口径。
分层建议
- Raw:外部源数据原样落地。
- Clean:字段修正、主键校验、时间对齐。
- Feature:因子和派生特征生产。
- Serve:为研究、回测和生产提供稳定接口。
推荐模块
- 数据采集:行情、财务、宏观、另类数据。
- 数据校验:缺失值、重复值、时间戳校正。
- 特征生产:标准化、去极值、中性化。
- 数据服务:为回测、研究和实盘提供统一接口。
示例任务
python -m pipeline.jobs.daily_bar --date 2026-04-06
运维检查项
- 当日更新是否按 SLA 完成。
- 关键字段缺失率是否异常。
- 下游依赖任务是否同步成功。
- 最近变更是否影响历史可重放性。
评论区待配置
将 Giscus 仓库参数补齐后,这里会显示评论区。
OWNER/REPO