5月18日:一边观察市场结构消化,一边让系统学会自己站起来
「量化实战手记」— 记录从想法到落地的真实开发历程
上篇 · 市场结构
缩量整固,结构未破
今天两市成交 2.92 万亿,跌破 3 万亿关口,终结了此前连续放量的态势。上证综指收 4131.53 点,跌 0.09%,全天振幅极小,本质上是一个横盘消化日。
热点方面,存储芯片是绝对主线。长鑫半年预盈超 500 亿的消息,直接引爆了半导体方向的集体拉升,科创综指逆势涨 0.80%,多只存储芯片龙头批量创出新高。煤炭、电力、油气等资源股同步走强。
走弱的一侧是化纤、保险、医药、银行,全市场约 3000 只个股飘绿,跌多涨少。
主要指数 30 分钟结构




判断:缩量整固不等于走弱。结构未破的前提下,热点轮动到半导体方向,说明市场仍在寻找进攻点而非防守。后续关注量能能否重新回到 3 万亿以上。
下篇 · 继续优化FQ量化系统(市场行情引擎的自我修复)
沉默的五只股票
行情引擎上线后运行稳定,14 只股票通过三个轮询 Provider(tdx、akshare_em、akshare_sina)均匀分配,每分钟采集一次 bar 数据。一切看起来正常。
直到某天检查数据,发现其中 5 只股票的 bar 数据完全停止更新。不是偶尔丢几根,是从开盘到收盘一根都没有。
这 5 只股票恰好都分配给了 akshare_em——一个基于东方财富接口的数据源。经过诊断,问题不是代码 bug,而是东方财富服务端直接封锁了请求:TLS 握手成功后返回 0 字节,然后断开连接。
数据源被封是外部因素,但系统暴露出的问题更值得思考:为什么一个 Provider 挂了,它的标的就只能跟着沉默?
诊断:健康系统是个摆设
第一反应是查看健康检查系统。架构里确实有 ProviderHealth,追踪连续失败次数,3 次后标记不健康。看起来应该能捕获这个问题。
但深入代码后发现,整个健康追踪系统从未工作过。
原因是一个 key 不匹配的 bug:
register_provider 存储健康状态时用 "tdx:1m"(名称+周期),而 record_failure 被调用时只传了 "tdx"(纯名称)。查找返回 None,整个 if 分支被跳过。
这个 bug 的危害在于它是静默的——不会报错、不会崩溃、日志里也没有任何异常。健康系统像一个尽职但不打卡的保安:每天巡逻,但从不记录。
原则:接口的存储契约和查询契约必须一致。如果不一致,至少要在查询失败时发出警报,而不是静默跳过。
方案选择:整体迁移还是逐个转移
修复了健康追踪后,下一个问题是怎么做故障转移。两种思路:
同一个 Provider 下的股票状态可能完全不同。akshare_em 被封禁,所有标的都受影响——但如果只是某只股票因为临时代码异常导致获取失败呢?把其他正常的股票一起迁移,反而制造不必要的扰动。
所以选择标的级:哪个标的不行,就迁哪个。
原则:故障转移的粒度应该和故障的粒度匹配。过粗的迁移会造成"爆炸半径"过大。
核心设计:三层能力
标的级故障转移需要三个核心能力:
感知:让错误带上标的身份
原来的错误回调只传 Provider 名称和异常对象,不知道是哪个标的出错。第一步是给回调加一个身份信息:
# 改造前OnErrorCallback = Callable[[str, Exception], ...]# 改造后:增加可选的 symbol 参数OnErrorCallback = Callable[[str, str | None, Exception], ...]# provider symbol error
symbol 设为可选参数——WebSocket 类的 Provider(如 sina_ws)报的是连接错误,没有具体标的。PollingProvider 逐个标的轮询,错误天然关联到具体标的。
判定:Router 里的标的级追踪
Router 新增两个核心方法:
def record_symbol_failure(self, provider_name, symbol): """连续失败 ≥ 3 次时返回需要迁移的 provider_key""" failures[symbol] = failures.get(symbol, 0) + 1 if failures[symbol] >= 3: return provider_key # 触发迁移信号def record_symbol_success(self, provider_name, symbol): """成功后重置失败计数,清除已试 Provider 记录""" failures.pop(symbol, None) exhausted.pop(symbol, None)
选择目标 Provider 时用最少标的策略——谁手里的标的少,就给谁加:
def get_migration_target(self, symbol, period, exclude_key): tried = self._symbol_exhausted.get(symbol, set()) candidates = [k for k in healthy_providers if k != exclude_key and k not in tried] return min(candidates, key=lambda k: len(provider.symbols))
防弹跳:穷举追踪
最棘手的边界情况:如果一只股票在所有 Provider 上都失败怎么办?比如股票停牌——每个数据源都取不到数据。
_symbol_exhausted 字典记录每只标的已经尝试过哪些 Provider。全部试过后停止迁移,记录警告日志。
原则:自动恢复机制必须有"放弃条件"。没有退出策略的自愈,比不自愈更危险。
踩坑记录
遍历中删除的安全问题
故障转移发生时,_poll_cycle 正在遍历 symbols 列表。symbols 属性返回的是 sorted(self._symbols)——一个新的列表快照。for 循环遍历的是快照,底层 set 的修改不影响正在进行的遍历。
空轮询的 Provider
迁移完成后,原来的 Provider 手里可能一个标的都不剩了。_poll_cycle 的第一行:
if not self._symbols: return # 没有标的,直接返回
空转成本几乎为零。后续有新标的分配回来,它能立即恢复工作。
完整流程
把所有改动串起来,一个标的从失败到迁移的完整时序:
整个过程完全自动,无需人工干预。标的成功获取数据后,record_symbol_success 会自动清零失败计数和已试记录。
总结
今天做了两件事:
市场端——缩量整固日,四大指数 30 分钟结构未破,存储芯片是绝对主线。跌多涨少,但结构性的强势板块仍在。
系统端——行情引擎新增标的级故障转移。改动 5 个文件,核心变更集中在 3 个模块:
| |
|---|
| base.py | |
| router.py | 修复 key 映射 + 标的级追踪 + 迁移目标选择 + 穷举防护 |
| engine.py | 错误处理触发迁移 + migrate_symbol + 成功时重置计数 |
设计过程中提炼的几条可复用经验:
- 接口契约必须一致
- 故障粒度匹配恢复粒度
- 自动恢复必须有退出条件
- 用可选参数做向后兼容
核心原则:自愈系统的价值不在于"永不失败",而在于"失败后能自己站起来"。而站起来的前提是知道什么时候该停下。
附录:技术速查表
迁移触发条件:同一标的在同一 Provider 上连续失败 ≥ 3 次
目标选择策略:最少标的优先(min(candidates, key=len(symbols)))
穷举保护:_symbol_exhausted 记录已试 Provider,全部试完停止
成功恢复:record_symbol_success 清零失败计数 + 清空穷举记录
量化实战手记
本系列记录作者用代码理解市场的真实历程——每个想法如何变成设计,每个设计如何变成可运行的系统。不谈理论,只聊实战。
加入量化探索之旅