六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？- 阜阳新闻

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

fyradio.com.cn 12 2026-05-08 12:52:13

　　来源：融量科技

　　导读

　　在上一期（融量AlphaMind因子投研新范式—Agent自动投研）内容中，我们详细讲解了如何通过大模型 AI，结合AlphaMind 平台的 MCP 工具链，实现全自动的量化因子优化与因子挖掘。依托 AI Agent 的自主迭代能力与标准化投研流程，仅用数轮迭代就完成了从基础因子到高性能 Alpha 的完整优化，充分展现了 AI 在量化投研中的高效落地价值。本期我们将在此基础上，继续深入……

　　同样的任务、同样的平台、同样的20轮迭代。六个国产大模型同台竞技，谁能挖出最强的换手率反转因子？结果出乎意料——冠军不是因为“更努力”，而是因为“更聪明”。

　　一、实验设计：一场公平的AI量化竞赛

　　竞赛规则

　　我们设计了一个标准化的因子优化任务，让6个国产大模型各自独立完成：

基础因子：换手率相对强度反转因子 -（ts_mean（turn_rate， 20） / ts_mean（turn_rate， 120））

优化目标：最大化 Pure Long Short Sharpe（优先级最高）+ IC均值

迭代规则：20轮，每轮提交4个变体，共计80次实验机会

固定约束：中证全指（000985）、正态标准化、次日VWAP成交、零手续费、日频调仓

数据区间：2021-05 ~ 2026-05（近5年）

操作平台：AlphaMind 因子分析平台，通过 MCP 协议全自动提交与分析

　　6个参赛模型分别是：

模型

开发商

定位

DeepSeek V4 Pro

深度求索

旗舰推理模型

Mimo v2.5 Pro

小米

旗舰多模态模型

GLM5

智谱AI

最新推理模型

　　为什么选这个任务？

　　因子优化是量化研究的核心日常工作。它既需要金融直觉（理解因子背后的经济逻辑），又需要系统性实验设计能力（在巨大的参数空间中高效搜索），还需要结果解读能力（从噪声中识别真正的信号）。这个任务的复杂度恰好处于“太简单测不出差异”和“太难无法完成”之间的甜点区。

　　二、终极排名：谁赢了？

　　最终 Sharpe 排行榜

　　DeepSeek V4 Pro ███████████ 1.898Mimo v2.5 Pro █████████ 1.781GLM5 ████████ 1.759Qwen3.6-Plus ███████ 1.725MiniMax 2.5 ██████ 1.703Kimi 2.5 █████ 1.696

　　冠军 DeepSeek V4 Pro 以 1.898 的 Sharpe 显著领先，比最后一名高出约 12%。

　　但更有趣的不是排名本身，而是每个模型如何达到自己的最终成绩——它们的“思维方式”截然不同。

　　三、深度解剖：六个模型的六种“性格”

　　🥇 DeepSeek V4 Pro：唯一一个“跳出参数框”的模型

　　最终公式：

　　INDNEUTRALIZE（-（ts_wma（amount， 15） / ts_mean（amount， 230））， sw1_industry）

　　Sharpe：1.898 | 提升幅度：+90%（相对基线）

　　DeepSeek 的优化过程呈现出教科书级的“研究五阶段”：

建立基线（R1-R5）：测试基础窗口 + 发现行业中性化是必选项（Sharpe +1.0）

中性化确认（R6-R10）：对比 INDNEUTRALIZE vs NEUTRALIZE_2X vs GROUP_ZSCORE，确认 INDNEUTRALIZE 最优

窗口精细搜索（R11-R14）：在最优附近做 ±2 级别微调，发现 230 > 240

字段突破（R15-R17）：🔑 全场最关键的一步——从 turn_rate 切换到 amount

极致收敛（R18-R20）：消融实验 + 参数 ±1 级别确认

　　点评：DeepSeek 是唯一一个主动质疑了原始变量选择的模型。当其他5个模型都在 turn_rate 上反复调参时，DeepSeek 在 R15 提出了一个金融直觉驱动的猜想：“成交金额同时包含量价信息，可能比纯换手率更干净地捕捉流动性压力。”这个想法带来了单轮最大跃升（Sharpe +0.10），也是它最终拉开差距的根本原因。

　　它的优化曲线呈现清晰的阶跃式而非渐进式——真正的提升集中在少数几个关键决策上。这很像一个有经验的研究员：不靠蛮力，靠判断力。

　　此外，DeepSeek 还是唯一一个使用了 ts_wma（指数加权）替代 ts_mean 的模型，以及唯一一个给出了完整消融实验（ablation study）来证明每个组件贡献的模型。

　　🥈 Mimo v2.5 Pro：穿越“失败之谷”的逆袭者

　　最终公式：

　　INDNEUTRALIZE（-TS_DECAY_LINEAR（turn_rate， 20） / TS_MEAN（turn_rate， 230）， sw1_industry）

　　Sharpe：1.781 | 提升幅度：+37%

　　Mimo 的优化过程是最有戏剧性的。它的20轮可以分为两段截然不同的故事：

　　前半段（R8-R15）：连续8轮“踩坑”

　　Mimo 在达到 Sharpe 1.704 后，试图通过增加复杂度来继续提升，结果撞上了一堵接一堵的墙：

RANK 变换：IC 飙升但某个变体 Sharpe 暴跌到 0.4

多因子乘法组合：某个变体 Sharpe -0.16

成交量信号叠加：某个变体 Sharpe -2.56

SIGN 放大：某个变体 Sharpe -2.56

　　大量变体出现严重负收益，8轮中每轮最优 Sharpe 也在 1.28-1.60 区间徘徊不前，较 R6 峰值 1.704 显著回落。更糟的是，中间还出现了 standardize=0 下的“虚假繁荣”（Sharpe 高达 2.39，但不满足正态标准化约束）。

　　后半段（R16-R20）：触底反弹，5轮连破

　　令人惊讶的是，Mimo 在“浪费”了8轮之后，凭借最后5轮的精准微调实现了反超：

R16： 1.727（INDNEUTRALIZE 确认）

R17： 1.710（MEAN 252 尝试）

R18： 1.747（MEAN 220 突破）

R19： 1.763（DECAY 20 突破）

R20： 1.781（MEAN 230 终极突破）

　　点评：Mimo 的“失败日志”反而是全场最有价值的文档。它详尽记录了每一个失败方向及其原因——RANK 是陷阱、跨信号组合必死、standardize=0 是虚假繁荣。这些“负面知识”对一个研究员来说价值连城。

　　但它的前半段也暴露了一个问题：缺乏及时止损的意识。连续8轮在一个死胡同里打转，换作人类研究员可能在第3轮就会叫停并切换方向。

　　Mimo 最终选择了 TS_DECAY_LINEAR（线性衰减加权）而非 ts_wma，这与 DeepSeek 不同。DECAY_LINEAR 是等差衰减，WMA 是指数衰减——两者的优劣在理论上值得进一步探讨。

　　🥉 GLM5：复杂度爱好者的“暴力美学”

　　最终公式：

　　10个加权窗口 × POWER（0.7）变换 × 行业中性化（公式超过10行，此处省略）

　　Sharpe：1.759 | 提升幅度：+39%

　　GLM5 走出了一条与其他所有模型都不同的路。当其他模型在寻找“最优的两个窗口”时，GLM5 在问：“为什么要只用两个窗口？”

　　它的优化路径：

先发现 turn_rate × amount 组合（R4，Sharpe 1.31 → 1.48，+13%）

再引入 POWER 幂次变换压缩极值（R11，Sharpe 1.67 → 1.68）

然后进入疯狂的“窗口数量军备竞赛”——从3窗口一直加到10窗口

　　R13：三窗口加权 → Sharpe 1.699R15：五窗口加权 → Sharpe 1.713R16：六窗口加权 → Sharpe 1.721R17：七窗口加权 → Sharpe 1.730R18：八窗口加权 → Sharpe 1.740R19：九窗口加权 → Sharpe 1.752R20：十窗口加权 → Sharpe 1.759

　　每增加一个窗口，Sharpe 提升约 0.01，像上楼梯一样稳定。

　　点评：GLM5 的策略本质上是在做集成学习（Ensemble）——用多个不同时间尺度的因子加权平均来平滑噪声。这在机器学习中是一种有效策略，但在量化因子领域存在一个隐患：过度参数化。

　　GLM5 的最终公式包含 10 个窗口对 + 10 个权重参数 = 20 个自由度，优化在 5 年样本内进行。这种“以复杂换收益”的方式，样本外衰减风险极高。相比之下，DeepSeek 的公式只有 2 个参数（WMA 15 + MEAN 230），模型的简洁性本身就是一种防御过拟合的保护。

　　GLM5 是唯一一个持续使用 turn_rate × amount 乘积（而非单独 amount）的模型，它把“换手率×成交金额”理解为“大资金高换手”的异常交易信号。这个金融解释有一定道理，但从 Sharpe 角度看，纯 amount 的效果（1.898）确实优于乘积（1.759）。

　　第四名 Qwen3.6-Plus：学院派的优雅收敛

　　最终公式：

　　v1 = -TS_MEAN（turn_rate， 14） / TS_MEAN（turn_rate， 230）INDNEUTRALIZE（v1， sw1_industry）

　　Sharpe：1.725 | 提升幅度：+15%

　　Qwen3.6 的优化过程是全场最干净、最系统的。它严格遵循“固定一个变量，扫描另一个变量”的控制变量法：

　　1．固定分子=10，分母从 180 → 220（R11-R13）

　　2．固定分子=12，分母从 200 → 240（R14-R16）

　　3．固定分母=230，分子从 12 → 16（R16-R17）

　　4．确认峰值（R18）：15和16均下滑

　　5．微调确认（R19-R20）：230附近存在宽平台

　　它的方法论几乎可以写成教科书。

　　更难得的是，Qwen3.6 提出了一个全场最有洞察力的发现：IC 与 Sharpe 的权衡。

　　“分子增大 → IC 降低 → 但换手率也降低 → Sharpe 可能反而上升”

　　它发现 14/230 的 IC（0.0355）虽然低于 13/225 的 IC（0.0358），但换手率更低、资本效率（pnl/tvr）更高，导致 Sharpe 更优。单纯追求高 IC 是陷阱——这个洞察本身就值回票价。

　　点评：Qwen3.6 像一个优秀的理科研究生——方法严谨、逻辑清晰、文档规范。它的局限在于从未质疑过变量选择本身：一直用 turn_rate，没有尝试 amount、volume 等替代字段；一直用 ts_mean，没有尝试加权方式。在“给定的框架内做到极致”和“质疑框架本身”之间，Qwen3.6 选择了前者。

　　第五名 MiniMax 2.5：浅尝辄止的保守派

　　最终公式：

　　NEUTRALIZE（-（ts_mean（turn_rate， 5） / ts_mean（turn_rate， 235））， sw1_industry）

　　Sharpe：1.703 | 提升幅度：+1.3%

　　MiniMax 2.5 的整个优化文档只有 130 行——相比之下 DeepSeek 的文档超过 220 行。它的优化过程更像是一个快速的参数扫描而不是深度研究：

没有尝试不同的加权方式（ts_wma、ts_decay_linear）

没有尝试字段替换（amount、volume）

没有尝试非线性变换（POWER、SIGNED_SQRT）

没有行业中性化方式的对比（INDNEUTRALIZE vs NEUTRALIZE）

没有消融实验

没有 IC 衰减分析

没有分年度表现

　　点评：MiniMax 2.5 似乎把这个任务理解成了“快速找到一组还不错的参数”，而非“系统性地探索和优化”。它的 80 次实验中可能有一大半是无效的重复探索。如果把这个任务比作寻宝，其他模型至少尝试了挖几个不同的地方，MiniMax 则在第一个找到硬币的地方就停了。

　　第六名 Kimi 2.5：简单到极致，但也错过了太多

　　最终公式：

　　NEUTRALIZE（-TS_MEAN（turn_rate， 5） / TS_MEAN（turn_rate， 240）， sw1_industry）

　　Sharpe：1.696 | 提升幅度：+40%

　　Kimi 2.5 的优化策略极其纯粹：只做窗口参数搜索。它从短窗 2 天一直试到 10 天，长窗从 20 天试到 300 天，最终收敛在（5， 240）。

　　它的文档写得很好——有导语、有阶段划分、有年度分解、有IC衰减。但优化过程本身缺乏想象力：全程使用 ts_mean，全程使用 turn_rate，全程使用 NEUTRALIZE。它找到了给定结构下的最优参数，但从未质疑结构本身。

　　点评：Kimi 2.5 是一个“勤奋但不够聪明”的研究助理。它做了 72 次实验（18 轮有效），但探索的维度只有窗口参数这一个方向。相比之下，DeepSeek 同时探索了窗口、加权方式、中性化方式、数据字段、公式结构 5 个维度。在因子优化这个任务上，维度选择的智慧比参数搜索的勤奋更重要。

　　值得注意的是 Kimi 2.5 的最终公式与 MiniMax 2.5 惊人相似（短窗 5 vs 5，长窗 240 vs 235，都用的 NEUTRALIZE + ts_mean），但 MiniMax 略胜一筹。两个模型本质上是同一思路，但 MiniMax 在窗口参数上略好一些。

　　四、六张优化路线图的对比

　　4.1 完整散点坐标数据

　　DeepSeek V4 Pro（阶跃式 — 最终 1.898）

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

　　Mimo v2.5 Pro（V型反转 — 最终 1.781）

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

　　GLM5（爬楼梯式 — 最终 1.759）

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

　　Qwen3.6-Plus（早熟收敛 — 最终 1.725）

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

　　MiniMax 2.5（早熟收敛 — 最终 1.703）

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

　　Kimi 2.5（早熟收敛 — 最终 1.696，仅18轮有效）

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

　　4.2对比汇总表

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

　　4.3 三种优化模式的解读

　　类型一：“阶跃式”突破 —— DeepSeek

　　DeepSeek 的曲线特征：在少数关键轮次发生跃升，其余轮次做验证和微调。

跃升节点

轮次

Sharpe 变化

驱动因素

基线 → 中性化

R3（1.514） → R5（1.615）

0.1

INDNEUTRALIZE加持

回归简单

R6（0.820） → R8（1.675）

0.86

放弃多因子，WMA替代mean

WMA窗口优化

R8（1.675） → R14（1.794）

0.12

WMA18 + mean230

字段突破

R14（1.794） → R15（1.895）

0.1

turn_rate → amount

收敛

R15（1.895） → R20（1.898）

0.003

参数微调

　　核心特征：80% 的收益来自 20% 的关键决策。R6 的多因子尝试导致 Sharpe 从 1.615 暴跌至 0.820，但模型迅速吸收教训、回归简单结构，后续再未犯同类错误。

　　类型二（变体）：“V 型”反转 —— Mimo

　　Mimo拥有全场最独特的曲线形状：R6达到1.704后，R9-R15Sharpe大幅回撤至1.28-1.53区间（最低R15=1.280，较峰值1.704回落约25%），随后在R16-R20实现五轮连破反弹至1.781。

阶段

轮次

Sharpe 范围

特征

快速攀升

R1-R6

1.09 → 1.70

结构确立+窗口精调

回撤之谷

R9-R15

1.28 ~ 1.53

RANK陷阱/跨信号组合/standardize混乱

V型反弹

R16-R20

1.73 → 1.78

纠偏后五轮连破

　　这个“先抑后扬”的回撤-反弹形态在任何其他模型中都没有出现，是Mimo最独特的方法论印记——虽然代价巨大。

　　类型三：“爬楼梯式”渐进 —— GLM5

　　GLM5 的曲线在 R9 之后近乎单调上升，每增加一个窗口带来约 0.01 的 Sharpe 提升：

窗口数

轮次

Sharpe

1.672

R11

1.689

R15

1.713

R16

1.721

R17

1.73

R18

1.74

R19

1.752

R20

1.759

　　隐患：样本内“加窗口就能提升”是过拟合的经典信号。10窗口方案（20+个自由参数）在样本外的衰减幅度远高于 DeepSeek 的2参数方案。

　　类型四：“早熟收敛”——Kimi2.5、MiniMax2.5、Qwen3.6

　　三个模型的共同形态：在中段达到方法论天花板后，后续轮次围绕同一局部最优做小幅震荡。

模型

收敛轮次

天花板 Sharpe

后续震荡幅度

未探索的维度

Qwen3.6

R17

1.725

±0.003

字段替换、加权方式

MiniMax

R18

1.703

±0.026

字段替换、加权方式、中性化对比

Kimi 2.5

R15

1.696

±0.07

字段替换、加权方式、中性化对比

　　三者全程只使用 turn_rate + ts_mean + 行业中性化，从未质疑变量选择和算子选择。它们找到了“这个框架下”的最优解，但没有突破框架本身。

　　五、关键洞察：什么区分了“好模型”和“一般模型”？

　　洞察1：敢于质疑输入变量 > 勤奋搜索参数空间

　　这是整场竞赛中最重要的教训。

模型

使用的字段

最高 Sharpe

DeepSeek

amount

1.898

Mimo

turn_rate

1.781

GLM5

turn_rate × amount

1.759

Qwen3.6

turn_rate

1.725

MiniMax

turn_rate

1.703

Kimi 2.5

turn_rate

1.696

　　坚持使用 turn_rate 的5个模型，没有一个突破 1.79。而 DeepSeek 在 R15 切换到 amount 后，直接从 1.79 跳到了 1.90。

　　为什么 amount 更好？成交金额 = 成交量 × 成交价，它同时反映了换手活跃度（量）和资金规模（价 × 量）。同样的换手率，百元股和十元股的资金含义完全不同——这个直觉不是参数搜索能找到的，它需要从金融逻辑出发重新审视变量选择。

　　洞察2：行业中性化不是可选项，是必选项

　　所有6个模型最终都采用了行业中性化（或INDNEUTRALIZE或NEUTRALIZE+sw1_industry）。DeepSeek做了消融实验：去掉行业中性化后，IC标准差从0.068飙升至0.118，Sharpe直接从1.9跌到0.4。

　　这告诉我们：换手率在不同行业间天然有差异（科技股>银行股），不做行业中性化的因子本质上是在做“行业配置”而非“选股”。

　　洞察3：IC≠Sharpe

　　Qwen3.6和Mimo都在优化过程中独立发现了这个反直觉的事实：

　　高IC的变体往往换手率也更高，导致扣除交易冲击后的实际Sharpe反而更低。

　　Mimo 的案例尤其极端——在 NEUTRALIZE 前加入 RANK 后，IC 从 0.038 飙升到 0.051（+34%），但 Sharpe 从 1.7 暴跌到 0.4（-76%）。RANK 改变了收益分布的尾部特性，使得 IC 看起来很美但实际无法交易。

　　洞察4：简单公式>复杂集成

模型

公式参数数量

Sharpe

样本外稳健性

DeepSeek

1.898

样本外衰减 27%（合理）

GLM5

20+

1.759

高过拟合风险

Mimo

1.781

—

　　DeepSeek和Mimo的最终公式都只有2个参数——一个短窗口、一个长窗口。GLM5的公式有20+个参数（10个窗口对+10个权重）。虽然GLM5的公式在概念上可以被理解为“多时间尺度的平滑集成”，但从量化实践的角度，参数越少，样本外越可靠。

　　六、方法论优劣：AI 研究员的核心能力拆解

　　如果把每个模型当作一个“AI 量化研究员”，我们可以从五个维度来评估：

能力维度

DeepSeek

Mimo

GLM5

Qwen3.6

MiniMax

Kimi2.5

假设生成

⭐⭐⭐⭐⭐

⭐⭐⭐

⭐⭐

⭐

系统搜索

⭐⭐⭐⭐

⭐⭐⭐⭐⭐

⭐⭐

⭐⭐⭐

失败识别

⭐⭐⭐⭐⭐

⭐⭐⭐

⭐⭐

⭐⭐⭐⭐

⭐

⭐⭐

结果归因

⭐⭐⭐⭐⭐

⭐⭐⭐

⭐⭐⭐⭐

⭐

⭐⭐

文档沉淀

⭐⭐⭐⭐⭐

⭐⭐⭐

⭐⭐⭐⭐

⭐

⭐⭐⭐

　　各维度最佳：

假设生成：DeepSeek（amount 替代 turn_rate 是全场最佳的原创猜想）

系统搜索：Qwen3.6（控制变量法执行得最严格）

失败识别：DeepSeek（每个失败实验都有明确归因，且排除了后续搜索方向）

结果归因：Mimo（“踩坑”文档全场最有价值，每个失败的原因都分析透了）

文档沉淀：DeepSeek / Mimo（完整的消融实验、IC 衰减、分年表现、优化曲线描述）

　　七、Token 消耗与性价比：谁花最少的钱办了最大的事？

　　除了因子表现，我们还关心一个问题：这些模型烧了多少token/多少钱？毕竟在实际工作中，成本效益和模型性能同样重要。

　　本次测试中，6个模型运行在不同的计费体系下，分别统计如下：

　　7.1各模型资源消耗明细

　　DeepSeek V4 Pro（官网，独立计费）

指标

数值

API 请求次数

119 次

输入 tokens（命中缓存）

12，252，928

输入 tokens（未命中缓存）

187，569

输出 tokens

70，873

总费用

￥1.29

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

　　💡 缓存命中率高达 98.5%（12，252，928 / 12，440，497）。DeepSeek 的 prompt caching 效果极其显著——几乎所有重复的上下文（system prompt、MCP 工具定义、skill 方案等）都被缓存命中，实际计费的输入 token 仅 18.7 万。

　　Mimo v2.5 Pro（小米，独立计费）

指标

数值

总消耗 Credits

26，560，524

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

　　Mimo 使用的是小米自有的 Credits 计费体系，约为 DeepSeek 的千万倍量级（当然，Credits 和 RMB 的换算关系不同，不可直接比较绝对值）。但即便考虑换算比例，Mimo 的 token 消耗规模也明显高于其他模型，这与它“失败之谷”阶段大量试错直接相关——R8-R15 的 32 个失败变体消耗了大量上下文。

　　GLM5/Qwen 3.6/MiniMax 2.5/Kimi 2.5（阿里 Coding Plan 统一计费）

　　这四个模型均在阿里 Coding Plan 下运行，消耗统计为合并值：

指标

数值

消耗占比

最近 5 小时总用量的 14%

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

　　四个模型合计消耗了近期用量池的 14%，平均每个模型约占 3.5%。考虑到每个模型都完成了 20 轮迭代（80 次 MCP 调用 + 分析），这个消耗水平相当节省，说明这四款模型在阿里云上的推理效率优化做得不错。

　　7.2 “性价比”排行榜

　　将最终 Sharpe 与资源消耗综合考量，得出一张耐人寻味的性价比对比：

排名

模型

Sharpe

费用/消耗

性价比评级

一句话点评

DeepSeek

1.898

￥1.29

⭐⭐⭐⭐⭐

冠军不仅性能最强，还最便宜

Qwen3.6

1.725

~3.5% 用量池

⭐⭐⭐⭐

学院派花小钱办中事

GLM5

1.759

~3.5% 用量池

⭐⭐⭐⭐

用多窗口堆出了第三名

Kimi 2.5

1.696

~3.5% 用量池

⭐⭐⭐

钱花得少，但思路也少

MiniMax

1.703

~3.5% 用量池

⭐⭐⭐

投入产出都平庸

Mimo

1.781

2656万 Credits

⭐⭐

性能第二，但代价巨大

　　7.3 三个值得关注的数字

　　98.5% —— DeepSeek 的缓存命中率。这解释了为什么 DeepSeek 能在 119 次 API 调用中仅花费 1.29 元。Prompt caching 使得每轮迭代时，MCP 工具定义、skill 方案、历史上下文等“固定开销”几乎零成本。对于需要多轮对话的复杂任务（如因子优化），缓存命中率直接决定了实际使用成本。从这个角度来说，DeepSeek 在工程层面为长对话场景做了极好的优化。

　　26，560，524 Credits —— Mimo 的“试错税”。 Mimo 的性能排名第二（Sharpe 1.781），但消耗的 Credits 是天文数字。回顾它的优化路径：R8-R15 连续 8 轮“踩坑”带来了大量无效上下文，每一轮失败都累积了更多 token。如果 Mimo 能在第 3-4 轮失败时就及时止损并切换方向（而不是连续 8 轮撞墙），它的成本可能只需要当前的 1/3，且最终结果可能还会更好（省下的轮次可以用于更多有效探索）。

　　14% —— 四个阿里系模型的“用量效率”。四个模型合计消耗了 5 小时用量池的 14%，完成 4×80=320 次实验。折算下来，每小时用量池可以支持约 2，286 次因子分析实验。对于量化团队来说，这个数字意味着单次因子回测的 AI 推理成本已经降至几乎可以忽略的水平。

　　7.4 成本维度的方法论反思

　　如果把费用/消耗当作“实验预算”，每个模型的使用方式截然不同：

模型

预算使用风格

比喻

DeepSeek

精准投放，每分钱花在刀刃上

精打细算的基金经理

Qwen3.6

预算制，在额度内做满功课

好学生按部就班

GLM5

目标导向，为提升不惜工本

烧钱换增长的互联网打法

Kimi

保守消费，只做确定的事

不愿冒险的保守派

MiniMax

低投入低产出

摸鱼型员工

Mimo

大量试错，前期浪费严重

交了昂贵学费的MBA

　　核心结论：在 AI 辅助量化研究中，“聪明地花预算”比“花多少预算”更重要。 DeepSeek 用不到一杯咖啡的钱跑出了全场最佳因子；Mimo 烧了 2600 万 Credits 却只拿到第二名。这个对比本身，就是 AI 工具选型时最该关注的维度。

　　八、这场竞赛告诉我们什么

　　对量化研究员的启示

　　1．“试什么”比“试多少”更重要。80次实验如果只在一个维度上尝试，不如20次实验分布在5个维度上。DeepSeek的成功不是因为实验更多，而是因为它问了更好的问题：“为什么一定是换手率？”

　　2.AI辅助因子研究的正确姿势不是“自动化网格搜索”——那个用Python脚本也能做。AI的价值在于它能像人类研究员一样“形成假设→设计实验→验证→修正”，而这个过程的速度是人类的10-100倍。

　　3．负面结果是最好的老师。Mimo的8轮“踩坑”虽然浪费了实验预算，但留下的文档价值可能比成功实验更高——它告诉后来者哪些路不用再走了

　　对模型选择的启示

　　4．推理能力>知识储备。本次任务的因子公式语法、算子用法对所有模型都是公平的（通过skill方案提供）。拉开差距的是如何根据上一轮结果推理下一轮方向——这考验的是逻辑推理和假设生成能力，而非训练数据中记住了多少量化知识。

　　5．“质疑前提”是最高级的智能。当5个模型都在题目给定的turn_rate上优化时，只有DeepSeek质疑了这个前提。这种“跳出盒子思考”的能力，可能是当前大模型之间最稀缺的差异化能力。

　　九、结语

　　这场6模型横向评测的结果可以总结为一句话：

　　“勤奋型”模型找到了参数的最优解，“聪明型”模型找到了问题的最优解。

　　Kimi 2.5、MiniMax、Qwen3.6 是在给定的框架内做到极致——他们最终都收敛到了近似的窗口参数（5-14 天短窗，230-240 天长窗），这表明纯参数搜索的天花板大约在 Sharpe 1.70-1.73。

　　GLM5 试图通过增加复杂度（多窗口集成 + 幂变换）突破这个天花板，取得了约 1.76 的成绩，但代价是公式复杂度和过拟合风险。

　　DeepSeek 和 Mimo 选择了不同的路径——优化加权方式、质疑变量选择、做消融实验——最终分别达到了 1.90 和 1.78。DeepSeek 的 amount 字段切换，是整个竞赛中唯一一次“重新定义了问题”的操作，也是决定冠军归属的关键一手。

　　对于量化从业者来说，这场实验的最大启示或许是：在 AI 时代，不要让模型只做你也会做的网格搜索。让它去质疑你的假设——那才是它真正比你强的地方。

　　实验时间：2026年5月 | 平台：AlphaMind + Claude Code | 数据区间：2021-2026 | 股票池：中证全指（000985）

　　免责声明：本文为AI模型能力横向对比的技术文章，文中涉及的因子表现均为历史回测结果，不构成任何投资建议。历史业绩不代表未来表现。

　　附录：DeepSeek V4 Pro 彩蛋 —— “终极40轮”优化结果

　　⚠️ 以下内容为额外探索，非20轮标准赛果

　　在完成标准20轮迭代后，DeepSeek 获得了额外20轮的优化机会（R21-R40）。本彩蛋展示了“如果给冠军更多时间，它还能走多远”。

　　彩蛋一：R21-R40 完整结果

轮次

参数组合

Sharpe

IC Mean

阶段说明

R21

amount×turn_rate + POWER + 辅助因子

1.7

0.0321

复合探索

R22

POWER（0.7）权重搜索

1.703

0.0327

幂次搜索

R23

WMA20/130 + 辅助权重

1.721

0.0336

权重微调

R24

WMA18/120 + 辅助0.08

1.73

0.0339

辅助因子

R25

WMA16/110 + 辅助0.05

1.74

0.0342

收敛

R26

amount × volume

2.076

0.0368

⭐最大跃升 +0.34

R27

amt×vol WMA18/228

2.071

0.0368

窗口搜索

R28

amt×vol WMA18/210

2.007

0.0367

窗口偏离

R29

amt×vol WMA18/230

2.076

0.0368

校准回归

R30

amt×vol WMA19/232

2.077

0.0368

精调

R31

SIGNED_SQRT（amt×vol）

2.11

0.043

⭐变换突破

R32

SIGNED_SQRT WMA19/232

2.117

0.0428

窗口微调

R33

SIGNED_SQRT（amt×vol×tr）

2.187

0.0413

⭐三元复合突破

R34

三元 WMA19/232

2.2

0.0411

三元窗口

R35

校准 + 边缘测试

2.2

0.0411

收敛确认

R36

第三字段消融

2.2

0.0411

消融实验

R37

字段加权对比

2.2

0.0411

加权确认

R38

POWER（0.3）

2.218

0.0437

⭐指数精调

R39

指数扫描确认

2.218

0.0437

指数确认

R40

最终校验

2.218

0.0437

终极收敛

　　彩蛋二：终极40轮优化曲线

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

　　彩蛋三：关键突破点总结

阶段

轮次

突破内容

Sharpe 提升

标准赛

R4-5

行业中性化

0.8

标准赛

R15

turn_rate → amount

0.1

彩蛋

R26

amount × volume 复合

+0.34 ← 最大单轮

彩蛋

R31

SIGNED_SQRT 变换

0.03

彩蛋

R33

三元复合 SIGNED_SQRT

0.07

彩蛋

R38

POWER（0.3）精调

0.02

　　彩蛋四：终极统计对比

指标

R1 基线

R20 标准赛

R40 彩蛋

总提升

Sharpe

1.089

1.898

2.218

103.70%

IC Mean

0.0373

0.04

0.0437

17.20%

IC t-stat

—

17.16

19.34

12.70%

样本外 Sharpe

—

1.58

1.9

20.30%

　　彩蛋五：终极最优公式

　　# 最终 40 轮最优解INDNEUTRALIZE（-（POWER（ts_wma（amount * volume * turn_rate， 19） / ts_mean（amount * volume * turn_rate， 232）， 0.3））， sw1_industry）

　　彩蛋六：给文章读者的彩蛋叙事

　　💡 “如果再给 DeepSeek 20 轮，它会做什么？”

字段乘法：不是把 amount 当作字段，而是将 amount × volume 作为新字段——这是人类研究员通常不会想到的操作

符号保持变换：SIGNED_SQRT 在压缩极端值的同时保留方向信息，解决了 RANK 变换“有 IC 没 Sharpe”的问题

三元复合：amount × volume × turn_rate 三个字段的乘积，在裸值形态下只有 1.937，但加上 SIGNED_SQRT 后跃升至 2.187

幂次追问：在 SIGNED_SQRT （=POWER 0.5）已经达到 2.2 之后，模型仍追问“0.5 是最优的吗？”并发现 0.3 更优

　　最终，DeepSeek 用 40 轮（约 160 个变体）将 Sharpe 从 1.089 提升到 2.218，总提升 +103.7%。

ATFX:下跌走势中黄金出现决定性长阳线

12 2026-05-08

六大国产大模型量化因子挖掘横向评测：谁能找到最强Alpha？

创投月报 | 高瓴创投：联手熙诚金睿设立新基金三周内两轮加码地瓜机器人

ATFX:下跌走势中黄金出现决定性长阳线

2.8万亿！这些个股被抢筹，下一只十倍股在哪？

最近发表

热评文章

开盘：美股周四开盘涨跌不一市场关注科技股财报

全球最大主权财富基金2025年盈利2470亿美元

知情人士：字节、阿里将于2月中旬推出新人工智能模型

*ST立方：公司股票短期内价格涨幅较大，明显偏离市场

亚马逊裁员1.6万个岗位印度有500至800个岗位

外资保险资管接连落地，更有“直接设立”大门打开，保险