
收敛和稳定性。两个模型均在 32T+ Token 上预训练,后训练采用两阶段范式:先通过 SFT + GRPO 强化学习培养领域专家能力,再经在线策略蒸馏统一融合。Pro-Max(最大推理模式)在代码基准达到顶尖水平,在推理和 Agent 任务上大幅缩小与领先闭源模型的差距;Flash-Max 在给予更多推理预算时可接近 Pro 级推理性能,但受限于参数规模,在纯知识类任务和复杂 Agent 工
当前文章:http://j11ti4.zentaike.cn/034d2p/6rhp.html
发布时间:13:34:05