Prime Intellect 发布分布式强化学习训练框架、攻克了一大难关！

发表时间：2026-06-23 18:28

Prime Intellect 发布分布式强化学习训练框架 prime-rl 0.6.0 版本，攻克了万亿参数混合专家模型 MoE 在超长上下文智能体任务下的强化学习 RL 训练门槛。

大模型能读完 256k 的超长文本并不罕见，但在强化学习训练中，为了让模型通过自主试错进行推理演练，显卡必须全程保存 131k 长度下庞大的中间激活值 Intermediate Activations，显存开销呈成百上千倍暴涨。此前这需要数千张显卡构成的庞大集群，而 prime-rl 0.6.0 仅用 28 台 H200 服务器就跑通了 GLM-5 的 131k 上下文强化学习训练，单步耗时控制在 5 分钟内。

为解决复杂代码生成等试错任务中，极少数长尾耗时任务阻塞全局步调导致显卡资源长期闲置的问题，框架打破了传统的同步等待机制，采用完全解耦的异步 RL 架构。后台训练器在计算出新权重后，无须等待正在进行的试错任务结束，直接在模型生成文本期间实时下发更新。已分发的任务继续使用旧策略以保证速度，新任务则注入 KV-cache 盐强行重建缓存。

针对异步更新中训练与推理步调不一致容易导致模型逻辑混乱的问题，框架引入路由重放 R3 技术，直接在底层处理专家分发数据，规避了数据转换带来的系统延迟，将两端的不匹配度降低至十分之一，极大稳定了异步训练。

在底层资源压榨上，框架通过精细设计彻底解决了显卡显存被长文本撑爆的痛点。推理端采用读与写计算分离的架构，防止大模型因阅读大量前情提示而卡死后续的文本生成；同时联合多张显卡共享专家知识，并利用 Mooncake 技术把多台服务器的闲置内存和硬盘拼成一个共享缓存池。

在超长文本的并行计算上，针对 GLM-5 采用的 DSA 稀疏注意力机制，框架定制了专属的并行方案，在确保模型能纵览全局的同时，将每层显卡间的数据通信开销缩减至仅有一次。

在精度对齐上，训练端与推理端被统一接入 DeepGEMM 算子库，运行 DeepSeek V3 提出的块缩放 FP8 方案。两端统一的精度标准与部分共享的计算内核，大幅降低了训练与推理间的 KL 散度不匹配，极大缓解了由精度偏差引发的训练崩溃风险。