GRPO 能提升 10 倍效率吗?快手 AI 的 SRPO 证明了这一点

GRPO 能提升 10 倍效率吗?快手 AI 的 SRPO 证明了这一点

OpenAI的o1系列和DeepSeek-R1的显著成功,已无可辩驳地证明了大规模强化学习(RL)在引出复杂的推理行为和显著增强大型语言模型(LLM)能力方面的强大威力。然而,这些突破性推理模型背后的核心训练方法,在其技术报告中往往语焉不详。最近的社区工作主要集中在数学推理上,而跨领域泛化能力的挑战在很大程度上仍未探索。此外,标准的基于偏好优化的强化学习(GRPO)训练饱受性能瓶颈、样本利用效率低以及在处理混合领域数据集时难以培养专业推理技能等常见问题的困扰。这些挑战使得将RL方法有效地扩展到LLM变得复杂。为了解决这些限制,快手的Kwaipilot团队的研究人员提出了一种新颖的强化学习框架:两阶段历史重采样策略优化(SRPO)。这种创新方法旨在系统地解决上述跨多个维度的训练挑战。该团队已公开发布了详细介绍其训练方法的技术报告,并开源了SRPO-Qwen-32B模型。值得注意的是,这项工作首次同时在数学和代码领域实现了DeepSeek-R1-Zero级别的性能。通过利用与DeepSeek相同的基模型(Qwen2.5-32B)并采用纯粹的强化学习训练方法,SRPO在AIME24(50)和LiveCodeBench(41.6)基准测试中取得了令人印象深刻的结果,超越了DeepSeek-R1-Zero-32B的性能。更值得注意的是,SRPO仅使用R1-Zero所需训练步骤的十分之一就达到了这一性能水平。原始GRPO的挑战在他们最初的探索中,Kwaipilot团队


原文链接: https://syncedreview.com/2025/04/23/can-grpo-be-10x-efficient-kwai-ais-srpo-suggests-yes-with-srpo/

Comments are closed.