DeepSeek发布下一代R2模型,并揭示了利用SPCT扩展推理的新方法

DeepSeek发布下一代R2模型,并揭示了利用SPCT扩展推理的新方法

大型语言模型领域的重要参与者DeepSeek AI最近发表了一篇研究论文,详细介绍了一种旨在增强通用奖励模型 (GRM) 在推理阶段可扩展性的新技术。同时,该公司暗示其下一代模型R2即将到来,在AI社区内引起了期待。这篇题为《通用奖励建模的推理时间缩放》的论文介绍了一种新方法,该方法允许GRM通过动态生成原则和批评来优化奖励生成。这是通过拒绝微调和基于规则的在线强化学习实现的[1-1]。这一发展正值LLM扩展范式从预训练阶段转向后训练阶段,特别是推理阶段之际,这紧随OpenAI的o1等模型的出现。这种方法利用增加的强化学习(训练期间的计算量)和更广泛的思考时间(测试期间的计算量)来持续改进模型性能。值得注意的是,o1在回应用户之前会生成一个冗长的内部思维链,从而改进其推理过程,探索不同的策略,并识别自身错误。DeepSeek自己的R1系列模型进一步验证了纯强化学习训练(不依赖于监督微调)在实现LLM推理能力的重大飞跃方面的潜力。LLM的基本下一个token预测机制虽然提供了大量的知识,但往往缺乏深入的规划能力和预测长期结果的能力,使其容易做出短视的决策。强化学习起到了至关重要的补充作用,为LLM提供了内部世界模型。这使它们能够模拟不同推理路径的潜在结果,评估这些路径的质量,并选择更优的解决方案,最终实现更系统的长期规划。


原文链接: https://syncedreview.com/2025/04/11/deepseek-signals-next-gen-r2-model-unveils-novel-approach-to-scaling-inference-with-spct/

Comments are closed.