纯强化学习突破训练范式：DeepSeek-R1-Zero零监督微调涌现推理，性能比肩OpenAI o1

AI资讯 · 0 阅读 · 2026-05-23 · 自动采集

2025年1月20日，中国人工智能公司深度求索（DeepSeek）正式开源其新一代推理模型DeepSeek-R1，并同步公开详细技术报告。报告中最令学界震动的并非R1本身的顶尖性能，而是一项名为DeepSeek-R1-Zero的先锋实验：该模型完全抛弃了传统大语言模型训练中不可或缺的监督微调（SFT）环节，仅靠纯强化学习（RL）即在数学、编程等高度复杂的推理任务中自行涌现出类人的思考能力，性能直接对标OpenAI o1系列。

长期以来，业界主流范式认为，要让基础大模型获得遵循指令、逐步推理等高级能力，必须经过海量人工标注示例的监督微调，再辅以基于人类反馈的强化学习（RLHF）。这一路径不仅耗费巨量人力，且步骤繁琐。2024年9月，OpenAI推出o1模型，首次公开展示了“测试时计算扩展”的威力——模型在回答问题前会进行隐式长链推理，大幅提升数学和代码能力，但其技术闭源，外界普遍猜测其背后仍依赖庞大的精标推理链数据。

深度求索此次公开的DeepSeek-R1-Zero彻底颠覆了上述认知。根据技术报告，研究团队直接从DeepSeek-V3-Base基座模型出发，未提供任何人工编写的链式思维示例，仅设计了一套极其简洁的奖励机制：答案正确性奖励（如数学题最终答案匹配、代码执行通过测试用例）和格式规范奖励（要求模型将推理过程置于特定标签内）。训练算法采用组相对策略优化（GRPO），完全舍弃与人类偏好的对齐步骤。在数千步强化学习后，惊人的转折点出现：模型自主发展出了自我检验、回溯修正和逻辑重规划等行为。深度求索在报告中将其称为“顿悟时刻”——模型在解题中途会突然停下，写下“等等，我可能算错了，让我再检查一遍”，随后主动纠正早期错误。

量化成绩为这一质变提供了坚实证据。在AIME 2024数学邀请赛真题测试中，DeepSeek-R1-Zero的pass@1得分从起始近乎为零飙升至71.0%；若对每个问题采样16次并取多数投票，得分进一步推高至86.7%，一举超越OpenAI o1-0912在同等规则下的83.3%。这证明纯强化学习足够驱动复杂认知的涌现，无需任何人类推理模板。该实验同时揭示了一个关键洞察：只要奖励信号足够明确且与目标严格对齐，大模型即可通过大量试错自主发现高效推理策略，而非仅仅是模仿人类示范。

当然，纯RL路线也暴露了可读性差、语言混合等问题。为此，深度求索进一步开发了DeepSeek-R1，利用数千条精心筛选的“冷启动”长链推理示例进行多阶段联合训练，将RL与有限SFT巧妙结合。最终，DeepSeek-R1在AIME 2024中斩获pass@1 79.8%的成绩，与OpenAI o1-1217的79.2%旗鼓相当；在MATH-500基准上达97.3%，并在代码竞赛平台Codeforces中跻身人类前分位。更令产业界兴奋的是，深度求索不仅将模型权重以MIT许可证全面开源，还公布了将R1推理能力蒸馏至小模型的路径：仅70亿参数的蒸馏版本，在AIME上即取得55.5%的pass@1，超过GPT-4o的9.3%，实现了低成本、高效率推理的民主化。

此次突破被业内视为机器学习训练范式的一次“范式转移”。2024年底，OpenAI o3在ARC-AGI抽象推理基准上以87.5%的高分再度刷新纪录，同样基于强化学习与推理时搜索的深度融合；谷歌DeepMind推出的AlphaProof与AlphaGeometry 2在当年的国际数学奥林匹克竞赛中斩获银牌，亦依托强化学习驱动的问题分解和证明搜索。这些成果共同指向一个趋势：预训练扩展律的红利正在收窄，而以强化学习为核心的“推理扩展律”正成为AGI竞赛的新主战场。

分析人士指出，DeepSeek-R1-Zero的纯粹性实验无疑为这一方向投下了最有力的注脚。它宣告了一种可能：未来的AI系统或许无需海量人工标注，仅需被赋予明确的目标和足够的探索空间，便能自行演化出人类难以明确编程的深邃智慧。从依赖监督微调到信任强化学习自涌现，这一转折或将在2025年引发新一轮模型架构、训练算法与奖励设计的大爆发。

纯强化学习突破训练范式：DeepSeek-R1-Zero零监督微调涌现推理，性能比肩OpenAI o1

相关推荐