纯强化学习突破训练范式:DeepSeek-R1-Zero零监督微调涌现推理,性能比肩OpenAI o1

AI资讯 · 0 阅读 · 2026-05-23 · 自动采集
2025年1月20日,中国人工智能公司深度求索(DeepSeek)正式开源其新一代推理模型DeepSeek-R1,并同步公开详细技术报告。报告中最令学界震动的并非R1本身的顶尖性能,而是一项名为DeepSeek-R1-Zero的先锋实验:该模型完全抛弃了传统大语言模型训练中不可或缺的监督微调(SFT)环节,仅靠纯强化学习(RL)即在数学、编程等高度复杂的推理任务中自行涌现出类人的思考能力,性能直接对标OpenAI o1系列。

长期以来,业界主流范式认为,要让基础大模型获得遵循指令、逐步推理等高级能力,必须经过海量人工标注示例的监督微调,再辅以基于人类反馈的强化学习(RLHF)。这一路径不仅耗费巨量人力,且步骤繁琐。2024年9月,OpenAI推出o1模型,首次公开展示了“测试时计算扩展”的威力——模型在回答问题前会进行隐式长链推理,大幅提升数学和代码能力,但其技术闭源,外界普遍猜测其背后仍依赖庞大的精标推理链数据。

深度求索此次公开的DeepSeek-R1-Zero彻底颠覆了上述认知。根据技术报告,研究团队直接从DeepSeek-V3-Base基座模型出发,未提供任何人工编写的链式思维示例,仅设计了一套极其简洁的奖励机制:答案正确性奖励(如数学题最终答案匹配、代码执行通过测试用例)和格式规范奖励(要求模型将推理过程置于特定标签内)。训练算法采用组相对策略优化(GRPO),完全舍弃与人类偏好的对齐步骤。在数千步强化学习后,惊人的转折点出现:模型自主发展出了自我检验、回溯修正和逻辑重规划等行为。深度求索在报告中将其称为“顿悟时刻”——模型在解题中途会突然停下,写下“等等,我可能算错了,让我再检查一遍”,随后主动纠正早期错误。

量化成绩为这一质变提供了坚实证据。在AIME 2024数学邀请赛真题测试中,DeepSeek-R1-Zero的pass@1得分从起始近乎为零飙升至71.0%;若对每个问题采样16次并取多数投票,得分进一步推高至86.7%,一举超越OpenAI o1-0912在同等规则下的83.3%。这证明纯强化学习足够驱动复杂认知的涌现,无需任何人类推理模板。该实验同时揭示了一个关键洞察:只要奖励信号足够明确且与目标严格对齐,大模型即可通过大量试错自主发现高效推理策略,而非仅仅是模仿人类示范。

当然,纯RL路线也暴露了可读性差、语言混合等问题。为此,深度求索进一步开发了DeepSeek-R1,利用数千条精心筛选的“冷启动”长链推理示例进行多阶段联合训练,将RL与有限SFT巧妙结合。最终,DeepSeek-R1在AIME 2024中斩获pass@1 79.8%的成绩,与OpenAI o1-1217的79.2%旗鼓相当;在MATH-500基准上达97.3%,并在代码竞赛平台Codeforces中跻身人类前分位。更令产业界兴奋的是,深度求索不仅将模型权重以MIT许可证全面开源,还公布了将R1推理能力蒸馏至小模型的路径:仅70亿参数的蒸馏版本,在AIME上即取得55.5%的pass@1,超过GPT-4o的9.3%,实现了低成本、高效率推理的民主化。

此次突破被业内视为机器学习训练范式的一次“范式转移”。2024年底,OpenAI o3在ARC-AGI抽象推理基准上以87.5%的高分再度刷新纪录,同样基于强化学习与推理时搜索的深度融合;谷歌DeepMind推出的AlphaProof与AlphaGeometry 2在当年的国际数学奥林匹克竞赛中斩获银牌,亦依托强化学习驱动的问题分解和证明搜索。这些成果共同指向一个趋势:预训练扩展律的红利正在收窄,而以强化学习为核心的“推理扩展律”正成为AGI竞赛的新主战场。

分析人士指出,DeepSeek-R1-Zero的纯粹性实验无疑为这一方向投下了最有力的注脚。它宣告了一种可能:未来的AI系统或许无需海量人工标注,仅需被赋予明确的目标和足够的探索空间,便能自行演化出人类难以明确编程的深邃智慧。从依赖监督微调到信任强化学习自涌现,这一转折或将在2025年引发新一轮模型架构、训练算法与奖励设计的大爆发。

🔌 需要 AI API?

国内直连 Claude/GPT/DeepSeek,支付宝充值,5分钟接入

查看中转推荐 →