面试官：SFT训练到什么程度，才值得做RL？

烟雨平生

发布于 2026-04-14 19:00:01

170

这个问题挺有意思。因为这个问题看似简单，但要答好其实得把整个对齐流程的底层逻辑理清楚。

先给出答案：当你的模型已经 “会答”（指令稳定、Reward 分布均匀），但还需要 “答得更好” 时，就值得做 RL。

下面我们就来拆解下这个题目。

先来对齐下这几个概念：

什么是SFT？Supervised Fine-Tuning，有监督的微调训练。

什么是RL？Reinforcement Learning,强化学习。

什么是RLHF？Reinforcement Learning from Human Feedback，人类反馈强化学习，通过将人类的反馈纳入训练过程，为机器提供了一种互动学习方式。

对齐这几个概念后，我们来进一步分析这个问题。

一、先看数据：你有 “标准答案” 吗？

有标注数据（Ground Truth）？

数据量 > 100k： 直接上 SFT。数据够多，模型能直接学到 “正确答案”，这时候 SFT 是最高效的。
数据量 < 100k： 再看任务。
- 任务需要推理（CoT 有帮助）？ 用 RFT（拒绝采样微调），让模型自己生成多个答案，再选对的学。
- 任务不需要推理？ 继续用少量数据做 SFT。

没有标注数据？

我们先从根源上理解，为什么会有“训练到什么程度”这种问题，这背后其实涉及到两次对齐的过程。

两次对齐过程：

第一次对齐：为什么必须先做SFT？将互联网语言模型对齐成对话语言模型。预训练模型优化的是 completion 而非对话，直接用 RLHF 存在 reward 分布极度偏向负反馈、模型学不起来的问题，所以需用SFT让模型学会基本对话格式和指令跟随。

第二次对齐：从对话到可用。从对话语言模型对齐到可用性强且安全的语言模型，此时适合用 RL，因为模型已会回答，且 RL 可对不同回答打分、利用用户反馈、在 TOKEN 级别的 credit assignment 上有优势。

光看数据还不够，你得摸一摸模型的 “底”：

SFT 的核心目标，是把一个只会 “续写” 的预训练模型，调教成一个 “听话” 的对话模型。

譬如，Deepseek 团队在 SFT 阶段使用了 150 万条高质量数据，其中包含 120 万条 “有益” 对话数据和 30 万条 “安全” 对齐数据。他们让模型跑了 2 个 Epoch，学习率控制在 5e-6 这个量级。

结果：模型形成了稳定的对话能力，输出分布对齐到了对话语言模型上，不再做无意义的文本补全，这才具备了切换到 RL 的基础。

这是最硬核的判断标准。用 SFT 后的模型对同一个问题采样多个回答，然后用 Reward Model 打分：

可以切 RL： 分数分布比较均匀，有高分也有低分。这说明模型已经 “会答” 了，但 “答得好不好” 有差异，RL 正好可以用来 “择优”，把高分答案的概率拉高。
继续 SFT： 所有回答的 Reward 都很低，说明模型根本还 “不会答”，这时候上 RL 就是在垃圾堆里挑金子，纯属浪费算力。

案例：某电商客服机器人

某团队在训练电商客服机器人时，SFT 后发现，对于 “如何退换货” 这类问题，模型的回答 Reward 分布非常集中，且都在低分区间。