title: “参考答案:Alignment / Agent RL”
参考答案:Alignment / Agent RL
对应题目:
1.
因为 pretraining 主要学的是:
- 语言模式
- 下一个 token 预测
但这不自动等于:
- 听话
- 符合偏好
- 稳定完成多步任务
2.
SFT 主要解决:
- 让模型学会按示例格式和目标行为输出
3.
SFT 没完全解决:
- 长期偏好优化
- 多候选之间的相对优劣
- 多步行为稳定性
4.
因为 alignment 不只是“更像人类说话”。
它更关心:
- 是否符合任务目标
- 是否更符合偏好
- 是否减少不想要的行为
5.
Expert Iteration 的核心想法是:
- 先生成候选
- 筛掉高质量样本
- 再用这些更好的样本继续训练
6.
GRPO 和 SFT 的区别在于:
- SFT 直接在给定 target 上监督学习
- GRPO 更强调基于奖励或相对优劣来优化策略
7.
reward 负责把“什么更好”变成可优化的训练信号。
8.
因为训练要基于采样到的响应来估计好坏。
如果采样分布变了:
- 奖励分布会变
- 更新方向也会变
9.
多步 agent 更难,因为它涉及:
- 长轨迹
- 中间步骤误差累积
- 奖励分配更复杂
10.
trajectory 重要,因为 agent 的质量不只在最后一句话,而在整段交互过程。
11.
ModelAlignmentFromScratch 最值得学的是:
- 把 SFT、EI、GRPO 具体落到实现层
12.
因为 SFT 是最基础 baseline。
先看它,才能看懂后面的高级方法到底多了什么。
13.
OpenPipe ART 更强调:
- agent task
- 多步 interaction
- rollout / reward / training 的结合
14.
合格表至少能区分:
- pretraining:学语言模式
- SFT:学示例行为
- EI:筛高质量样本后迭代提升
- GRPO:基于相对奖励优化策略
- agent RL:优化多步任务行为
15.
优先怀疑:
- reward 设计不合理
- 任务定义不清
- rollout 质量差
- credit assignment 难
16.
一个最小 agent RL 任务可以这样定义:
- task:完成一个简单多步查询或工具调用
- reward:任务是否成功、步骤是否合理
- success criterion:成功率是否提升、轨迹是否更稳定