title: “自测题:Alignment / Agent RL”
自测题:Alignment / Agent RL
这份题主要检查你有没有把:
- pretraining
- SFT
- preference optimization
- agent RL
区分开。
Part 1: 基础区分
1.
为什么模型完成 pretraining 后,通常还不够“好用”?
2.
SFT 在解决什么问题?
3.
SFT 没有解决什么问题?
4.
为什么 alignment 不能简单理解成“让模型更像人说话”?
Part 2: 方法理解
5.
Expert Iteration 的核心想法是什么?
6.
GRPO 和普通 supervised fine-tuning 的区别是什么?
7.
reward 在 alignment 里扮演什么角色?
8.
为什么 sampling 会影响 alignment 的训练结果?
9.
为什么多步 agent 任务会比单步问答更难训练?
10.
trajectory 在 agent RL 里为什么重要?
Part 3: 项目对应题
11.
ModelAlignmentFromScratch 最值得你学的是什么?
12.
这个项目里为什么建议先读 sft.py,不要一开始就冲 GRPO.py?
13.
OpenPipe ART 和普通对齐项目相比,更强调什么?
Part 4: 动手题
14.
请你自己写一张表,对比:
- pretraining
- SFT
- EI
- GRPO
- agent RL
字段至少包含:
- 输入数据
- 优化目标
- 输出能力
15.
如果一个 agent 在多步任务里表现不稳定,你会怀疑哪几类问题?
16.
如果让你自己设计一个最小 agent RL 任务,你会怎么定义:
- task
- reward
- success criterion
自评分标准
每题:
2 分:能说清楚,还能和项目代码联系起来1 分:概念知道,但边界模糊0 分:不会
总分:
13 分以上:说明你已经开始真正理解 alignment8 到 12 分:说明概念初步建立,但还需要再看实现7 分以下:建议先回到ModelAlignmentFromScratch