Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

title: “自测题:Alignment / Agent RL”

自测题:Alignment / Agent RL

这份题主要检查你有没有把:

  • pretraining
  • SFT
  • preference optimization
  • agent RL

区分开。


Part 1: 基础区分

1.

为什么模型完成 pretraining 后,通常还不够“好用”?

2.

SFT 在解决什么问题?

3.

SFT 没有解决什么问题?

4.

为什么 alignment 不能简单理解成“让模型更像人说话”?


Part 2: 方法理解

5.

Expert Iteration 的核心想法是什么?

6.

GRPO 和普通 supervised fine-tuning 的区别是什么?

7.

reward 在 alignment 里扮演什么角色?

8.

为什么 sampling 会影响 alignment 的训练结果?

9.

为什么多步 agent 任务会比单步问答更难训练?

10.

trajectory 在 agent RL 里为什么重要?


Part 3: 项目对应题

11.

ModelAlignmentFromScratch 最值得你学的是什么?

12.

这个项目里为什么建议先读 sft.py,不要一开始就冲 GRPO.py

13.

OpenPipe ART 和普通对齐项目相比,更强调什么?


Part 4: 动手题

14.

请你自己写一张表,对比:

  • pretraining
  • SFT
  • EI
  • GRPO
  • agent RL

字段至少包含:

  • 输入数据
  • 优化目标
  • 输出能力

15.

如果一个 agent 在多步任务里表现不稳定,你会怀疑哪几类问题?

16.

如果让你自己设计一个最小 agent RL 任务,你会怎么定义:

  • task
  • reward
  • success criterion

自评分标准

每题:

  • 2 分:能说清楚,还能和项目代码联系起来
  • 1 分:概念知道,但边界模糊
  • 0 分:不会

总分:

  • 13 分以上:说明你已经开始真正理解 alignment
  • 8 到 12 分:说明概念初步建立,但还需要再看实现
  • 7 分以下:建议先回到 ModelAlignmentFromScratch