Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

title: “7-Day Plan: ModelAlignmentFromScratch”

7-Day Plan: ModelAlignmentFromScratch

对应项目:

  • 项目导学页
  • 原仓库: https://github.com/Sherlock1956/ModelAlignmentFromScratch

目标

7 天后你应该能:

  • 说清 SFT、EI、GRPO 的差别
  • 找到仓库里对应实现
  • 跑通至少一种方法的最小流程

Day 1

任务:

  • 读 README
  • 记录三种方法分别是什么

产出:

  • 一张三方法总览表

Day 2

任务:

  • 浏览 cs336_alignment/ 目录
  • 定位各脚本职责

产出:

  • 一张文件职责表

Day 3

任务:

  • 精读 sft.py
  • 把它看成 baseline

产出:

  • 一页 SFT 流程笔记

Day 4

任务:

  • expert_iteration.py
  • 记录它比 SFT 多出的循环逻辑

产出:

  • 一张 SFT vs EI 对比表

Day 5

任务:

  • GRPO.py
  • 重点理解 reward 和组内比较

产出:

  • 一页 GRPO 笔记

Day 6

任务:

  • 看 grader / reward 相关代码
  • 记录回答是怎么被评估的

产出:

  • 一张 reward 流程图

Day 7

任务:

  • 做整体复盘
  • 写出这三种方法在你心里的分工

产出:

  • 一页 alignment 总结

完成标准

  • 你能区分三种训练方式
  • 你能指出核心实现位置
  • 你能继续进入 agent RL 方向