Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

title: “7-Day Plan: OpenPipe ART”

7-Day Plan: OpenPipe ART

对应项目:


目标

7 天后你应该能:

  • 说清 agent RL 在训练什么
  • 理解任务、轨迹、奖励、优化的关系
  • 跑一个最小示例或至少看懂其主流程

Day 1

任务:

  • 读 README
  • 写下 agent reinforcement training 的一句话解释

产出:

  • 一段项目定位总结

Day 2

任务:

  • 浏览项目结构
  • 找 example、task、trainer、reward 相关部分

产出:

  • 一张目录功能图

Day 3

任务:

  • 看最小示例
  • 理解一个任务是怎么定义的

产出:

  • 一页任务定义笔记

Day 4

任务:

  • 看 rollout 或 trajectory 相关流程

产出:

  • 一张 agent interaction 流程图

Day 5

任务:

  • 看 reward / optimization 部分
  • 只抓主逻辑

产出:

  • 一张 reward -> update 关系图

Day 6

任务:

  • 跑一个最小 demo 或至少跑最小配置
  • 记录结果

产出:

  • 一条运行记录

Day 7

任务:

  • 总结 ART 和普通 alignment 的差别
  • 写出你想尝试的一个简单 agent 任务

产出:

  • 一页复盘

完成标准

  • 你能解释 agent RL 的核心对象
  • 你能指出任务和 reward 的关键位置
  • 你有一个自己的小实验想法