title: “7-Day Plan: OpenPipe ART”
7-Day Plan: OpenPipe ART
对应项目:
- 项目导学页
- 原仓库: https://github.com/OpenPipe/ART
目标
7 天后你应该能:
- 说清 agent RL 在训练什么
- 理解任务、轨迹、奖励、优化的关系
- 跑一个最小示例或至少看懂其主流程
Day 1
任务:
- 读 README
- 写下 agent reinforcement training 的一句话解释
产出:
- 一段项目定位总结
Day 2
任务:
- 浏览项目结构
- 找 example、task、trainer、reward 相关部分
产出:
- 一张目录功能图
Day 3
任务:
- 看最小示例
- 理解一个任务是怎么定义的
产出:
- 一页任务定义笔记
Day 4
任务:
- 看 rollout 或 trajectory 相关流程
产出:
- 一张 agent interaction 流程图
Day 5
任务:
- 看 reward / optimization 部分
- 只抓主逻辑
产出:
- 一张 reward -> update 关系图
Day 6
任务:
- 跑一个最小 demo 或至少跑最小配置
- 记录结果
产出:
- 一条运行记录
Day 7
任务:
- 总结 ART 和普通 alignment 的差别
- 写出你想尝试的一个简单 agent 任务
产出:
- 一页复盘
完成标准
- 你能解释 agent RL 的核心对象
- 你能指出任务和 reward 的关键位置
- 你有一个自己的小实验想法