AI Projects Self-Study Hub

这套文档是给你自己自学用的，不是课程官网，也不是仓库翻译。

目标只有一个：

让你知道这些项目分别在教什么
让你知道先做哪个、后做哪个
让你每次打开一个仓库时，知道第一步该干什么

怎么用这套文档

建议不要同时开 8 个仓库乱看。

正确方式是：

先选一条学习主线
在这条线里按顺序做项目
每个项目先完成“最小复现”
第二遍再改代码、换数据、做自己的版本

三条主线

1. RAG / Retrieval Systems

适合你如果现在最想做：

企业知识库问答
检索增强生成
多步搜索与 deep research

入口：

RAG Systems Track

2. LLM From Scratch

适合你如果现在最想搞懂：

tokenizer
transformer
pretraining
小模型从零训练

入口：

LLM From Scratch Track

3. Alignment / Agent RL

适合你如果已经有一点 LLM 基础，想继续学：

SFT
preference optimization
GRPO
agent reinforcement training

入口：

Alignment And Agent RL Track

项目一句话定位

项目	一句话定位	难度
rag-from-scratch	最适合入门 RAG 主链路的实践仓库	低
complex-RAG-guide	把 RAG 从 demo 拉到更复杂流程	中
rag_techniques	RAG 技术手册和实验集	中
deep-searcher	更接近产品化 deep research / private data search	中高
minimind	小模型从零训练的低门槛入口	中
CS336	系统学习 language modeling from scratch	高
ModelAlignmentFromScratch	从 SFT 到 EI / GRPO 的手写实现	高
OpenPipe ART	面向多步 agent 的强化训练框架	高

如果你不知道从哪条线开始

你想先做应用

先走 RAG：

RAG Systems Track

你想先打基础

先走 LLM from scratch：

LLM From Scratch Track

你已经做过一些 RAG 或小模型训练

再走 alignment：

Alignment And Agent RL Track

每个项目怎么做

不要一上来就“看懂全部代码”。

统一按下面流程：

看这份导学页
打开原项目 README
跑通最小 demo
只改一个局部模块
写你自己的总结

建议每做完一个项目，都回答这 4 个问题：

这个项目核心解决什么问题
它的最小可运行链路是什么
它和上一个项目相比多了什么
如果让我自己重写，我先重写哪一层

项目索引

第二层内容

如果你已经确定要开始做，不只是浏览导学页，那就直接进入每个项目的 7-Day Plan。

这些计划的目标是：

每天只做一小块
不让你陷入“今天又不知道该干什么”
每天结束都有明确产出

推荐进入方式：

先读对应项目导学页
再打开对应 7-Day Plan
照着每天任务推进

第三层内容

如果你已经学完一轮，想检查自己到底有没有真的掌握，再做这一层：

使用方式：

不看原文档，先自己答
能口头解释的题，不要只写关键词
做完后再回去查漏补缺

第四层内容

如果你做完自测后想核对思路，再看这一层：

建议顺序：

先独立做题
再对照答案
把不会的点写回自己的笔记

你真正的目标

不是“收藏这些 repo”。

而是做到这三件事：

你能独立复现一个最小 RAG 系统
你能讲清楚一个小语言模型从 tokenizer 到训练的主流程
你能区分 pretraining、SFT、GRPO、agent RL 分别在解决什么问题