LLMs-from-scratch 笔记
LLMs-from-scratch从零开始构建大语言模型 —— 一本值得每个 AI 工程师啃下来的神书GitHub 仓库github.com/rasbt/LLMs-from-scratch作者Sebastian RaschkaAI/ML 研究员前 Lightning AI 首席科学家现独立研究者出版信息Manning Publications2024 年 9 月ISBN 978-1633437166本文撰写日期2026 年 6 月 29 日项目持续更新中最新内容请以 GitHub 仓库为准一、这本书在讲什么一句话概括用 PyTorch 从零开始手写一个 ChatGPT 级别的 GPT 大语言模型并且真正把它训练出来、微调成可用的对话助手。不是调包不是调 API而是从 Self-Attention 的一行行矩阵乘法开始把整个 LLM 的骨架亲手搭起来。┌─────────────────────────────────────────────────────────────────────┐ │ 你的学习路线图 │ ├─────────────────────────────────────────────────────────────────────┤ │ │ │ Ch1 理解 LLM ──▶ Ch2 文本数据处理 ──▶ Ch3 注意力机制 │ │ │ │ │ │ │ ▼ ▼ ▼ │ │ (理论地基) (Tokenizer / BPE) (Multi-Head Attention) │ │ │ │ Ch4 实现 GPT ──▶ Ch5 预训练 ──▶ Ch6 分类微调 ──▶ Ch7 指令微调 │ │ │ │ │ │ │ │ ▼ ▼ ▼ ▼ │ │ (完整模型) (无标注数据) (垃圾邮件检测) (对话助手) │ │ │ └─────────────────────────────────────────────────────────────────────┘全书7 章 5 个附录从理论到代码从模型搭建到预训练再到指令微调一条完整的 LLM 开发链路全部覆盖。书中训练小型教育模型的方法论与训练 ChatGPT 级别大模型的方法完全一致。二、作者是谁Sebastian Raschka是 AI 领域非常有影响力的教育者和研究者。他拥有威斯康星大学麦迪逊分校的博士学位曾是 Lightning AI 的 Chief AI Educator 和首席科学家目前在密歇根大学任教。你可能听过或者用过他的其他作品Python Machine Learning畅销 20 万 册的机器学习经典入门书Machine Learning with PyTorch and Scikit-LearnPyTorch 实战圣经Build a Reasoning Model (From Scratch)本项目续作2025 年新书他的教学风格以“不卖弄、不跳步、每一行代码都解释清楚”著称。这本书也不例外——他甚至为它录制了 17 小时的配套视频课程亲自带你一行行写代码。三、项目仓库里有什么把仓库 clone 下来你会看到这样的结构LLMs-from-scratch/ ├── ch01/ # 理论篇理解大语言模型纯文本 ├── ch02/ # 文本数据处理Tokenizer、BPE 分词算法 ├── ch03/ # 注意力机制Self-Attention → Multi-Head Attention ├── ch04/ # 实现 GPT 模型完整的 GPT 架构代码 ├── ch05/ # 预训练在无标注数据上训练模型 ├── ch06/ # 微调之文本分类垃圾邮件检测实战 ├── ch07/ # 微调之指令跟随打造对话助手 ├── appendix-A/ # PyTorch 速成教程两篇 Notebook ├── appendix-B/ # 参考文献与扩展阅读 ├── appendix-C/ # 所有章节练习题解答 ├── appendix-D/ # 训练循环进阶优化 ├── appendix-E/ # LoRA 参数高效微调 ├── setup/ # 环境搭建指南含 Docker DevContainer ├── reasoning-from-scratch/ # 续作《Build A Reasoning Model (From Scratch)》 ├── pkg/ # pip 可安装的 Python 包llms-from-scratch ├── requirements.txt # Python 依赖 └── pyproject.toml # 项目配置数字说话指标数量Python 源文件146Jupyter Notebook66 个代码总行数~33,000 行自动化测试Linux / Windows / macOS 三平台 CIBonus 材料30 个专题文件夹四、你能学到什么章节精要主章节章节核心知识点学完你能写出什么Ch1LLM 发展史、Transformer 架构概览、GPT vs BERT建立全局认知地图Ch2BPE 分词算法、滑动窗口 DataLoader、Token Embedding Positional Embedding一个完整的文本预处理管线Ch3Scaled Dot-Product Attention、Causal Attention Mask、Multi-Head Attention、Q/K/V 投影Transformer 的灵魂——注意力机制Ch4LayerNorm、GELU 激活、FFN、GPT 完整前向传播、权重加载与保存一个直接可用的GPTModel类Ch5预训练循环、Cross-Entropy Loss、梯度累积、文本生成策略、模型评估一个训练好的GPT 模型Ch6分类头替换、冻结/解冻策略、Spam Detection 微调一个垃圾邮件分类器Ch7Instruction Finetuning、Alpaca 格式数据集、DPO 偏好对齐一个能对话的 AI 助手附录附录内容APyTorch 速成Tensor → Autograd → nn.Module → 多 GPU 训练B参考文献与扩展阅读指南C所有章节练习题的完整解答D训练循环进阶学习率调度器、梯度裁剪、混合精度ELoRA 低秩适配参数高效微调从零实现Bonus 材料清单部分亮点KV Cache—— 推理加速的核心技术注意力机制变体全家桶GQA分组查询注意力、MLA多头潜在注意力、SWA滑动窗口注意力、DeltaNet、DeepSeek Sparse Attention (DSA)、Cross-Layer KV Sharing️主流模型从零实现Llama 3.2、Qwen3 / Qwen3.5、Gemma 3 / Gemma 4、Olmo 3、Tiny AyaDPO 偏好对齐—— RLHF 的轻量替代方案MoE 混合专家架构 Muon 优化器实用工具BPE Tokenizer 从零实现、GPT 到 Llama 的转换、Web UI 交互界面Chainlit五、怎么下载和运行方法一Git Clone推荐可获得最新更新# 克隆仓库--depth 1 只下载最新版本速度快gitclone--depth1https://github.com/rasbt/LLMs-from-scratch.gitcdLLMs-from-scratch# 安装依赖pipinstall-rrequirements.txt# 启动 Jupyter Labjupyter lab方法二直接下载 ZIP用浏览器打开 github.com/rasbt/LLMs-from-scratch点击绿色Code → Download ZIP按钮即可。方法三Google Colab免安装推荐新手将 GitHub 上的 Notebook URL 复制到 Colab 打开然后在第一个 cell 运行!pip install uvuv pip install--system-r https://raw.githubusercontent.com/rasbt/LLMs-from-scratch/refs/heads/main/requirements.txt方法四pip 安装核心包核心 GPT 模型代码已发布到 PyPIpipinstallllms-from-scratchfromllms_from_scratchimportGPTModel modelGPTModel(...)# 直接使用书中的 GPT 模型类前置要求要求详细说明Python≥ 3.10 且 3.13推荐 3.11PyTorch≥ 2.2.2GPU 可选笔记本纯 CPU 也能跑完全部主章节编程基础熟悉 Python了解基本的深度学习概念会更好但不强制附录 A 有速成教程硬件作者在 M3 MacBook Air 上测试了全部代码NVIDIA GPU 会自动被利用来加速 如果你对 PyTorch 不熟强烈建议先看附录 A——两份 Notebook 手把手带你从 Tensor 到多 GPU 训练。六、怎么学推荐学习路径以下是我建议的 8 周学习计划┌────────────────────────────────────────────────────────────────┐ │ Week 1-2 ████ Ch1 Ch2 │ │ 建立全局认知 跑通 BPE 分词和 DataLoader │ │ │ │ Week 3 ████ Ch3 │ │ 注意力机制是全书核心反复吃透逐行理解矩阵维度变换 │ │ │ │ Week 4 ████ Ch4 │ │ 把 GPTModel 的每一行代码读懂理解张量形状的变化 │ │ │ │ Week 5-6 ████ Ch5 │ │ 跑预训练——这是最耗时的一步建议用 Colab 免费 GPU │ │ │ │ Week 7 ████ Ch6 Ch7 │ │ 微调实战分类器 对话助手见证模型活过来 │ │ │ │ Week 8 ████ Bonus 材料 │ │ 挑感兴趣的方向深入KV Cache / LoRA / DPO / MoE... │ └────────────────────────────────────────────────────────────────┘6 条学习建议先读后写每个章节先通读一遍 Notebook 全貌理解整体逻辑再逐 cell 执行✍️手敲代码不要复制粘贴自己敲一遍能加深 10 倍的记忆——尤其是注意力机制的矩阵运算做完每章的练习题每章都有配套练习答案在附录 C不骗自己配合 170 页自测题 PDFManning 官网可免费下载 Test Yourself On Build a Large Language Model每章约 30 道选择题检测理解程度视频辅助学习17 小时配套视频课中作者 Sebastian 亲自 coding适合跟着敲遇到问题先查troubleshooting.md 已覆盖大多数常见坑Windows 兼容性、TensorFlow 安装、新版本 torch 适配等七、为什么这本书与众不同┌────────────────────────────────────────────────────────────────────┐ │ │ │ 大多数 AI 教程 这本书 │ │ │ │ ┌──────────────────┐ ┌─────────────────────────────┐ │ │ │ from transformers │ │ class MultiHeadAttention: │ │ │ │ import GPTModel │ │ def __init__(...): │ │ │ │ │ │ self.W_q nn.Linear() │ │ │ │ model GPTModel()│ │ self.W_k nn.Linear() │ │ │ │ model.train(...) │ │ self.W_v nn.Linear() │ │ │ │ model.generate() │ │ def forward(self, x): │ │ │ │ │ │ q self.W_q(x) │ │ │ │ # 离开教程后 │ │ k self.W_k(x) │ │ │ │ 我只会调包... │ │ ... 30 行矩阵运算 ... │ │ │ └──────────────────┘ │ │ │ │ │ # 学完之后 │ │ │ 你学会了调包。 │ 我知道 LLM 的每一行代码 │ │ │ │ 在做什么。 │ │ │ └─────────────────────────────┘ │ │ │ └────────────────────────────────────────────────────────────────────┘核心特色✅从零实现不依赖任何 LLM 库不用transformers不用langchain纯 PyTorch 手写每一层✅工业级方法论书中训练小型教育模型的流程与训练 ChatGPT 级别大模型的 pipeline 完全一致✅持续更新GitHub 仓库非常活跃持续加入最新的注意力机制变体和模型架构DeepSeek Sparse Attention、Gemma 4、Qwen3.5 等✅配套齐全视频课 练习题 自测题 30 Bonus 专题 续作书籍 —— 一个完整的 LLM 学习生态✅对硬件友好普通笔记本就能跑通全部主章节代码不需要 A100/H100八、社区与生态 续作Build a Reasoning Model (From Scratch)—— 从已预训练的模型出发实现推理时扩展Self-Consistency、Self-Refinement、强化学习GRPO、蒸馏等推理增强技术。可看作本书的第二卷。 社区讨论GitHub Discussions —— 技术问题、想法交流Manning 论坛 —— 官方读者社区 pip 包核心模型代码已打包发布到 PyPI可直接安装使用pipinstallllms-from-scratchfromllms_from_scratchimportGPTModel,TransformerBlock,MultiHeadAttention九、总结如果你想真正理解 LLM 的底层原理——不只是注意力机制这四个字而是 QKV 矩阵的每一行乘法、每一层 LayerNorm 的均值和方差、每一个 token 如何在前向传播中流动——那这本书就是你最好的选择。它用33,000 行代码 66 个 Notebook 17 小时视频把你从听说过 Transformer带到我能从零写出 GPT 并训练它。而这一切只需要一台普通笔记本和一颗愿意深入的心。 资源链接汇总资源地址 GitHub 仓库github.com/rasbt/LLMs-from-scratch Manning 出版社mng.bz/orYv Amazon 购买amazon.com/dp/1633437167 配套视频课17hManning LiveVideo 续作推理模型github.com/rasbt/reasoning-from-scratch 免费自测题 PDFTest Yourself (Manning) PyPI 包pypi.org/project/llms-from-scratch 故障排查指南troubleshooting.md 社区讨论GitHub Discussions 作者 X (Twitter)rasbt如果这篇博客对你有帮助欢迎转发给同样在学习 LLM 的朋友