前置知识:第05篇(CNN/RNN/Attention)/ 第02篇(归一化与激活函数)引言:全文最核心的一篇如果说整个专栏是一棵技术树,那这一篇就是树干。Transformer 架构是一切大模型的基石。GPT、LLaMA、Qwen、ChatGLM——名字五花八门,但核心都是一样的 Decoder-only 架构。如果你只能精读一篇,那就是这一篇。这一篇做什么:拆解从输入到输出的完整前向流程从零搭建一个 Mini-GPT2解释每个组件的设计选择和工程细节用参数公式验证你的模型到底"大"在哪里一、从 Encoder-Decoder 到 Decoder-only1.1 原始 Transformer2017 年的《Attention Is All You Need》提出了 Encoder-Decoder 架构:输入序列 → Encoder(双向注意力)→ 编码表示