第十六章Transformers — 知识点笔记综合来源Lecture 16 PDF68页、课堂笔记CSDN占位图16.1 从MLP到CNN到AttentionMLP的局限每像素独立参数→P2P^2P2参数量→参数爆炸固定输入大小→稍大图像需全新模型CNN的贡献与局限优势局限权重共享→参数高效局部感受野→高层才有全局上下文平移不变性归纳偏置卷积核感受野逐层增长→需很深支持可变输入尺寸核心需求需要一种能高效建模所有token之间关系的架构 →Attention机制16.2 Attention机制 ⭐⭐⭐从平均池化到加权平均平均池化YnXn1N∑iVi\mathbf{Y}_n \mathbf{X}_n \frac{1}{N}\sum_i \mathbf{V}_iYn​Xn​N1​∑i​Vi​问题所有上下文同等重要→不相关token也是等权重Attention加权平均YnXn∑iαniVi,∑iαni1,αni≥0\mathbf{Y}_n \mathbf{X}_n \sum_i \alpha_{ni} \mathbf{V}_i, \quad \sum_i \alpha_{ni}1, \alpha_{ni}\geq 0Yn​Xn​i∑​αni​Vi​,i∑​αni​1,αni​≥0αni\alpha_{ni}αni​token i对token n的注意力权重16.3 QKV与自注意力 ⭐⭐⭐三个投影矩阵矩阵公式含义V(Value)VXW(V)\mathbf{V} \mathbf{X}W^{(V)}VXW(V)提取的内容/上下文K(Key)KXW(K)\mathbf{K} \mathbf{X}W^{(K)}KXW(K)被查询的键Q(Query)QXW(Q)\mathbf{Q} \mathbf{X}W^{(Q)}QXW(Q)发起查询的查询为什么分开K和Q相关性关系不对称bank关注river但river不一定关注bank分离KQ允许非对称查询Scaled Dot-Product Attention ⭐ZQKT内积矩阵N×N\mathbf{Z} \mathbf{Q}\mathbf{K}^T \quad \text{内积矩阵$N\times N$}ZQKT内积矩阵N×NαSoftMax(ZDk)\boldsymbol{\alpha} \text{SoftMax}\left(\frac{\mathbf{Z}}{\sqrt{D_k}}\right)αSoftMax(Dk​​Z​)Attention(K,Q,V)αV\text{Attention}(\mathbf{K},\mathbf{Q},\mathbf{V}) \boldsymbol{\alpha}\mathbf{V}Attention(K,Q,V)αVScaling因子Dk\sqrt{D_k}Dk​​防止内积方差过大→Softmax梯度消失自注意力特性Attention层无参数仅依赖K,Q,V等变性置换输入token→输出同样置换O(N2)O(N^2)O(N2)复杂度NNNtoken数16.4 多头注意力 ⭐⭐Multi-Head AttentionMHAHhAttention(Kh,Qh,Vh),AConcat[H1,…,HH]W(O)H_h \text{Attention}(\mathbf{K}_h, \mathbf{Q}_h, \mathbf{V}_h), \quad \mathbf{A} \text{Concat}[H_1,\ldots,H_H]W^{(O)}Hh​Attention(Kh​,Qh​,Vh​),AConcat[H1​,…,HH​]W(O)HHH个并行注意力头→不同头捕捉不同关系每头通常用更小的DvD/HD_v D/HDv​D/H变体类型K,VQ效率MHA每头独立每头独立最低GQA分组查询每头组共享每头独立中等MQA多查询全部共享每头独立最高大多数现代模型使用GQA效率与表达力的折中16.5 Transformer层 ⭐X → [Multi-Head Self-Attention → Residual → LayerNorm → MLP(2层) → Residual → LayerNorm] → Output为什么需要MLPAttention输出αV\boldsymbol{\alpha}\mathbf{V}αV输入的线性组合MLP引入非线性激活→增强表达能力每个token独立通过MLP→token级前馈关键设计残差连接→梯度直通Layer Norm每token独立归一化→支持并行参数共享同层token间共享跨层不共享支持可变token数attention无固定尺寸要求16.6 位置编码 ⭐⭐为什么需要Self-Attention是置换等变的→不感知token顺序文本/图像中位置信息至关重要两种方法方法原理优/缺点Learned每个位置学一个ri\mathbf{r}_iri​GPT-1表达力强需预设最大N相对距离难表达Sinusoidalsin⁡/cos⁡\sin/\cossin/cos波组合编码任意长度可查询相对位置旋转矩阵特性Sinusoidal编码rn,i{sin⁡(n/Li/D)i evencos⁡(n/L(i−1)/D)i oddr_{n,i} \begin{cases} \sin(n/L^{i/D}) i\text{ even} \\ \cos(n/L^{(i-1)/D}) i\text{ odd} \end{cases}rn,i​{sin(n/Li/D)cos(n/L(i−1)/D)​ieveniodd​类似位置的连续二进制编码存在旋转矩阵RΔ\mathbf{R}_\DeltaRΔ​rn−ΔRΔrn\mathbf{r}_{n-\Delta} \mathbf{R}_\Delta \mathbf{r}_nrn−Δ​RΔ​rn​内积随距离衰减→天然的相对位置感知位置编码的使用x~nxnrn加法非拼接\tilde{\mathbf{x}}_n \mathbf{x}_n \mathbf{r}_n \quad \text{加法非拼接}x~n​xn​rn​加法非拼接高维空间中xn\mathbf{x}_nxn​和rn\mathbf{r}_nrn​近似正交→不破坏原始语义16.7 Encoder Transformer架构标准视觉/语言嵌入任务输入→Token Embeddings Positional Encoding重复LLL层Transformer Block输出→Pooling/特殊[CLS]token→下游任务特殊Token技巧添加可学习的[CLS] token→经过所有层后→其输出整句/图的语义表示笔记中的图片索引序号图片内容描述来源位置图1MLP vs CNN vs Transformer对比Lecture 16 第7-24页图2QKV计算示意图Lecture 16 第39-40页图3内积矩阵Z和注意力权重αLecture 16 第43-45页图4MHA/MQA/GQA对比Lecture 16 第50页图5Transformer层结构Lecture 16 第51页图6Sinusoidal位置编码热力图Lecture 16 第64页笔记整理时间2026年6月30日