前言如今ChatGPT、文心一言、GPT-4、BERT等几乎所有主流大模型底层骨架全部来自2017年谷歌《Attention Is All You Need》提出的Transformer架构。在正式拆解Transformer完整结构前我们必须先搞懂它的前身——传统Seq2Seq序列模型明白旧架构的致命缺陷才能理解Transformer为什么能成为划时代的里程碑。一、Seq2Seq传统序列模型的瓶颈1. Seq2Seq核心结构Seq2Seq全称Sequence to Sequence序列到序列最早用于机器翻译整体分为两大模块Encoder编码器接收变长输入文本把整段序列压缩为固定长度上下文向量context vector将全部语义塞进一个向量Decoder解码器读取压缩后的上下文向量逐token生成变长输出文本。2. 传统Seq2Seq三大硬伤文档中明确指出原生RNN/LSTM搭建的Seq2Seq存在无法规避的缺陷固定长度编码丢失信息无论输入句子长短最终都压缩成同一个维度向量长文本大量细节被强制压缩长距离依赖捕捉能力弱RNN串行逐词计算长序列梯度容易消失句子首尾单词无法高效关联无重点区分能力所有文本信息权重均等模型无法自动识别句子关键词、核心语义。传统模型的核心痛点全局信息被一刀切压缩没有动态权重区分重要内容而Transformer的自注意力机制完美解决了这个问题。二、Transformer整体框架初识1. Transformer诞生背景2017年谷歌为解决机器翻译任务发布Transformer彻底抛弃循环神经网络RNN/LSTM全程依靠自注意力机制Self-Attention处理序列并行计算长依赖捕捉能力碾压传统Seq2Seq。整体依旧延续seq2seq编码器-解码器范式左侧Encoder负责理解输入文本BERT仅使用Encoder右侧Decoder负责逐字生成文本GPT仅使用Decoder论文标准配置Encoder、Decoder各堆叠6层重复Block。2. 输入预处理词嵌入位置编码Transformer无法直接识别文字所有输入必须先转换成向量词嵌入Token Embedding将单词/汉字映射为固定维度语义向量常见512/768维承载单词本身含义位置编码Positional EncodingTransformer没有循环结构天然丢失语序信息因此额外增加位置向量区分“我打他”和“他打我”向量相加融合词向量 位置编码向量 最终输入表征X送入后续Encoder。三、Encoder编码器全局语义理解模块1. Encoder整体逻辑输入矩阵X经过6层完全相同的Encoder Block每层输出维度和输入保持一致最终输出完整编码矩阵C包含输入句子全部token的全局交互语义。每一层Encoder Block包含两大核心子层均搭配残差连接Add Norm多头自注意力Multi-Head Self-Attention前馈神经网络Feed ForwardFFN2. Encoder核心自注意力Self-Attention1QKV向量怎么来输入向量X分别与三组可学习权重矩阵WQ、WK、WVW^Q、W^K、W^VWQ、WK、WV相乘得到三组向量Query(Q)查询向量代表当前token要“检索什么信息”Key(K)键向量代表序列中所有token的索引Value(V)值向量存储token真实语义内容。自注意力定义Q、K、V全部来自同一段输入序列实现句内所有单词互相计算关联度。2注意力完整计算三步相似度打分Q×KTQ \times K^TQ×KT计算当前token和全句每个token的关联分数缩放归一化除以dk\sqrt{d_k}dk​​防止数值过大再经过Softmax转为0~1权重所有权重之和为1加权求和使用权重对Value向量加权融合得到当前token融合全局上下文的输出向量Z。3多头注意力Multi-Head Attention单头注意力仅能从单一维度捕捉语义关系多头注意力将向量切分为多个子空间并行计算拆分多头768维向量分为12头每头64维每组独立生成QKV分头计算自注意力每个头专注不同语义维度主谓关系、时间、地点、情感等拼接所有头输出通过线性层WOW^OWO融合多视角特征。通俗类比8位专家分别从语法、语义、逻辑、情感多角度分析句子最后总编辑整合全部观点模型理解能力大幅提升。3. 残差连接 LayerNorm每层子层都采用输入 子层输出的残差结构避免深层网络梯度消失LayerNorm层对向量做归一化稳定训练分布大幅加速模型收敛。4. 前馈网络FFN多头注意力仅做信息交互FFN对每个token独立做两层非线性变换进一步挖掘深层语义特征是模型的“语义加工器”。四、上篇小结传统Seq2Seq依靠固定上下文向量存在信息丢失、长依赖薄弱的致命问题Transformer基于seq2seq架构用自注意力替代RNN实现并行计算与全局语义捕捉输入由词嵌入位置编码构成解决文字表征与语序两大基础问题Encoder由多层Block堆叠核心是多头自注意力实现句内所有token自由交互残差连接、层归一化、前馈网络共同保障深层模型稳定训练。下篇预告我们将拆解Decoder解码器、掩码注意力、跨注意力机制完整走通Transformer翻译推理流程同时区分BERT、GPT、Cross-Encoder的架构差异落地理解检索重排原理。