一文读懂 Transformer:大模型的核心架构,从 Attention 到 LLM
前言提起 ChatGPT、DeepSeek、Qwen、Llama 等大语言模型几乎都会提到一个词——TransformerTransformer 可以说是近几年人工智能领域最重要的模型架构之一。自 2017 年提出以来它不仅改变了自然语言处理NLP还推动了计算机视觉、多模态、语音等多个领域的发展那么Transformer 到底是什么为什么几乎所有的大模型都基于它本文将从零开始带你理解 Transformer 的核心思想一、什么是 TransformerTransformer 是一种基于Attention注意力机制的深度学习模型由 Ashish Vaswani 等人在 2017 年发表的经典论文《Attention Is All You Need》中提出在 Transformer 出现之前NLP 领域主要使用RNN循环神经网络LSTM长短期记忆网络GRU门控循环单元这些模型都有一个共同特点按顺序处理文本例如我 ↓ 喜欢 ↓ 学习 ↓ 人工智能模型必须一个词一个词地计算这种方式存在两个问题无法充分利用 GPU 并行计算长距离依赖学习困难Transformer 则完全不同它提出了一种新的思路让每个词都可以直接关注Attention其他所有词。二、为什么需要 Transformer举一个简单例子小明把书借给了小红因为他已经看完了。这里的 “他” 到底指谁人类很容易知道 “他”指的是小明因为小明已经看完书所以把书借给小红模型同样需要学习这种关系传统 RNN一个字一个字传递信息距离越远信息越容易丢失。Transformer他 ↓ 同时关注 ↓ 小明 ↓ 书 ↓ 借给 ↓ 小红因此能够更容易理解上下文。三、Transformer 的整体结构经典 Transformer 包含两部分Transformer ┌───────────────────┐ │ Encoder │ └───────────────────┘ │ ▼ ┌───────────────────┐ │ Decoder │ └───────────────────┘其中Encoder负责理解输入Decoder负责生成输出举个例子输入 I love AI. ↓ Encoder ↓ Decoder ↓ 输出 我喜欢人工智能。不过现在的大语言模型大多只保留了部分结构BERTEncoder OnlyGPT、Qwen、Llama、DeepSeekDecoder OnlyT5Encoder Decoder因此大家常说 GPT 是一种Decoder-only Transformer四、Transformer 的核心AttentionTransformer 最重要的创新就是Attention注意力机制一句话理解计算当前词应该关注哪些词以及关注多少我 喜欢 学习 Transformer计算到Transformer时它可能更加关注”学习“而不是”我“因为”学习Transformer“关系更强。Attention 会给每个词分配一个权重单词权重我0.05喜欢0.15学习0.60Transformer0.20模型主要利用权重较大的信息进行计算这就是 Attention 的核心思想位置编码Attention 有一个问题它不知道词语顺序。例如”我 爱 你“ 和 ”你 爱 我“Attention 本身无法区分因此Transformer 引入了Positional Encoding位置编码我 位置0 爱 位置1 你 位置2模型把词向量 位置向量一起作为输入这样Transformer 就知道谁在前谁在后Self-Attention自注意力Transformer 使用的是Self-Attention自注意力意思就是一句话中的每个词都可以关注同一句话中的所有词例如今天 天气 很好 我们 去 公园计算”公园“时它可以同时参考今天 天气 很好 我们 去而不是像 RNN 那样一步一步传递信息因此每个词都拥有完整的上下文信息Q、K、V 是什么学习 Transformer 时大家都会看到这三个字母他们分别表示Query查询Key键Value值先利用 Query 匹配 Key匹配成功之后再取出对应的 Value数学公式[Attention(Q,K,V)softmax\left(\frac{QK^T}{\sqrt{d_k}}\right)V]虽然公式看起来复杂但本质上可以分为三步计算 Query 与 Key 的相似度。使用 Softmax 得到注意力权重。用权重对 Value 做加权求和得到最终表示。Multi-Head Attention一个注意力头只能学习一种关系。例如苹果 公司 发布 新 产品一个头可能学习苹果 → 公司另一个头可能学习发布 → 产品因此Transformer 同时使用多个 Attention每个 Head 学习不同的信息最后把所有结果拼接起来这就是Multi-Head Attention多头注意力五、位置编码Positional Encoding总结输入句子│Embedding│位置编码│┌───────────────────────┐│ Multi-Head Attention ││ Feed Forward ││ 重复很多层 │└───────────────────────┘│得到上下文表示│输出预测Transformer并不是单独的 Attention也不是单独的 Q/K/V而是一个由 Embedding、位置编码、Attention、前馈网络、残差连接和归一化等模块组成的完整深度学习架构其中 Attention 是最核心、最有创新性的部分。五、Transformer 的优势Transformer 相比传统 RNN/LSTM具有以下优势对比项RNN/LSTMTransformer并行计算不支持支持长距离依赖较弱很强训练速度较慢更快GPU 利用率较低更高扩展到大模型困难容易正因为这些优势Transformer 成为了现代大模型的基础架构目前主流的大模型几乎都建立在 Transformer 架构之上模型架构GPT 系列Decoder-only TransformerQwen 系列Decoder-only TransformerDeepSeek 系列Decoder-only TransformerLlama 系列Decoder-only TransformerBERTEncoder-only TransformerT5Encoder-Decoder Transformer可以说没有 Transformer就没有今天的大语言模型