如果做个比喻预训练是让模型读完整个百科全书获得海量知识后训练则是教它像一个聪明助手那样回答问题。一个负责装知识一个负责教规矩——两者截然不同却缺一不可。核心区别五个维度一次看懂维度预训练后训练核心目标知识获取——学习语法、逻辑和世界知识构建通才底座能力对齐——学会遵循指令、理解人类意图、拒答有害问题从学霸变好员工训练数据海量无标注数据TBPB 级涵盖网页、书籍、论文等原始文本质量参差不齐少量高精标注数据百万级以内包括人工问答对指令数据和偏好对比数据好/坏答案算力与成本计算量极大数千张 GPU 并行训练数月成本高达数千万美元相对轻量少量 GPU 训练数天至数周计算量约为预训练的 1%5%产出模型Base基座模型——只会续写文本问它问题可能答非所问把你好续写成诗歌且可能含有害、虚假信息Chat / Instruct 模型——能流畅对话、按格式输出安全护栏已建立技术手段相对单一主要是自监督学习Transformer 架构下的因果语言建模即 Next Token Prediction更多元常包含监督微调SFT、偏好对齐RLHF、DPO 等和知识蒸馏一句话概括两者的分工预训练解决模型聪不聪明知识量后训练解决模型有没有用执行力与安全性。一个常见误区后训练 ≠ 微调日常沟通中人们常把后训练和微调混为一谈。但严格来说微调只是后训练的子集。完整的后训练流程通常分三步走指令微调SFT——教模型看懂并执行指令比如帮我总结这段话用 JSON 格式输出。奖励建模RM——训练一个评分模型让它学会判断答案的好坏。强化学习对齐RLHF / DPO——利用奖励信号持续优化模型使其回答符合人类价值观。知识蒸馏——用强教师模型如 GPT-4、Qwen3-235B生成的推理数据或隐层表征来训练小型学生模型让小模型也能获得接近大模型的推理能力。典型案例DeepSeek-R1 蒸馏出 Llama/Qwen 小模型。前三步缺一不可少了任何一步模型都只是一个会背书但不会做事的书呆子。蒸馏则是在此基础上做能力压缩让小模型也能打。行业现状壁垒在哪里目前开源社区如 Llama 系列的主要贡献集中在预训练成果上——基座模型人人可下载。而 OpenAI、DeepSeek 等闭源厂商的真正竞争壁垒往往就藏在后训练阶段尤其是 RLHF 的技术细节里。这也就解释了一个现象同样的基座模型不同团队做出来的最终效果可以天差地别——差距不在脑子而在教育。