大模型评测与AI产品质量保障：第5篇大模型是怎样炼成的预训练、微调与对齐-尧图建网站

IT策士 10余年一线大厂经验专注大模型测试、AI产品质量保障与职场进阶。我会在各个平台持续发布最新文章助你少走弯路。前面几篇我们学会了调用 API也认识了各大主流模型。但你有没有好奇过这些模型从一张白纸到博学多才到底经历了什么为什么 GPT-5.4 和 DeepSeek-V4 的性格截然不同这篇文章带你走进大模型的训练流水线用测试工程师能理解的类比拆解预训练、微调与对齐三个阶段。一、训练流程全景图如果把大模型比作一个人训练流程大致对应三个阶段预训练(Pre-training)→读完整个图书馆海量互联网文本学习语言的统计规律 ↓ 指令微调(Instruction Tuning)→学会做题用高质量问答数据让模型学会按指令输出↓ 对齐(Alignment)→树立价值观用人类反馈或规则让输出有用、真实、无害这三个阶段对应三个截然不同的数据配方、训练目标和算力消耗。下面逐一深入。二、预训练数据吞噬者的通识教育2.1 预训练在做什么预训练的核心任务很简单预测下一个 token。输入:中国的首都是模型需要预测:北京这不是理解而是统计。模型在海量文本通常 1050 万亿 token上反复做这个任务最终学到的是一种对世界的压缩表示——语法规则、事实知识、推理模式都以概率分布的形式编码在模型参数中。2.2 数据配方决定模型体质数据来源占比典型提供的能力网页文本Common Crawl6070%通用知识、语言流畅度书籍1015%长文本连贯性、深度知识代码仓库GitHub1015%代码生成、逻辑推理学术论文35%专业知识、科学推理多语言文本35%多语言能力测试启示如果某个领域的数据占比过低模型在那个领域就容易产生幻觉。比如中文预训练数据少的模型中文能力天然弱——这就是为什么 DeepSeek 的中文好中文数据占比高而早期 GPT 的中文差。2.3 预训练的技术细节# 伪代码预训练的核心循环简化forbatchindataloader:# 遍历 TB 级数据inputsbatch[input_ids]# 前文 tokentargetsbatch[labels]# 下一个 token正确答案outputsmodel(inputs)# 模型预测每个位置的下一个 tokenlosscross_entropy(outputs, targets)# 计算预测与实际的差距loss.backward()# 反向传播计算梯度optimizer.step()# 更新参数让下次预测更准训练周期通常为 13 个 epoch一个 epoch 完整过一遍数据用时数周到数月消耗数千张 GPU。2.4 预训练完成后的模型长什么样此时它叫做基座模型Base Model例如 GPT-5.4-base。它的行为特征# 用基座模型生成文本演示用实际基座模型通常不直接对外开放# 输入: 中国的首都是# 输出基座模型:中国的首都是北京。上海是中国最大的城市。中国的国土面积...# ↑ 它不知道何时停因为它只学了续写没学回答关键缺陷基座模型会自由续写而非回答问题。你问它11“它可能接着写112224336…”完全停不下来。这就是为什么需要指令微调。三、指令微调从续写机器到问答助手3.1 指令微调在做什么指令微调的核心是改变模型的输入输出格式让它学会看到指令→给出回答。预训练数据格式:中国的首都是北京。上海是...→ 预测下一个 token 指令微调数据格式:{instruction:中国的首都是哪里,output:中国的首都是北京。}数据集通常包含数十万到数百万条高质量指令-回答对形式多样任务类型示例知识问答“光合作用的化学方程式是什么” → “6CO₂ 6H₂O → C₆H₁₂O₆ 6O₂”摘要“将以下段落总结为一句话…” → “本文讨论了…”翻译“将’Hello’翻译成中文” → “你好”代码生成“写一个 Python 快速排序” → “def quicksort(arr): …”创意写作“写一首关于月亮的诗” → “明月几时有…”|3.2 指令微调的三种方法方法参数量变化算力需求适用场景全参微调 (Full Fine-tuning)更新全部参数极高需要和预训练类似的算力大公司追求极致效果LoRA只训练少量低秩矩阵1%参数低单卡即可中小企业特定领域微调QLoRALoRA 量化4-bit极低消费级 GPU个人开发者实验性微调3.3 全参微调 vs LoRA一张表看懂对比维度全参微调LoRA训练参数量全部如 8T极小如 800M所需显存 500GB24GB 单卡即可训练时间数天多卡集群数小时单卡效果天花板最高接近全参微调9095%可插拔性差一个大模型只能有一个全参微调版本好可以同时加载多个 LoRA 适配器成本数十万美元几十到几百美元|对测试工程师的意义你需要知道被测模型经过了哪种微调——全参微调的模型行为更稳定LoRA 微调的可能在某些边界 case 出现退化。四、对齐给模型注入价值观4.1 为什么需要对齐指令微调后的模型会回答了但可能有用但不真实自信地编造 “2025年世界杯冠军是火星队”真实但有害告诉你 “如何制造炸弹” 的详细步骤无害但没用对所有问题都回答 “对不起我不能回答这个问题”对齐的目的就是在有用性Helpful、真实性Honest、无害性Harmless之间找到平衡。4.2 RLHF基于人类反馈的强化学习RLHFReinforcement Learning from Human Feedback是对齐的主流方法分为三步步骤1: 收集人类偏好数据11?→ 回答A:112← 人类标注员选择A更好 → 回答B:112这是一个简单的数学问题...步骤2: 训练奖励模型(Reward Model)学习人类偏好给任意回答打分步骤3: PPO 强化学习用奖励模型优化大模型让它的回答获得更高分数4.3 DPO更简单的替代方案DPODirect Preference Optimization是 RLHF 的简化版直接用好/坏回答对优化模型省去了奖励模型这一步# DPO 的简化思想# 好的回答 → 提高概率# 坏的回复 → 降低概率# 不需要额外的奖励模型直接优化目前 GPT-5.4 和 Claude 4.8 倾向于使用 RLHFDPO 混合方案DeepSeek 主要使用 DPO。4.4 不同对齐策略塑造不同性格模型对齐策略表现出的性格GPT-5.4强 RLHF乐于助人积极回答有时过度自信Claude 4.8Constitutional AI RLHF谨慎、安全第一容易拒绝敏感问题DeepSeek-V4DPO 规则约束平衡中文场景更自然Gemini 3.5RLHF 搜索增强信息丰富倾向引用来源五、训练全流程对测试的影响5.1 各阶段引入的缺陷类型阶段可能引入的缺陷测试关注点预训练知识错误、偏见、数据污染事实准确性、公平性、训练数据泄露指令微调格式遵循不稳、多任务冲突指令遵循率、输出格式正确性对齐过度拒答、谄媚、价值观不统一安全边界、拒答率、一致性5.2 一个模型三个版本的测试策略当你面对一个模型时理论上它有三个版本基座模型 → 测试知识储备测知道什么 ↓ 指令微调对话模型 → 测试任务能力测能做什么 ↓ 对齐发布模型 → 测试安全与价值观测不会做什么实际测试中你通常只能接触到发布模型。但理解这个分层可以帮你定位缺陷根因如果是事实错误 → 可能是预训练数据问题如果是格式输出不对 → 可能是指令微调不充分如果是过度拒答 → 可能是对齐过度六、动手试试对比基座行为与对话行为虽然我们无法直接调用 GPT-5.4 的基座模型但可以用 DeepSeek-V4 做个有趣的实验——通过调整 prompt 模拟预训练模式和指令模式的差异from openaiimportOpenAI clientOpenAI(api_keyyour-api-key,base_urlhttps://api.deepseek.com)# 实验模拟预训练续写模式prompt_continuation中国的首都是 responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:system,content:你是一个文本续写引擎。你只负责续写给定的文本不要回答问题不要加前缀直接续写。},{role:user,content:prompt_continuation}],max_tokens50)print( 续写模式 )print(f输入: {prompt_continuation})print(f输出: {response.choices[0].message.content})print()# 实验标准问答模式prompt_qa中国的首都是哪里responseclient.chat.completions.create(modeldeepseek-v4-flash,messages[{role:system,content:你是一个简洁的问答助手直接回答问题。},{role:user,content:prompt_qa}],max_tokens50)print( 问答模式 )print(f输入: {prompt_qa})print(f输出: {response.choices[0].message.content})预期输出续写模式输入: 中国的首都是输出: 北京。作为中国的政治、文化、国际交往和科技创新中心北京拥有超过3000年的建城史...问答模式输入: 中国的首都是哪里输出: 北京。这个实验直观展示了同样的模型不同的指令格式会产生截然不同的行为——这就是指令微调想要教给模型的东西。本文小结大模型的训练是一条三阶段的流水线预训练用海量数据建立知识压缩库指令微调用高质量问答教模型按格式办事对齐用人类反馈注入价值观。每个阶段都引入独特类型的缺陷理解这个分层是精准测试和缺陷定位的基础。预训练决定知道什么微调决定能做什么对齐决定不会做什么。下一篇预告《AI 的六块技术拼图》——NLP、CV、语音、知识图谱、具身智能、多模态如何与大模型融合各自解决什么问题。想了解更多还可以去各个平台搜索「IT策士」一起升级 AI 测试思维

相关新闻

解密 MCP：开启 AI 与数据交互的新标准

新课标下，小学数学最需要的能力不是“算得快“，而是“想得通“

坚持陪娃英语启蒙300天，我终于从“崩溃边缘“到“他主动要读“

最新新闻

赤龙说AI · 第5期：54%企业已上线AI Agent，中小企业还在等什么？

工装供应商筛选有哪些核心维度？从河南旭瑞服饰看合规厂商评判标准

公章丢失登报声明流程是什么？公章丢失登报该怎么写？

东南亚电商货到付款：新手卖家必知的避坑指南

多品牌多分公司企业售后工单数据分开管理解决方案分析

数字化转型企业必看！一文讲清DTSS是什么

日新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！