前置知识:第06篇(Transformer 架构)/ 第05篇(Attention 机制)引言:大模型不再只看文字ChatGPT 只能读文本,但人类通过视觉获取的信息远多于文字。多模态大模型就是让 LLM理解图像、音频、视频,而不仅仅是文本。开源的 GPT-4V 替代方案已经成熟——LLaVA、Qwen-VL、CogVLM 等模型在图文理解任务上的表现已经接近 GPT-4V 的 90%+。一、CLIP:图文对齐的奠基之作CLIP(2021)是 OpenAI 开源的里程碑之作。它的核心思想:对比学习图文对齐。1.1 训练时一个 batch 有 N 对(图像, 文本):图像编码器(ViT) → N 个图像向量 文本编码器(Transformer) → N 个文本向量 对比学习目标: ✅ 配对的 (图像i, 文本i) → 拉近 cosine similarity ❌ 非配对的 (图像i, 文本j) → 推远 cosine similarity loss = cross_entropy(图像矩阵 @ 文本矩阵^T, 对角矩阵) ↑ 图像 @ 文本^T 是一个 N×N 矩阵 ↑ 对角线上是配对样本,其余位置是负样本核心洞察: