AI大模型学习笔记:收藏这份多模态架构地图,小白也能看懂LLM如何“长出眼睛”!
本文深入浅出地解析了AI多模态技术从LLM、Transformer等基础概念入手详细阐述了视觉语言模型VLM、图像生成模型等核心组件以及它们如何协同工作实现看图、听音、懂图、画图等功能。文章特别强调了多模态AI的架构和能力定位帮助读者理解当前主流模型在视觉智能中的层级和局限性为深入学习AI多模态技术提供了清晰的路线图。多模态不是让 LLM 简单长出眼睛。更准确地说是把文字、图片、声音、视频变成模型能处理的 token 或 embedding再让 Transformer、扩散模型、Flow、VAE、视觉编码器、音频 codec 和视频生成器协同工作。看图、听音、懂图、画图、生成视频背后其实是几种不同的数据流。你现在打开一个 AI 工具可以连续做三件事上传一张图片问它这张图里有什么再追问这张 PPT 的版式哪里不好最后直接下指令按这个风格重新生成一张公众号封面图。在用户界面上这三件事都发生在同一个聊天框里。于是一个很自然的误解出现了是不是 LLM 已经学会看图、画图了这个说法不算完全错。但它太粗糙。如果我们想真正理解今天的 AI 多模态就不能只说“LLM 会看图了”。更准确的说法是文字、图像、声音、视频正在被压缩进同一种可计算的表示空间。LLM 有时是这个系统的大脑但 Transformer、视觉编码器、图像 tokenizer、扩散模型和 Flow 生成器才是让多模态真正运转起来的机器零件。这篇文章要做一件事把“多模态”“VLM”“MLLM”“图像生成模型”“原生多模态”“Diffusion Transformer”“MMDiT”这些容易混在一起的名字拆成一张清楚的架构地图。▲ AI 多模态架构地图封面图但只画一张架构图还不够。真正重要的问题是今天这些主流多模态模型到底站在视觉智能的哪一级会识别图片等于真正看懂世界吗会生成漂亮图片等于拥有视觉想象力吗能回答截图问题等于具备空间智能吗答案都不是简单的“是”或“不是”。这也是这篇文章相比前面几篇多模态文章的新价值它不只是解释某一个模块而是给今天的图像 AI 做一次能力定位。我们会把主流模型放进一条能力阶梯里物体识别 → 图文对齐 → 看图问答 → 图像生成 → 多轮编辑 → 空间智能 / 世界模型这样看你就会发现GPT-4V、Claude、Gemini、Qwen-VL、Stable Diffusion、FLUX、Qwen-Image、Janus-Pro 并不是“谁更强”这么简单。它们回答的是不同层级的问题。这也是为什么我们要谨慎使用“看见”“理解”“想象”这些词。OpenAI 和 Anthropic 的官方文档都承认今天的视觉语言模型虽然很强但在精确空间定位、计数、低质量小图、高风险医学判断等场景仍然会犯错。BLINK、MMVP 等评测论文也反复指出很多多模态大模型“能看见”但在一些人类一眼就能完成的底层视觉感知任务上仍然“不一定真的感知到了”。所以这篇文章不是给 AI 贴金。它要做的是另一件事把模型的能力、边界和未来方向放到同一张地图上。一、先把名字摆正今天 AI 圈最大的问题之一是名字比架构跑得快。很多产品都被叫成“大模型”。很多能看图的模型都被叫成“多模态大模型”。很多能画图的系统也被说成“LLM 画图”。但从架构上看这些名字不是一回事。LLM语言模型不等于所有智能模型LLM 的全称是 Large Language Model大语言模型。它最标准的形式是一串文字 token → 预测下一个文字 tokenGPT、Llama、Qwen、DeepSeek、Claude 这类模型最核心的训练任务都是围绕语言序列展开的。它们强大的地方是在海量文本里学到了世界知识、推理模式、表达方式和任务结构。但原始 LLM 并不会直接“看见像素”。你给它一张 1024x1024 的图片它不能天然理解每个像素是什么意思。必须先有人把图片翻译成它能处理的形式。Transformer架构不是语言模型专属Transformer 不是 LLM 的同义词。Transformer 是一种神经网络架构。它最重要的能力是处理一串 token 之间的关系token 1 和 token 2 有什么关系 token 5 应该注意 token 17 吗 当前位置要从哪些位置取信息文本可以变成 token。图片也可以被切成 patch然后变成视觉 token。视频可以变成一串“空间 patch 时间位置”的 token。音频可以变成频谱片段 token。所以真正泛化到多模态的不是“语言”本身而是把世界切成 token 序列再用 Attention 建模 token 之间关系的这套方法。LLM 是 Transformer 在语言上的巨大成功。多模态模型是这套方法向图像、视频、声音、动作的扩展。VLM / MLLM / LMM会看图的语言助手VLM 通常指 Vision-Language Model视觉语言模型。MLLM 或 LMM 通常指 Large Multimodal Model大型多模态模型。最常见的形式是图片 → 视觉编码器 → 视觉 embedding → 投影层 → LLM → 文字回答也就是说很多“会看图的 LLM”并不是语言模型自己长出了眼睛。而是前面接了一个视觉编码器。视觉编码器负责把图片变成一串向量。投影层负责把这串向量翻译到 LLM 能理解的 embedding 空间。LLM 负责把这些视觉信息和你的文字问题放在一起推理然后输出文字。LLaVA 就是这个路线的经典开源代表它把视觉编码器和 LLM 连接起来再通过视觉指令微调让模型能围绕图片进行对话。Qwen2.5-VL 是更强的一类视觉语言模型它不仅看普通图片还强调文档解析、图表理解、视频理解、目标定位和 GUI 操作。但注意VLM 通常擅长“看图并说话”不一定擅长“从零生成图片”。看图和画图是两条不同的数据流。▲ 多模态架构总图文字、图像、声音、视频进入同一个 token / embedding 空间二、语言不是世界的全部讲多模态最容易掉进一个陷阱把其他模态都翻译成文字然后以为问题解决了。这当然有用。语音可以转成文字。图片可以生成描述。视频可以写成摘要。一段音乐也可以被说成“舒缓、温暖、带一点忧伤”。但这样做会丢掉大量信息。就拿语音来说。同一句“我没事”可以有很多种说法平静地说我没事 哽咽地说我没事 生气地说我没事 疲惫地说我没事 讽刺地说我没事转写成文字以后它们都是同一句话。但在人类耳朵里它们几乎是五种不同的信息。语气、音色、停顿、抑扬顿挫、呼吸、笑声、哽咽、环境声这些都不是“文字内容”的附属品。它们本身就是信息。音乐更明显。一段旋律不一定需要先翻译成语义才会让人感到悲伤、庄严、辽阔或不安。自然声音也一样。雨声、海浪、风穿过树林、远处火车经过这些声音给人的感受常常不是一句话能替代的。如果把它们全部压缩成这是一段雨声。 这是一段海浪声。 这是一段舒缓的音乐。世界已经被压扁了。视频则更进一步。视频不是一堆图片的集合。它有时间。有运动。有因果。有镜头语言。有一个动作发生前后的连续变化。一张图片能告诉你“杯子在桌子边缘”。一段视频还能告诉你杯子正在滑动 手马上要碰到杯子 水可能会洒出来 镜头正在靠近 人物情绪正在变化这些信息如果只压缩成文字摘要也会损失很多。所以多模态真正重要的地方不是把所有东西都翻译成语言。而是让模型能直接处理更多种表示文字 token 音频 token 图像 patch 视频时空 token 动作 token这也是我们重新面对维特根斯坦那句话时会产生的新问题。维特根斯坦说我的语言的边界就是我的世界的边界。这句话很深。语言确实是人类最强大的压缩工具。没有语言我们很难把经验变成概念把概念变成知识把知识传给别人。但如果世界只剩语言世界也会被压缩得太狠。味道、旋律、光影、空间、触感、节奏、身体动作都有一部分不能被完整翻译成文字。这就是多模态 AI 的真正挑战不是把世界翻译成一句话而是让模型保留世界中那些语言装不下的部分。这也是为什么音频和视频模型值得关注。Meta 的 AudioCraft / MusicGen 说明音乐可以被建模成一种可生成的音频 token 序列而不只是“歌词”。Stable Audio Open 说明开源社区也在尝试把声音效果、鼓点、环境声和音乐片段变成可控生成对象。OpenAI 的 Sora、Google 的 Veo、Meta 的 Movie Gen则说明视频生成不只是“图片更大”而是要同时处理时间一致性、运动、镜头和世界状态。DeepMind 的 Genie / Genie 2 这类项目更进一步把视频和交互环境联系起来模型不仅要生成画面还要理解动作如何改变世界。这些方向在本文里不会展开。但它们给我们一个重要提醒图像只是多模态的第一扇门。声音、视频和行动才会把 AI 真正推向现实世界。三、图像识别把图片翻译成模型能读的语言先看“识别图片”。这件事的输入和输出很清楚输入图片 输出文字、标签、框、坐标、判断、操作建议传统计算机视觉模型会直接做分类、检测、分割。多模态时代更常见的方式是把图片变成一串视觉 token再交给语言模型。一个典型流程是图片 → 切成 patch → Vision Transformer / CLIP / SigLIP / Qwen-ViT 编码 → 得到视觉 embedding → projector / resampler 对齐到语言空间 → LLM 结合文字问题生成回答这里有一个关键转折模型不是直接“看见一只猫”。模型先看到的是很多视觉 patch 的向量。这些向量里压缩了边缘、纹理、形状、局部结构、物体关系、文字区域、版式信息。然后语言模型把这些视觉向量当成一种特殊的“上下文”。就像你给 LLM 塞进一段文本背景材料一样现在你给它塞进一段视觉背景材料。所以看图模型的第一性原理不是“眼睛”而是把图像压缩成一串可被语言模型消费的向量。这就是为什么 CLIP 很重要。CLIP 做的事不是画图而是把图片和文字放进同一个语义空间一张猫图 → 图像向量 a cat → 文字向量如果两个向量靠得近模型就知道这张图和这句话匹配。从那以后图像和文字之间有了一座桥。后来的很多 VLM、扩散模型和图像编辑系统都在不同程度上继承了这座桥的思想先让图像和语言可以在同一个空间里对齐再谈理解和生成。▲ 图片如何进入 LLM从整张图到 patch再到视觉 token 和文字回答四、图像生成不是把图片翻译成文字而是把意图翻译成像素图像生成的方向正好相反。识别图片是图片 → 文字生成图片是文字 → 图片但这个箭头不能简单倒过来。因为输出图片比输出文字复杂得多。一句话只有几十个 token。一张高清图可能有几百万个像素。模型不可能像写文章一样直接从左到右一个像素一个像素地“写”完整张图。经典 Stable Diffusion 的做法是把图像生成拆成几层文字 prompt → 文本编码器 → 条件向量 → 潜空间里的去噪模型 → VAE 解码器 → 像素图片这里的关键词是“潜空间”。上一篇讲扩散模型时我们说 AI 不是从空白画布开始画猫而是从噪声里一步步去噪。Stable Diffusion 更进一步它不直接在原始像素空间里去噪而是在一个压缩后的 latent space 里去噪。这有点像真实图片 → 压缩成视觉草稿 → 在草稿空间里生成 → 再解压回图片VAE 负责压缩和解压。U-Net 或 Diffusion Transformer 负责在潜空间里生成结构。文本编码器负责告诉生成器这团噪声应该朝哪个语义方向收缩这就是图像生成和图像识别的第一处本质差异识别模型要把图像压缩成语义生成模型要把语义展开成图像。压缩和展开是两个方向。它们共享一些组件但目标并不相同。▲ 看图和画图是两条相反链路理解是压缩生成是展开五、为什么新模型越来越“听话”早期 AI 画图最常见的问题是Prompt 写得很细出来的图却像抽盲盒。你说“三个人站在红色汽车旁边”它可能画成两个人、四个人、蓝色车、车在远处。你让它生成一张带中文标题的海报它常常生成一堆像文字但不是文字的符号。问题不只是“画得不够好”。更准确地说是文字约束没有足够深地进入图像生成过程。Stable Diffusion 1.x 的核心是 latent diffusion U-Net cross-attention。这已经很强。但文字和图像的互动方式仍然有限。后来的 SDXL、Stable Diffusion 3、FLUX.1、Qwen-Image 等模型一条明显趋势是把文本理解、更大的 Transformer、更强的图像 token 表示、更稳定的 Flow / Diffusion 训练方式接得越来越深。Stable Diffusion 3 的 MMDiT 是一个很好的例子。MMDiT 可以理解成“多模态 Diffusion Transformer”。它不只是把文字向量丢给图像 U-Net 当条件。它让文本 token 和图像 token 在 Transformer 的 Attention 中更深地交互。同时文本和图像不是完全混用一套权重而是保留各自适合的表示方式再在 Attention 层相遇。FLUX.1 则代表了另一个方向用更大的 Rectified Flow Transformer 做高质量文本到图像生成。Qwen-Image 的重点又不同。它把复杂文字渲染、中文英文混排、图像编辑一致性当成核心能力并在技术报告里强调了 Qwen2.5-VL 与 MMDiT、VAE 表示之间的对齐。这说明今天的“会画图”已经不只是美术风格问题。它正在变成一个更复杂的问题语言理解 世界知识 版式理解 空间关系 文字渲染 主体一致性 编辑前后保真 生成器稳定性所以新一代图像模型更“听话”不是因为 prompt 咒语更神秘。而是因为用户意图进入生成过程的通道更宽、更深、更稳定了。▲ Prompt 如何约束图像生成文字 token 通过 Attention 进入 latent 生成过程六、统一多模态看图和画图能不能变成一个模型现在来到最关键的问题。既然识别图片是图片 → 文字生成图片是文字 → 图片那能不能训练一个模型同时做这两件事答案是可以但并不简单。因为“理解图像”和“生成图像”需要的视觉表示并不一样。理解图片时模型关心的是语义这里有一只猫 猫坐在窗边 左上角有一行文字 这张表格第三列是金额生成图片时模型还要关心极细的视觉细节毛发纹理 光照方向 字体笔画 边缘是否连续 人物身份是否一致 局部纹理是否破碎一个视觉编码器如果太偏语义生成时可能丢细节。一个视觉编码器如果太偏像素理解时又可能不够抽象。DeepSeek 的 Janus 系列正是抓住了这个矛盾。Janus 的核心思想是理解和生成共用一个 Transformer 主干但视觉编码路径要解耦。也就是说图像理解路径图片 → 语义视觉编码 → 统一 Transformer → 文字 图像生成路径文字 → 统一 Transformer → 生成视觉编码 → 图像这条路线很适合用来解释“统一多模态”的难点。它告诉我们统一不是把所有东西硬塞进一个编码器。真正的统一是在高层语义和▲ 四类多模态模型积木CLIP、VLM、图像生成模型、统一多模态模型七、LLM 能泛化到多模态吗现在可以回答开头的问题了。LLM 能不能泛化到多模态答案分两层。如果你说的 LLM 是“只在文字上训练、只接收文字 token、只输出文字 token 的语言模型”那它不能直接泛化到多模态。它没有眼睛。它不知道像素。它需要视觉编码器、图像 tokenizer、投影层、多模态训练数据和新的对齐目标。但如果你说的 LLM 是“一个巨大的自回归 Transformer里面压缩了语言、知识、推理、任务规划和指令跟随能力”那它确实可以成为多模态系统的核心大脑。图片可以变成视觉 token。视频可以变成时空 token。声音可以变成音频 token。动作可以变成控制 token。只要这些 token 能进入同一个上下文Transformer 就可以学习它们之间的关系。所以最准确的说法是不是 LLM 天然泛化到多模态而是 Transformer token 化 表示对齐 多模态训练让语言模型的能力可以迁移到更多模态上。这也是为什么“Transformer”这个词比“LLM”更适合描述底层趋势。LLM 是语言时代的名字。多模态基础模型是下一阶段更准确的名字。八、从 ImageNet 到空间智能今天的模型站在哪里如果要理解今天图像 AI 的位置李飞飞是一条绕不开的线索。她参与推动的 ImageNet曾经把计算机视觉带进一个新阶段。那时最核心的问题是给一张图片模型能不能认出里面是什么2012 年 AlexNet 在 ImageNet 上取得突破后深度学习真正席卷视觉领域。从那以后计算机视觉的主线很长一段时间都是分类 → 检测 → 分割 → 图文对齐 → 看图问答但这里有一个容易被忽略的事实识别物体不等于理解世界。一张图里有“杯子”这只是第一层。杯子在桌子的左边还是右边杯子会不会掉下去人伸手过去能不能拿到如果把杯子移动到画面另一侧阴影和遮挡应该怎么变这些问题已经不只是“图像识别”。它们进入了更高一层空间智能。李飞飞近几年反复强调的正是这个方向AI 不应该只处理文字也不应该只给图片打标签而要能够理解、生成并推理三维世界中的对象、关系、动作和变化。这给我们一个很重要的判断标准图像 AI 的终点不是把图片描述成一句话而是建立一个可以被推理、生成和行动使用的世界表示。用这把尺子看今天的主流模型会更清楚。GPT-4V、Claude、Gemini、Qwen2.5-VL 这类模型已经能把图片接进语言推理系统。它们擅长描述图片 理解截图 读图表和文档 回答视觉问题 把图片内容转成文字推理但它们仍然不等于完整的视觉智能。OpenAI 的 GPT-4V system card 明确提醒过模型可能出现视觉幻觉也可能在细节、空间关系、医学图像等高风险场景犯错。Anthropic 的 Claude 视觉文档也把空间推理、计数、低质量小图、医学诊断等列为限制场景。学术界的 BLINK、MMVP 等评测则把问题拆得更细两个图形是否真的相交 物体左右关系是否判断正确 图片里的细微视觉模式是否被识别 模型是不是只靠语言先验在猜这些题有时对人类很简单但对多模态大模型并不稳定。这不是说它们“没用”。恰恰相反这说明它们已经强到需要更精细的评估。但我们不能把“能接收图片输入”误读成“已经拥有人的视觉系统”。今天主流模型大致站在这里物体识别已经很成熟 图文对齐已经非常强 看图问答进入可用阶段但仍有错觉和边界 图像生成质量很高控制性快速提升 图像编辑正在从玩具走向生产工具 空间智能刚刚开始所以这篇文章真正想给你的不是一堆模型名。而是一把尺子以后看到任何“多模态模型发布”先问它解决的是哪一层识别、对齐、问答、生成、编辑还是空间智能这比单纯问“它是不是大模型”有用得多。九、几个适合深挖的模型和项目如果这篇文章要讲得通俗、深刻、准确不能只围绕闭源模型也不能只围绕图片。闭源模型可以作为体验入口但技术拆解最好依赖开源项目、公开论文和官方技术材料。下面这些模型和项目适合作为后续深层拆解对象。1. Stable Diffusion / SDXL经典扩散模型的主干适合解释为什么要在 latent space 里生成VAE 如何压缩和解压图像U-Net 如何一步步去噪cross-attention 如何把 prompt 接进图像生成为什么图像生成不是“从左到右画出来”。这条线适合承接经典扩散模型的直觉基础。它是读者已经理解过的直觉基础。2. Stable Diffusion 3 / MMDiT图像生成里的多模态 Transformer适合解释为什么图像生成模型也开始大量使用 Transformer为什么文本 token 和图像 token 需要更深交互MMDiT 里的“多模态”到底是什么意思为什么文字渲染和 prompt adherence 会变好。这条线可以把上一篇的 DDPM / LDM 推进到现代图像模型。3. FLUX.1开源权重里的高质量 Flow Transformer适合解释Rectified Flow 和经典扩散的区别为什么更直的生成路径可能减少采样步骤为什么大规模 Transformer 能提升图像质量和指令跟随open weights 对研究和工作流生态的意义。这条线适合连接“开源社区现在在用什么”。4. Qwen-Image中文文字渲染和图像编辑的好案例适合解释为什么以前 AI 画图里的文字经常是乱码为什么中文比英文文字渲染更难为什么图像编辑需要同时保留语义和像素细节Qwen2.5-VL、VAE、MMDiT 之间如何形成双重表示。这条线尤其适合公众号。因为中文文字渲染是读者一眼能感受到的进步。5. LLaVA / Qwen2.5-VL看图模型的透明样板适合解释视觉编码器如何接到 LLMprojector / adapter 到底在翻译什么为什么 VLM 能读图表、看截图、做 OCR为什么“看图回答”和“生成图片”不是同一种能力。这条线适合澄清“AI 识别图片”和“AI 生成图片”的关系。6. Janus-Pro统一理解与生成的关键样板适合解释为什么看图和画图不能只用一个视觉编码器硬扛为什么统一多模态需要任务路径解耦自回归模型如何同时服务图像理解和图像生成“原生多模态”不是产品宣传词而是一个架构方向。这条线适合作为文章的高潮。它能把读者从“AI 会看图、会画图”带到AI 正在把不同模态都变成同一个世界模型的入口和出口。7. AudioCraft / Stable Audio Open声音不是文字的附属品适合解释为什么语音转文字会丢失语气、音色和情绪为什么音乐生成不能只靠歌词或文字描述音频 token、codec、spectrogram 这些表示如何保留声音细节为什么自然声、环境声、音效也是世界信息的一部分。这条线适合把“多模态”从图像扩展到听觉。8. Sora / Veo / Movie Gen视频不是一堆图片适合解释为什么视频生成要处理时间一致性为什么运动、镜头、因果关系比单张图片更难为什么“画面好看”不等于“世界合理”为什么视频模型正在逼近世界模型问题。这条线适合把图像生成推进到时间、动作和场景演化。9. Genie / Genie 2从看见世界到操作世界适合解释为什么交互式视频环境比普通视频生成更接近世界模型动作 token 如何进入生成过程为什么“下一帧会发生什么”开始接近“如果我这样做会怎样”多模态如何从感知走向行动。这条线适合作为未来讲具身智能、机器人和世界模型的入口。最后如果说程序员已经是高薪职业那么干AI的程序员就是高薪中的高薪。现在的市场已经用数据给程序员指明了方向学AI大模型就是冲刺高薪的最优解看着身边越来越多的同行转型大模型、拿到高薪offer很多人心里都动了心但真正的难题来了零基础小白不知道从哪入门有基础的程序员找不到系统学习路径实战项目练手无门面试不知道考什么别慌今天就给大家整理了一份【2026年最新版】AI大模型免费学习资源包覆盖从入门到实战、从理论到面试、从基础到进阶的全流程所有资料均已整理归档无冗余、无套路免费分享给每一位想抓住AI风口的程序员和小白扫码免费领取全部内容1、大模型系统化学习路线2、大模型学习书籍文档3、AI大模型最新行业报告4、大模型项目实战配套源码5、大模型大厂面试真题四阶段精细化学习规划附时间节点可直接照做结合上述资源给大家整理了一份可直接落地的四阶段学习规划总时长约2个月小白可循序渐进程序员可根据自身基础调整节奏高效掌握大模型核心能力快速实现从“入门”到“能落地、能面试”的跨越。第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容6、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】https://mp.weixin.qq.com/s/2P64VRSHoOz31E2oAT_ZpQ