第018章：ComfyUI文生图Z-Image模型创建数字人模特（二）-尧图建网站

上一章我们已经把Z-Image模型文生图工作流所有需要的一些文件准备好了这一章我们将从零开始搭建一个Z-Image模型的文生图工作流。我的想法是这样的我准备通过去做一个完整“数字人项目”来和大家一起去学习ComfyUI的使用这样我们每一步的学习都会有相应的成果反馈大家也更容易有成就感具体的计划如下第一步数字人模特创建通过文生图的方式去生成独属于我们自己的数字人模特。第二步模特换装、换场景通过图生图、图片编辑的方式去让数字人展示不同的风格。第三步给数字人配音通过文声音音频的方式给数字人设计音色、让他唱歌、读文案。第四步数字人视频通过图生视频的方式生成数字人唱歌卖货的视频。通过这样一个完整的流程的学习我想等大家全部学习完时候就能对AIGCComfyUI有一个比较深刻的掌握。好了现在我们开始第一步搭建一个Z-Image模型的文生图工作流来生成我们的“数字人模特”启动ComfyUI新建一个空白的工作流。我们把自己想象成一个正准备筹建一个图像工作室的创业业者我们需要组件我们得团队。1、既然是图像工作室那最重要得就是画师了对应到我们得工作流就是“图像生成大模型”。还记得上一章里我们存放Z-Image模型得文件夹叫什么名字吗对喽“Unet”翻译过来就是神经网络得意思在AIGC里面就饿可以理解为“AI模型”。双击工作流得空白处在弹出得搜索框中搜索“unet” 选择UNet加载器。在第一个框里选择我们上一章放到Unet文件夹里的“z_image_turbo_bf16.safetensors”模型。第二个框里有“default/fp8_e4m3fn/fp8_e4m3fn_fast/fp8_e5m2” 四个选项他们得含义如下怎么选择呢大部分情况下我们都选择第2个“fp8_e4m3fn”相比于“default”他得出图质量只有轻微得降低但出图得速度大大提高。“fp8_e4m3fn_fast”这个带Fast得出图速度是最快的一般我们试提示词、草稿预览时可以用。最后这个“fp8_e5m2”大部分时间都用不到等后面如果有机会用到再给大家说这里可以先不用管他。2、请到画师以后画师提了个要求说我一个人干活效果可能不是那么好希望能给他配个助手对应到我们工作流里就是“lora”。同样书记工作流得空白处搜索“lora”,如下图这个添加以后我们先鼠标右键“绕过”相当于让这个节点失效不产生作用我们先不让助手帮忙先单独试试画师得水平。他两得连线如下模型连模型由于刚才我们把Lora绕过了所以他变成了红色就是不起作用了。3、画师请到位了现在要让画师干活就得给他下达任务。这时候我们就需要一个文本输入得东西在里面把任务写好再传递给画师。还记得我们上一章下载的文本编码文件放到那个文件夹里了吗对喽“CLip”。双击工作流空白处输入“clip”,如下图添加以后复制一下总共放两个为什么要两个呢一个给他说“要怎么怎么做输入正面提示词”一个给他说“不要怎么怎么做输入负面提示词”。但实际上对现在的新模型来说比如“Z-image负面提示词其实是不需要的,但你不给他工作流又会报错这属于一个历史遗留问题。所以我们还需要一个空白的CLip给他。在第一个框里正面提示词里我们需要把我们的要求输入进去Z_Image支持中文输入第二个框负面提示词由于不需要输入任何内容我们可以点击鼠标右键“折叠”把他折叠起来这样看起来更清爽一些。折叠后的效果如下图关于第二个clip文本编码框负面提示词还有一种操作方法就是不用clip文本编码框而是添加一个“条件零化”的组件这个组件的作用就是无论输入给他的任何内容他都会转换为空再输出。添加好以后把正面提示词的内容输入给他他会转换为空输出出去如下图这个“条件零化”大家知道什么意思就行有些人的工作流里会用这个代替空的“clip文本编码框”我们后面的课程中还是会选择用“clip文本编码框”。4、我把我们的要求写好了但是咱们这个画师是个AI人他听不懂我们人类的语言需要把我们的人话转换为AI语言计算机语言这个时候我就需要请一个翻译官clip加载器。还记得上一章我么下载的“text_encoders”文件,放在了clip文件夹里的是什么吗对喽是“qwen_3_8b_fp8mixed.safetensors”。把加载Clip这组件和“clip文本编码框”链接起来如下图5、那画师有了任务也下达了并且也翻译成AI画师能听懂得语言了先画师要开始作画是不是得准备画布了。双击空白处搜索“空latent”如下图宽度、高度就是画布得大小我最最终输出得图像大小个人建议图片大小控制在1K左右太大了生成得速度会明显变慢至于高清晰度图片我们后面可以用一个图片放大的组件来实现。批量大小就是一次生成几张图片得意思。6、我们想想我们这个AI图像工作室还差什么东西画师有了、画布有了、任务也翻译好了他在哪办公呢我们还没有办公室赶紧去租一个办公室K采样器一般情况下这个“K采样器”就足够我们使用了不需要什么高级的采样器。里面的参数的意思从上到下分别是1模型传入加载好的 UNet 大模型Z-Image 等是画面生成的核心权重必须接入。2正面条件链接正向提示词的Clip编码框条件CLIP 输出告诉 AI 你想要画什么。3负面条件链接负向提示词的Clip编码框条件CLIP 输出告诉 AI 避开哪些瑕疵。4Latent 图像潜空间图像AI模型绘画的画布。最下面的“降噪”参数和这个是相互配合的接「空 Latent」降噪固定 1.0图生图 / 图像编辑接原图 VAE 编码后的 Latent降噪值低于 1。关于“降噪”我们可以这么理解AI绘画就是处理噪点的过程。降噪固定 1.0就是在画布上铺满噪点AI需要去处理整个画布的所有位置。降噪固定 0.5,大概就是在画布上铺50%的噪点Ai只需要就去处理50%的地方剩下50%还是保持原样。所以图生图我我们固定1.0图生图/图像编辑都是低于1.0。5种子控制整张图的构图、光影、人物五官基础随机值可以简单理解为不同的种子对应不同的图片种子不一样图片肯定就不一样需要多次抽卡时就去把种子值改一下。6生成后控制randomize随机新种子默认每次图都不一样fixed锁定当前种子重复运行出完全相同图片increment每次执行种子 1批量生成相似变体图decrement每次执行种子 - 1这里有的randomize随机新种子有个问题就是每次图片生成完成以后你在这里看到的种子数值并不是当前图片的种子值说下一次将要生成的图片的种子值。也就是说如果你觉得这张图不错想记录一下整个种子数你是找不到的。这就是我为啥喜欢用fixed固定种子的原因当我需要换种子时我就手动去改一下。7步数steps采样迭代步数AI 细化画面的迭代次数。数值越低出图越快但细节模糊、结构崩坏数值越高细节越丰富但渲染耗时成倍增加至于整个步数steps应该填几不同的模型值不同一般模型的介绍里都有如果你仔细看过Z-Image模型的介绍就会知道如下图我们可以看到Z-Image-Turbo的步数steps是8一般建议6-12之间超过12除了让速度变慢没有任何意义。8CFG引导系数Classifier-Free Guidance控制正负提示词的遵守强度。数值越低AI 自由度越高越容易偏离提示词数值越高AI 自由度越低对提示词的服从度越高CFG的值现在一般默认1就可以。9采样器名称samplerAI 迭代计算画面的数学算法不同采样器画风、速度、细节完全不同10调度器scheduler配合采样器控制每一步降噪幅度的衰减曲线直接影响画质。关于采样器和调度器怎么选一般用默认的eulersimple就可以我自己测下来整个默认组合的性价比是最好的采样器改成seed_3,出图的质量会好一些但是出图的时间翻了一倍。Z-Image-Turbo模型K采样器参数设置如下下来让画师入住我们的办公室连线如下图7、各种准备工作已经准备完成画师坐在办公室里也把图像画出来了但我们整个画师是个AI画师他画出来的东西是数据矩阵我么们人类是看不懂的所以我们还需要一个翻译官把整个数据矩阵翻译成我们人类能够看懂的图片就是上一章里我们下载并部署到VAE文件夹的“ae.safetensors”文件。工作流空白处搜索“加载vae”选择“ae.safetensors”文件。工作流空白处搜索“vae解码”因我们是需要吧AI画的图翻译成我们人类可以识别的图片所以用的是“VAE解码”。“vae解码”需要和“vae加载器”链接起来如下图。我们可以看到vae解码还有两个链接节点“Latent”和“图像”其中“Latent”就是接收K采样器传输出来的“Latent图像矩阵”“图像”就是他调用vae加载器翻译以后输出的我们可以正常观看的图片因此我们还需要给“图像节点”链接一个“保持图像”的组件把生成的图片保存下来。工作流空白处搜索“图像保存”组件链接的线路如下8、到此我们一个最基础的Z-Image文生图工作流就搭建完成了点击右上角“运行”按钮我们看看效果。不出意外的除了意外了报错了如下什么原因呢原来我们上一章下载的CLip文件是“qwen_3_8b_fp8mixed.safetensors”这个文件呢和我们用的Clip文版编码框不适配。重新下载一下下载“qwen_3_4b.safetensors”这个文件就OK了选择下载下图红框标出来的文件。clip加载器重新选择再点工作流右上角的运行按钮效果如下至此我们一个最基础的Z-Image文生图工作流就搭建完成并运行成功了在这一章里我们留了几个问题不知道大家注意到了没1、Lora我们是忽略的没有启用。2、我文章中提到了让大家把空Latent的大小设置到1K左右后面可以加个放大节点去放大图片增加清晰度但工作流里并没有体现出来。3、细心的朋友应该发现了我的正向提示词里也就是图片的要求写的是比较详细的但我们用自己脑子想的话很难写出这么详细的提示词。这几个问题我们放到下一章去解决等下一章我们把Lora和放大节点加进去到时我会把完整的工作流在群里分享给大家。

相关新闻

Claude 多模态到底能做什么？从输入输出边界看懂 12 个高频场景

Python 零基础入门｜第 5 天 for 循环与 range、break/continue

第一周学习

最新新闻

C++命名空间应用技巧

如何通过开源智能运维平台彻底解决企业警报疲劳问题

Java多线程开发详解

基于PI外环-FCS-MPC内环的永磁同步电机双环调速系统仿真分析（Simulink仿真实现）

Java线程池使用指南

Java并发编程核心技术

日新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！