一文看懂 Loop 工程:Agent 工程范式进化
AI 圈近来大火的 Loop 工程到底是什么2026 年 6 月海外 AI 编程圈被一个概念点燃。Boris ChernyClaude Code 创始人和Peter SteinbergerOpenClaw 创始人在同一周说出几乎相同的话“别再手动提示 AI 了应该设计让 AI 自己运行的 Loop。” 引起热议但大多数人说不清 Loop 到底是什么。**Loop 是一个你编写的程序。**这个程序替你向 AI Agent 发送指令读取 AI 的产出判断任务是否完成没完成就继续发送新的指令。你不再是循环内部那个敲键盘的人——你变成了循环的设计者。AI 模型变成了你循环里的一个子程序。用技术语言说Loop 定时调度器 一个做动态决策的 AI 模型。质疑者说这不就是定时任务换了个名字吗。一半对。调度层确实是 cron。Boris Cherny自己也承认他在 cron 上跑 Loop。Claude Code 的/loop命令底层也是 cron。但普通定时任务执行的是固定脚本——你写好 if-else它照着跑。Loop 中间多了一个关键的东西一个会观察当前状态、自己决定下一步做什么、做了之后自己检查效果、然后自己决定要不要继续的 AI 模型。每一步的决策不是你预先写死的逻辑分支是模型根据当前情况动态做出的。真正有趣的工程挑战不是循环本身而是你在这个 AI 决策者周围做了多少工程保障确保它不会跑偏。SUB · 1一个最小可运行的 Loop最简形态一个 AI Loop 就是一个while循环。Amit ShekharOutcome School 创始人给出了最干净的代码骨架整个 AI Agent 的核心大约 20 行代码。一个while循环、一个 LLM 调用、一个停止信号检查、一个工具调用分支——这就是 Loop 的全部骨架。所有后来加上的记忆系统、并行工具调用、重试机制、日志记录都是在这个核心循环上做的打磨。SUB · 2五个组成部分剥到最底层每一个 AI Loop 都有完全相同的五个组成部分组成角色关键说明AI 模型大脑只推荐该用哪个工具不直接执行指令系统提示词方向告诉模型任务、工具、规则工具手搜索、计算、读写文件、调用 API记忆笔记本短期对话历史 长期跨运行知识循环运行时引擎重复决策→执行→回传直到完成五个部分缺一个都不行。从 Claude Code 到 Codex 到 Copilot 到 Gemini CLI尽管界面不同、底层模型不同架构惊人地相似——因为它们本质上都在实现同一组原语。SECTION 01概念地图从提示词工程到 Loop 工程如果你只理解 Loop 本身你会用不好它。你必须理解 Loop 坐落在一个什么样的概念栈里。从 2022 年到 2026 年AI 工程领域出现了四个名词提示词工程、上下文工程、Harness 工程、Loop 工程。社交媒体上它们被当成谁取代了谁的故事来讲。但真相更微妙。SUB 1.1不是四个学科是同一张图的四个缩放层级The Deep Feed 在 47 次实验那篇文章里说了一句最清醒的话“它们不是四个学科。它们是同一张图的四个缩放层级。”提示词工程2022-2024。操作在消息级。控制的是你向模型发送的那条指令——措辞、结构、示例、角色设定。最小的控制单元。上下文工程2025。操作在会话级。控制的是模型在一个完整任务中看到的所有信息——检索到的文档、对话历史、工具调用的输出。Andrej Karpathy 给出了最被引用的定义“在恰当时刻用恰到好处的信息填充上下文窗口——这是一门精细的艺术和科学。”Harness 工程2026。操作在系统级。Martin Fowler 的表述最清晰“Agent Model Harness。” Harness 是 Agent 中除了模型之外的一切——引导文件、传感器、工具链管理、记忆系统、生命周期管理。Ryan LopopoloOpenAI Codex 团队成员说得更直白“Agent 不难Harness 才难。” Mitchell HashimotoHashiCorp 联合创始人给了 Harness 工程一个核心心法每次 Agent 犯了错不要指望它下次能自动变好。去改造环境让这种错误不可能以同样的方式再次发生。Loop 工程2026。操作在迭代级。Cobus Greyling 的区分最精准“Harness 武装的是单次 Agent 运行Loop 是在这之上持续调度 Agent、派生帮手、自我喂养。”SUB 1.2四层嵌套关系关键每一层包含前一层。它们不是互相替代的竞争关系而是嵌套关系。每个 Loop 系统内部都在做 Harness 工程。每个 Harness 内部都在做上下文工程。每个上下文架构内部都在做提示词工程。提示词工程没有死它被重新归类了——从主要杠杆变成了嵌套组件。SUB 1.3一个类比帮你记住Louis BouchardAI 分析师用了一组类比模型是发动机。没它你什么都做不了但它只是整车的一部分。上下文是燃油和仪表盘。你可以优化和控制的东西——加什么油、看什么表。更大的油箱不等于更好的车。Harness 是除了发动机和燃油之外的整车。转向、刹车、车道保持、保养计划、还有车门不该在高速上掉下来这个事实。如果你只关注发动机和燃油你仍然可以造出一辆烂车。Loop 是车队调度系统。一辆车只能跑一趟。调度系统决定什么时候发车、同时跑几辆、每辆车去哪、跑完回来报告什么、下一趟跑什么——持续运转每天自动启动不需要你按按钮。这个类比的精妙之处在于你可以在一辆车上做极限优化更好的发动机、更好的油、更好的刹车但如果你需要的是每天自动处理 50 个仓库的 CI 问题——你需要的不只是一辆好车。你需要一个调度系统。SUB 1.4Harness vs Loop这条边界最容易混淆很多人的困惑集中在 Harness 和 Loop 的区别上。Harness 是静态的。它武装单次运行——定义工具、约束、验证门槛、记忆架构。Agent 跑完一次Harness 的工作就结束了。Loop 是动态的、持续的。它在 Harness 之上加了四样东西调度——按时间表自动启动不需要人工触发状态持久化——上次跑到哪、什么通过了、什么还悬而未决下次自动接上多 Agent 协调——派生子 Agent、分配工作、汇总结果自我喂养——读取上一轮的产出决定下一轮做什么但有一个有趣的概念混乱值得注意。The Deep Feed 指出了一个矛盾在传播叙事中Loop 被说成在 Harness 之上更新、更先进。但Boris Cherny自己的阶梯叙述中Loop 是 2025 年的步骤2026 年在其上构建 Harness。两个不能同时是最前沿。当一个领域连自己的最新术语在旧术语上面还是下面都达不成共识时——这个词在做的是品牌工作不是技术工作。SUB 1.5Workflow vs Loop确定性 vs 非确定性Workflow 是一条固定流水线。第一步做什么、第二步做什么、第三步做什么——你提前画好流程图系统按图跑。Loop 是一个 AI 决策循环。每一步做什么不是你预先画好的是模型根据当前状态动态决定的。它可能在第 5 轮决定前 4 轮的方向是错的全部推翻重来。区别的本质Workflow 是确定性脚本Loop 是非确定性决策循环。SUB 1.6一张表说清四层维度提示词工程上下文工程Harness 工程Loop 工程操作层级消息级会话级系统级迭代级控制什么单条指令模型看到的信息Agent 完整运行环境Agent 持续调度和协调解决什么指令不清产出不一致模型基于错误信息推理Agent 在真实系统中不可靠Agent 不能持续运转和自我管理失败模式措辞糟糕信息过时/缺失运行环境不可控无限循环、成本失控包含关系—包含提示词工程包含上下文工程包含 Harness 工程核心洞察真正的问题不是我该学哪个而是我当前的失败模式在哪一层。如果你的提示词写不好优化 Harness 没用。如果你的上下文是错的再好的 Loop 也产出垃圾。LangChain 做过一个有力的实证只改 Harness不改模型、不改数据、不改提示词就把一个编程 Agent 在 Terminal Bench 2.0 上的排名从 30 名以外拉到了前 5。同样的模型、同样的数据、同样的提示词从 42% 的任务成功率跳到 78%——纯靠改进运行环境。SECTION 02Loop 不是新东西——但 2026 年真的变了Loop 至少有五年的技术积累。但 2026 年确实发生了一个质变。SUB 2.1五年演进脉络第一阶段学术上的 while 循环2022 年。ReAct 论文把推理→行动→观察→重复的循环形式化了。一个模型、一个循环、一个人盯着看。学术上说得通离工程实践还很远。第二阶段AutoGPT 和AI Agent 是玩具时代2023 年。AutoGPT 给 Loop 加了一个目标让模型自己给自己发指令。然后它就出名了——以无限空转不出活出名。这个失败留下了一个持久的副作用它给AI Agent 都是玩具这个论调提供了两年的弹药。第三阶段Ralph Loop 和极简主义的胜利2025 年 7 月。Geoffrey Huntley 发布了一个简单到几乎侮辱人的方案一个 Bash 单行命令把同一个提示词文件反复喂给 AI Agent。Ralph Loop 真正的创新不是复杂度而是纪律——每次迭代它把 AI 的上下文重置到一组固定的锚点文件不让对话越来越长。Huntley 用这个方案构建了一整个编程语言Token 成本约 297 美元。第四阶段产品化的目标命令2026 年春。Codex 和 Claude Code 几乎同时发布了/goal命令。本质上是把 Ralph Loop 包装成产品功能你给一个目标一个小型验证模型持续检查是否完成完成了就停。**第五阶段多 Agent 编排2026 年现在。**Boris Cherny和 Steinberger 真正在说的东西。四件事变了Loop 变成了工作单元Loop 开始监督其他 Loop调度替代了人工触发持久化成为显式需求。Steve Yegge 的 Gas Town 项目是代表20 到 30 个 Claude Code 实例由一个市长 Agent协调巡逻 Agent 持续运行状态存在 Git 里。SUB 2.2为什么 2026 年是质变点三个条件刚好同时成熟1. 模型终于好到可以无人值守运行。Lance MartinAnthropic前 LangChain 团队分享了一组硬数据在 Parameter Golf 挑战赛中Claude Fable 5 模型比 ClaudeOpus4.7 在循环任务上的表现好了约 6 倍。关键差异Opus 4.7 做完第一个实验拿到一个小改进后几乎后续所有实验都沿同一个模板。Fable 5 则大胆下注更大的结构性变更并且在遇到挫折时展现出了韧性。2. 两家前沿实验室在同一周公开推动。Anthropic 和 OpenAI 几乎同时鼓励开发者写 Loop 而不是写提示词。3. 工具链成熟到一行命令就能启动。一年前搭 Loop 要写一堆 Bash 脚本永远维护。现在能力直接内嵌在产品里了。SECTION 03Loop 的核心构件Addy OsmaniGoogle 工程师做了一个精准的拆解一个成熟的 Loop 需要五个构件加一个记忆系统。SUB 3.1自动化调度——让 Loop 成为循环在 Codex 中你在 Automations 标签页创建一个任务选择项目、要运行的提示词、频率。在 Claude Code 中通过/loop命令定时重复运行通过 Hooks 在 Agent 生命周期的特定节点触发。还有一个更进阶的原语/goal命令。/loop按节奏重复运行。/goal持续运行直到你写的一个条件被满足为真——每完成一轮一个独立的小型模型检查你是否做完了所以写代码的 Agent 不是给自己打分的那个。SUB 3.2工作树Worktrees——安全并行你同时跑两个以上 Agent 的那一刻文件冲突就成了灾难。Git Worktree 是解决方案一个独立的、在自己分支上的工作目录共享同一个代码仓库的历史。一个 Agent 的改动物理上无法碰到另一个 Agent 的工作区。SUB 3.3技能Skills——项目知识持久化技能是你停止每次都从零向 AI 重新解释项目上下文的方式。两个工具用相同的格式一个包含 SKILL.md 的文件夹里面放指令和元数据加上可选的脚本、参考资料。没有技能的 Loop每个循环都从零重新推导你的整个项目。有技能的 Loop它会积累。SUB 3.4连接器MCP——扩展 Loop 的感知范围只能看到文件系统的 Loop 是一个很小的 Loop。连接器让 Agent 读取你的缺陷跟踪系统、查询数据库、访问预发布 API、在 Slack 里发消息。这就是Agent 说’这是修复方案’和Loop 自己打开 PR、关联工单、CI 变绿后在频道里通知之间的区别。SUB 3.5子代理Sub-agents——写的人和检查的人分开Loop 的所有结构中最有用的一个就是把写代码的 Agent 和检查代码的 Agent 分开。Lance Martin 的一手数据证实验证子代理的表现优于自我批评。因为评分是在独立的上下文窗口中完成的避免了自己评价自己的偏差。SUB 3.6记忆——Loop 的脊椎模型每次运行之间会忘记一切所以记忆必须在磁盘上不能在上下文里。Agent 会忘记代码仓库不会。有了记忆明天早上 Loop 能从今天停下的地方继续。SECTION 0447 次实验验证的四个核心发现The Deep Feed 跑了 47 次真实的 Agent Loop花了 1.77 美元。结论命名是营销底层的技术转型是真实的。四个声明中三个被数据证实一个被修正。SUB 4.1发现一验证函数才是产品同一个任务两种提示词。第一种说做到能用为止弱停止条件第二种说pytest 全部通过之前不要停精确停止条件。方式平均轮次平均成本平均耗时弱停止条件4.00.06 美元13.8 秒精确停止条件4.00.056 美元9.5 秒精确停止条件快 31%、便宜 7%。更重要的区别弱停止条件成功靠的是运气。任务简单的时候猜对了任务复杂的时候呢NOTE没有精确停止条件的 Loop就是一个恰好会写 Python 的老虎机。SUB 4.2发现二技能降低 21.6% 成本更关键的是消除了灾难性开销方式运行 1运行 2运行 3平均成本冷启动空目录6 轮/0.103 美元6 轮/0.099 美元8 轮/0.169 美元0.124 美元技能启动有技能文件6 轮/0.095 美元6 轮/0.100 美元6 轮/0.097 美元0.097 美元技能启动便宜 21.6%。但平均数掩盖了真正的发现看那个 8 轮/0.169 美元的冷启动运行——AI 从头推导数学搞错了然后花了额外的两轮去调试自己的算术错误。而每一次技能启动都精确地在 6 轮完成。可复用的单元是技能不是提示词。调用经过测试的技能的 Loop 在积累。每次从头推导一切的 Loop 在烧钱——偶尔会爆炸性地烧。SUB 4.3发现三模糊的目标不贵但危险给 AI 一个两文件的小仓库。模糊提示词改进这个代码库。精确提示词“在 utils.py 中让 slugify() 函数处理 unicode 和空字符串添加 3 个 pytest 测试。”成本几乎一样。但产出完全不同模糊版本两次运行都产出了零个测试。精确版本每次都产出 3 个通过的测试。NOTE永远不要用改进优化这种动词启动 Loop。模糊的动词产出的是无法验证的动作。SUB 4.4发现四成本取决于验证表面积复杂度任务轮次成本耗时1单个纯函数30.048 美元8.2 秒2函数测试50.065 美元14.7 秒3类测试边界情况60.094 美元25.0 秒4三文件模块命令行60.066 美元14.8 秒注意最后一行三文件命令行模块听起来最复杂但成本比单文件的类加详尽测试还低。成本不随文件数量上升而是随你需要 AI 验证的东西的数量上升。Loop 太贵归因错了。贵的不是 Loop 本身是你让 Loop 验证的表面积。成本是一个设计变量不是固定税。SUB 4.5四个可操作的杠杆先写验证门槛再写解决方案。这是所有杠杆中最锋利的一个。给 Loop 已解决问题的记忆。技能文件中的已测试代码片段降低 21.6% 成本。绝不用改进这类动词启动 Loop。模糊目标产出无法验证的动作。按验证表面积预算 Loop。成本随 AI 需要证明的事情数量上升。SECTION 05什么场景该用什么场景不该用SUB 5.1适合 Loop 的场景代码审查 Loop——目前最成功的生产级案例。每次推送到 GitHub 的代码由一个 Agent 检查返回 1 到 5 分。低于 4 分不发布。为什么有效因为反馈信号是明确的输出是二元的通过或不通过。即使是这个好 Loop 也有天花板一次推送超过 1000 行代码Agent 几乎永远拿不到满分。其他适合场景每日问题分类、PR 看护、依赖更新、变更日志起草。共同特征目标是明确的、可量化的、二元的。SUB 5.2不适合 Loop 的场景从零构建全新产品。你无法完整描述你想要的东西——总有一个边界情况、一个文档没覆盖的细节。把那个缺口交给 AI它用猜测填补。错误的猜测。昂贵的猜测。想象你雇了一个极其聪明的开发者把需求文档交给他他就消失了然后带着完成品回来。为了到那里他做了一堆关于外观、感觉和架构的假设。大多数假设偏离了你的愿景。需要创意和审美判断的任务。当好和不好之间的界限模糊时Loop 会自信地产出看起来合理但可能完全偏离你意图的东西。无法定义停止条件的任务。“改进这个项目”——注定失败。SUB 5.3判断原则一个有用的 Loop 必须同时具备三要素要素好的例子坏的例子明确的目标“找到失败测试修复根本原因重跑套件”“改进这个项目”验证步骤运行测试、比对输出、检查错误无检查停止条件“所有测试通过、没有新失败时停”“觉得行了就停”三个要素缺一个Loop 就不值得信任。SECTION 06如何深入用好SUB 6.1Boris Cherny的五条建议作为 Claude Code 的创始人Boris 给出了最权威的上手建议开启自动模式。让 AI 自动获得权限别让它反复问你。用动态工作流。让 AI 编排成百上千个 Agent。用/goal或/loop命令。给 AI 一个持续目标。在云端跑。关上笔记本它还在跑。确保它能自我验证。一个不能检查自己工作的 Loop不值得信任。SUB 6.2Lance Martin 的两个关键洞察验证子代理优于自我批评。模型在评价自己的输出时存在系统性偏差。用独立的子代理做评分——在不同的上下文窗口中完成——效果明显更好。记忆作为外层循环。跨会话的学习有一个递进路径失败→调查→验证→提炼→咨询。不同能力的模型停在不同的位置。Fable 5 验证覆盖率最高达 73%Opus4.7 只有约 17%。SUB 6.3分阶段推进策略建议的推进节奏第一周只做报告。Loop 只扫描和报告不做任何自动修复。你观察它发现了什么判断它的判断力。第二周辅助修复。让 Loop 在人工确认后做修复。第三周以后考虑无人值守。在你充分信任 Loop 的判断力之后才让它在特定范围内自主运行。SUB 6.4三个反直觉的问题Addy Osmani 指出了一个反直觉的现象Loop 越强三个问题不是减轻了而是加剧了。验证仍然是你的责任。无人值守的 Loop 也是无人值守地犯错的 Loop。完成是一个声明不是证明。理解力衰退。Loop 替你写得越多你离代码的实际状态就越远。“意图债”“理解债”“协调债”——三种债务随着 Loop 越强而增长越快。舒适姿态就是危险姿态。两个人可以用完全相同的 Loop得到完全相反的结果。一个人用它加速自己深度理解的工作。另一个人用它避免理解工作。Loop 不知道区别。你知道。SECTION 07需注意成本真相一个中等编码任务上的单个 Agent Loop5 万到 20 万 Token。一个有编排器和 3 个专家 Agent 的团队 Loop50 万到 200 万 Token。一个每天早上定时运行的 Loop每周数百万 Token。所以每一个认真在做 Loop 的团队最终都会收敛到三个硬性刹车最大迭代次数上限。不管什么情况超过 N 次就停。无进展检测。连续 M 轮没有实质推进就停。Token 或美元预算天花板。超预算就停。Loop 的浪漫版本是你写好 Loop一千个 Agent 帮你一夜之间建好公司。Loop 的生产版本是你写好 Loop然后大部分工作在确保它会停。但成本也不应该成为完全的阻碍——关键在于按验证表面积做预算而不是按代码库大小做预算。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】