来源arXiv:2606.26669 · 2026年6月25日论文SKILL-DISCO: Distilling and Compiling Agent Traces into Reusable Procedural Skills核心标签Skill Discovery · Agent Traces · PFSM · Procedural Skills · Reuse 为什么你现在应该读这篇如果你在做 Agent 技能系统大概率遇到一个问题Agent 反复从零开始解决相似任务。用户第一次让 Agent “部署一个 FastAPI 服务到 staging”Agent 花了 20 步搞定。第二次类似任务Agent 又从零开始花 20 步——没有从第一次经验中学到任何可复用的东西。SKILL-DISCO 解决的正是这个问题从 Agent 的成功执行轨迹中自动蒸馏出可复用的程序化技能。不是手动写 SKILL.md而是让 Agent 自己发现哪些执行模式值得复用然后编译成可调用、可执行、可验证的技能模块。三件做 Agent 技能系统的人不能不知道的事① 技能 参数化控制流子图不是文本文档传统技能是SKILL.md 文本说明。SKILL-DISCO 的技能是参数化有限状态机PFSM子图——有状态、有控制流、有参数可以直接执行。这不是文档是可运行的程序。② 蒸馏编译两阶段从轨迹提取结构再编译成可执行技能蒸馏阶段从成功 trace 中提取可重用的 PFSM 子图编译阶段将子图编译为可调用、可执行、可验证的技能。两阶段分离让发现和使用解耦。③ 和 Skill-to-LoRA 形成互补闭环Skill-to-LoRA0625学习解决技能文本→参数内化SKILL-DISCO 解决执行轨迹→技能发现。两者结合 自动发现技能 参数化执行技能 Agent 自主进化的工程路径。如果你正在做(1) Agent 技能管理系统(2) 经验复用架构(3) Agent 自主进化机制下面的细节可以直接搬。论文元信息来源arXiv:2606.26669 · 2026年6月25日作者Zhongxin Guo, Danrui Qi, Hanwen Gu, Peng Cheng, Yongqiang Xiong测试基准ALFWorld文本交互式家庭任务 WebArena真实网站交互任务核心创新蒸馏-编译两阶段框架 PFSM 子图表示核心场景你的 Agent 每次都在重新发明轮子想象一下你的 Agent 在 WebArena 上执行在电商网站下单任务。第一次花了 15 步搜索商品 → 查看详情 → 加入购物车 → 填写地址 → 选择支付 → 确认下单。第二次类似任务又花了 15 步——因为 Agent 没有下单流程这个技能概念每次都要重新规划。SKILL-DISCO 的做法从第一次成功的 15 步轨迹中蒸馏出电商下单这个可复用的 PFSM 子图。下次遇到类似任务直接加载这个技能子图——不需要重新规划只需要填入新参数商品名、地址、支付方式。蒸馏-编译两阶段框架Agent 成功执行轨迹 │ ▼ ┌──────────────────────────────┐ │ 阶段一蒸馏 (Distillation) │ │ │ │ · 将轨迹视为转移图中的路径 │ │ · 提取可重用的 PFSM 子图 │ │ · 识别参数化控制流模式 │ │ │ │ 输入成功 trace │ │ 输出PFSM 子图 │ └──────────┬───────────────────┘ │ ▼ ┌──────────────────────────────┐ │ 阶段二编译 (Compilation) │ │ │ │ · 将 PFSM 子图编译为技能模块 │ │ · 三大特性 │ │ ✅ 可调用 (callable) │ │ ✅ 可执行 (executable) │ │ ✅ 可验证 (verifiable) │ │ │ │ 输入PFSM 子图 │ │ 输出可复用技能 │ └──────────────────────────────┘编译后技能的三大特性特性说明价值可调用作为模块被 Agent 调用不需要每次重新规划可执行能直接执行具体操作不只是文档是可运行的程序可验证支持对执行结果验证确保技能执行正确与传统技能管理的对比维度传统 SKILL.mdSKILL-DISCO技能来源人工编写从执行轨迹自动蒸馏技能格式文本文档参数化有限状态机子图可执行性❌ 需 LLM 理解后执行✅ 直接可执行可验证性❌ 无✅ 支持结果验证参数化❌ 固定文本✅ 支持参数注入发现方式人工设计自动发现实验结果指标效果成功率 显著提升Agent 执行轮次 明显减少跨基准泛化✅ ALFWorld WebArena 均有效跨模型规模✅ 不同模型规模均受益技术细节技能发现→内化闭环SKILL-DISCO 和 Skill-to-LoRA0625学习形成完整闭环Agent 执行任务 │ ▼ ┌─────────────────────────────┐ │ SKILL-DISCO发现 │ │ 执行轨迹 → 蒸馏 → PFSM子图 │ │ → 编译 → 可复用技能 │ └──────────┬──────────────────┘ │ ▼ ┌─────────────────────────────┐ │ Skill-to-LoRA内化 │ │ 技能文本/子图 → LoRA适配器 │ │ → 参数化行为激活 │ └──────────┬──────────────────┘ │ ▼ 下次执行加载LoRA 不需要文本注入 不需要重新规划这个闭环意味着Agent 可以自主发现新技能、内化为参数、下次自动使用——不需要人工编写 SKILL.md不需要每次注入技能文本。这是 Agent 自主进化的工程路径。So What三类人的行动清单 工程师记录 Agent 成功执行轨迹—— 从轨迹中分析重复出现的控制流模式这些是技能蒸馏的原料用 PFSM 子图表示技能—— 不用纯文本用参数化状态机。支持参数注入和结果验证明天就能做统计你的 Agent 最频繁重复的任务类型从最近 10 次成功执行中手动提取公共步骤——这就是蒸馏的简化版 技术管理者自动技能发现是 Agent 进化的关键能力—— 从人工设计技能到Agent 自动发现技能是自主性的质变技能可验证性是质量保障—— SKILL-DISCO 的技能支持结果验证比纯文本技能更可靠明天就能做评估你的 Agent 系统中重复任务的占比——如果超过 30%技能蒸馏的 ROI 很高 创业者/PM技能自动发现内化是 Agent 平台的核心竞争力—— 让 Agent 越用越聪明而不是每次从零开始技能市场可能从人工编写转向Agent 生成—— Agent 蒸馏的技能可以分享/交易明天就能做在产品路线图中加一个技能自动化里程碑——从手动→半自动→全自动技能发现⚠️ 方法论局限蒸馏算法细节不足摘要仅概述高层思路子图识别、参数化方法、对齐策略的具体实现需要查阅全文代码开源未确认arXiv 页面未直接展示代码仓库链接FSM 场景限制在 FSM 定义的场景中处理非结构化场景的适用性未知技能质量控制自动蒸馏的技能质量如何保证错误轨迹是否会蒸馏出错误技能未讨论延伸阅读 论文https://arxiv.org/abs/2606.26669 互补阅读论文⑤ Skill-to-LoRA (arXiv:2606.16769) —— SKILL-DISCO 发现技能S2L 内化技能形成闭环 互补阅读论文③ JERP (arXiv:2606.27136) —— JERP 从经验中学习规则SKILL-DISCO 从轨迹中蒸馏技能方向一致 实践参考OpenClaw 的 Skills 体系可参照 SKILL-DISCO 评估自动技能发现的升级路径⏱️如果只有 5 分钟看蒸馏-编译两阶段框架图 与传统 SKILL.md 对比表就够了。核心 takeaway 是技能可以从执行轨迹中自动蒸馏不需要人工编写。路易乔布斯 © 2026 · AI论文观察 · Skill DiscoveryarXiv:2606.26669 · 2026.06.28基于公开论文研读