Agent（2）：工具使用揭秘。大模型如何指挥“有手无脑”的Agent完成复杂任务-尧图建网站

第一部分1. 一句话核心总结Agent本质上是一个“有手有脚但基本没有脑子”的执行者它必须把自己提供的所有工具信息告诉大模型大脑大模型根据用户需求决定调用哪些工具并下发指令Agent执行后将结果返回给大模型进行下一步推理形成完整的工具调用闭环。2. 核心概念定义Agent智能体一个有手有脚但基本没有脑子的执行者。它提供工具信息、Skill信息、工作目录信息、终端信息等相当于“手和脚”但一切行动都听从大模型“大脑”的指挥。大模型的作用Agent真正的大脑。它接收用户输入理解需求从Agent提供的工具列表中挑选合适的工具下发执行指令接收执行结果进行推理总结最终生成回答。工具信息的必要性Agent必须把所有工具信息如工具名称、功能描述在每一次通信中都告诉大模型。不告诉大模型大模型就不知道有哪些工具可用就像面试时不展示能力就不会被录用。3. 分类/类型/步骤工具被大模型使用的完整流程5步闭环步骤执行者动作说明1Agent发送用户需求所有工具信息每次通信都必须携带完整工具列表2大模型理解需求匹配工具根据用户输入如“读文件”找到对应工具如read_file3大模型下发工具调用指令给Agent告诉Agent用哪个工具、传什么参数4Agent执行工具返回结果Agent真正去读文件/写文件/调用API把结果返回大模型5大模型基于结果继续推理生成最终回答可能单次结束也可能需要多次工具调用单工具调用示例流程用户输入“读A.txt文件并总结” ↓ Agent携带read_file工具信息→ 大模型 ↓ 大模型识别到“读文件”→ 匹配到read_file工具 ↓ 大模型下发指令“用read_file工具读A.txt” ↓ Agent执行read_file → 返回文件内容给大模型 ↓ 大模型总结内容 → 返回总结给Agent → 展示给用户多工具调用示例流程读写组合用户输入“读A.txt总结并写入B.txt” ↓ Agent携带read_file和write_file工具→ 大模型 ↓ 大模型先匹配read_file → 下发读指令 → Agent返回内容 ↓ 大模型总结内容 → 匹配write_file → 下发写指令 ↓ Agent执行写入 → 返回完成信息 → 大模型告知用户完成4. 排序或对比关系Agent vs 传统程序传统程序硬编码执行逻辑Agent由大模型动态决策调用哪个工具更灵活。Agent vs 大模型直接调用大模型本身无工具执行能力Agent作为“手脚”弥补了执行缺失。简单Agent vs 智能Agent简单Agent一次性返回整个文件可能超上下文智能Agent会分段读取、考虑上下文窗口限制、做预处理。视频提到这取决于Agent的设计智能程度。5. 具体建议与注意事项建议理解Agent的本质有手有脚无脑大模型是大脑每次通信都必须把所有工具信息告诉大模型设计Agent时要考虑大模型可能遇到的限制如上下文窗口对于大文件Agent应分段读取而非一次性全部返回避免触发上下文限制或导致模型幻觉注意事项不把工具告诉大模型大模型不会用这些工具如果文件内容很长一次性全部返回可能导致上下文窗口限制或大模型幻觉是否分段读取、如何处理大数据完全取决于Agent的设计第二部分常见知识点与需了解的概念基础概念类Function Calling函数调用规范OpenAI使用tools参数传递工具列表每个工具包含type、function含name、description、parameters。大模型返回tool_calls字段包含要调用的工具名和参数JSON。工具参数的结构化定义JSON Schema工具参数需要用JSON Schema描述如参数类型、是否必填、枚举值等大模型才能正确生成参数。Tool Choice工具选择策略可以指定tool_choice: auto大模型自动决定、required必须调用工具、或指定具体工具名。并行工具调用Parallel Tool CallsOpenAI支持在一次响应中返回多个tool_callsAgent可以并行执行多个工具如同时读三个文件。风险类工具调用无限循环风险如果大模型反复调用同一个工具且每次都失败如读不存在的文件可能陷入无限循环。Agent需设置最大调用次数限制。工具执行超时风险Agent执行工具可能耗时过长如调用外部API大模型等待响应时可能超时。需设置超时机制和重试策略。参数注入攻击大模型生成的工具参数可能包含恶意内容如filename: ../../etc/passwdAgent需做参数校验和路径过滤。工具调用结果过大风险工具返回的结果如读大文件可能超出大模型上下文窗口Agent需实现分块返回或摘要压缩。实操类工具描述的编写技巧描述应清晰说明“何时使用”、“参数含义”、“返回值格式”。示例{name:get_weather,description:获取指定城市的天气信息。当用户询问某地天气时使用,parameters:{city:{type:string,description:城市名称如北京}}}工具调用结果的返回格式执行完成后需将结果包装成role: tool的消息包含tool_call_id和content返回给大模型继续对话。流式响应中的工具调用处理在流式模式下tool_calls可能分多次传输如先传index和id再传参数。Agent需缓存累积完整后再执行。工具调用的错误处理工具执行失败如文件不存在Agent应返回错误信息给大模型大模型可向用户说明或尝试其他方案如询问正确路径。对比类OpenAI Function Calling vs Anthropic Tool UseOpenAI使用tool_callsAnthropic Claude使用tool_use块返回tool_use_id和input参数。Agent需适配不同厂商格式。同步工具 vs 异步工具同步工具立即返回结果如读文件异步工具需轮询或回调如提交长时间任务。视频仅演示同步场景。本地工具 vs 远程工具Agent可调用本地系统工具文件、终端或远程API工具天气、数据库。常见误区误区1大模型直接执行工具。→ 大模型只生成调用指令真正执行的是Agent。误区2工具信息只需在第一次对话时发送。→ 每次请求都必须发送因为大模型无状态。误区3Agent可以自己决定用哪个工具。→ Agent只负责执行决策权在大模型。误区4工具返回值必须完全返回。→ 如果结果过大Agent应做截断、摘要或分页处理。误区5所有大模型支持的工具格式都一样。→ 不同厂商、不同模型格式差异很大Agent需做适配层。进阶知识点工具调用的链式组合Chain of Tools大模型可计划多步工具调用如先搜索再总结再翻译无需用户逐步指导。工具调用的验证与重试Agent可验证大模型生成的参数如文件路径是否存在若无效可要求大模型重新生成。带状态工具工具调用可能改变Agent内部状态如设置变量后续调用可依赖这些状态。需在历史消息中传递上下文。ReAct模式Reasoning Acting大模型在思考Reasoning和行动Acting之间交替MCP协议中的工具调用MCPModel Context Protocol标准化的工具调用格式支持跨Agent工具共享和动态发现。第三部分全面内容总结合并第一、二部分1. 主题概述Agent是一个“有手有脚但基本没有脑子”的执行者大模型是其“大脑”。Agent提供了各种工具读文件、写文件、调用API等但必须每次通信时把所有工具信息名称、描述、参数告诉大模型。大模型根据用户需求决定调用哪些工具下发指令给Agent执行Agent执行后返回结果大模型基于结果继续推理。整个过程形成一个闭环需求 → 工具匹配 → 执行 → 结果返回 → 进一步推理。多个工具可串联使用如先读后写Agent的设计智能程度决定了它如何处理大数据如分段读取避免上下文溢出。2. 分类与对比对比维度传统程序Agent 大模型决策能力硬编码逻辑大模型动态决策工具执行直接调用Agent执行大模型指挥灵活性低逻辑固定高自然语言理解工具信息传递不适用每次都要发送工具调用模式执行方式适用场景单工具调用一个需求对应一个工具读文件、查天气多工具顺序调用大模型规划步骤依次调用读→总结→写并行工具调用一次性返回多个工具指令同时读多个文件3. 风险与注意事项注意不把工具告诉大模型大模型不会用文件过大可能导致上下文窗口限制或大模型幻觉分段读取取决于Agent的设计智能程度补充风险工具调用无限循环需设置最大调用次数参数注入攻击需校验用户输入执行超时需设置超时重试机制结果过大超上下文需做摘要或分块4. 实操建议工具描述编写清晰说明功能、参数、返回值。为复杂工具提供使用示例。{name:read_file,description:读取文件内容。当用户要求读取、查看、分析文件时使用,parameters:{path:文件路径}}工具调用完整实现构造请求包含用户消息工具列表历史消息调用大模型解析tool_calls字段执行对应工具函数捕获结果或错误将结果以tool角色消息返回大模型大模型生成最终回答或继续调用工具大数据处理策略分段读取每次返回部分内容大模型可渐进式处理自动摘要先读取用大模型压缩摘要后再传回分页查询提供“加载更多”机制安全与校验校验工具参数如路径合法性、类型匹配限制工具调用次数如最多5次过滤敏感操作如删除文件需用户确认5. 常见误区辨析误区1大模型直接执行工具。→ 大模型只生成指令Agent才是执行者。误区2工具信息只发一次即可。→ 每次请求都要发大模型无状态。误区3Agent能自己决定用哪个工具。→ 决策权在大模型Agent只执行。误区4工具返回值必须全量返回。→ 超长结果应分段或压缩。误区5所有大模型工具格式一样。→ 不同厂商格式差异大需适配。通过本篇内容你将掌握理解Agent的本质有手有脚但没脑子的执行者大模型是其大脑掌握工具被大模型使用的完整流程5步闭环发送工具→匹配→下发指令→执行→返回结果区分单工具调用和多工具顺序调用的处理差异认识到每次通信都必须发送工具信息的原因大模型无状态识别工具调用中的常见风险上下文溢出、无限循环、参数注入及应对策略为实现自己的Agent如自定义工具、接入大模型打下核心原理基础

相关新闻

第33章：Index 与 Storage 源码剖析

BetterJoy完整指南：3步让Switch手柄在Windows上完美使用

模板驱动的文档操作系统：自动化排版与结构化内容生产

最新新闻

ImageGlass：解锁90+图像格式的终极免费浏览体验

汇编与接口实验：从软件到硬件的深度探索与实战指南

5分钟掌握Silk音频格式转换：轻松解决微信QQ语音播放难题

输电线路继电保护仿真实战：从模型构建到闭环测试全解析

协同过滤实战：隐式反馈处理与实时推荐服务化

Coding Agent 三大支柱：Context、Subagents 与 Harness 工程实践

日新闻

深度剖析GDSDecomp：Godot逆向工程的架构哲学与实战指南

反向海淘订单状态机设计：taocarts 状态流转与并发控制

MPC866 SMC串口控制器：UART、透明、GCI模式配置与调试实战

周新闻

月新闻