AI Agent 工程师面试题 200 题(codex出品)
AI Agent 工程师面试题 200 题版本2026-07-01定位面向 AI Agent / LLM 应用工程师 / RAG 工程师 / AI Coding Agent 方向的面试复习材料。说明本文基于公开论文、官方文档和通用工程实践重新整理。公开来源ReAct 论文https://arxiv.org/abs/2210.03629Reflexion 论文https://arxiv.org/abs/2303.11366RAG 论文https://arxiv.org/abs/2005.11401Anthropic《Building Effective Agents》https://www.anthropic.com/engineering/building-effective-agentsOpenAI API / Agents / Function Calling / Tools / Retrieval 文档https://developers.openai.com/api/docs/guides/agents、https://developers.openai.com/api/docs/guides/function-calling、https://developers.openai.com/api/docs/guides/tools、https://developers.openai.com/api/docs/guides/retrievalOpenAI Agents SDKhttps://openai.github.io/openai-agents-python/Model Context Protocol 文档与规范https://modelcontextprotocol.io/docs/getting-started/intro、https://modelcontextprotocol.io/specification/2025-06-18A2A Protocol 规范https://a2a-protocol.org/latest/specification/LangChain / LangGraph 文档https://docs.langchain.com/oss/python/langchain/overviewLlamaIndex RAG 文档https://developers.llamaindex.ai/python/framework/understanding/rag/Spring AI Referencehttps://docs.spring.io/spring-ai/reference/api/chatclient.htmlvLLM 文档https://docs.vllm.ai/en/latest/OpenTelemetry 文档https://opentelemetry.io/docs/concepts/observability-primer/OWASP GenAI / LLM Top 10https://genai.owasp.org/llm-top-10/、https://cheatsheetseries.owasp.org/cheatsheets/LLM_Prompt_Injection_Prevention_Cheat_Sheet.htmlSWE-benchhttps://www.swebench.com/Berkeley Function Calling Leaderboardhttps://gorilla.cs.berkeley.edu/blogs/8_berkeley_function_calling_leaderboard.htmlGAIA Benchmarkhttps://huggingface.co/spaces/gaia-benchmark/leaderboardAgentBench 论文https://arxiv.org/abs/2308.03688题目分布模块题量重点A. Agent 基础与架构20Agent Loop、工作流、自主性、状态、记忆、反思B. Prompt 与上下文工程15指令层级、结构化提示、长上下文、压缩、防注入C. 工具调用与结构化输出20JSON Schema、函数调用、幂等、权限、失败恢复D. RAG 与知识系统25切分、索引、混合检索、重排、评测、权限隔离E. 多 Agent 与协议生态20MCP、A2A、handoff、orchestrator-workers、Agent CardF. Agent 工程化与后端系统20SSE、WebSocket、异步任务、队列、状态持久化、K8sG. 推理服务与性能优化15vLLM、KV Cache、批处理、量化、延迟与吞吐H. 可观测性、评测与优化20traces、日志、指标、LLM-as-judge、A/B、BenchmarkI. 安全、合规与成本20OWASP、越权、数据泄露、成本控制、审计J. 框架与研发效能25OpenAI Agents SDK、Spring AI、LangChain、Coding AgentA. Agent 基础与架构1. 什么是 AI AgentAI Agent 是一个能围绕目标感知输入、选择行动、调用工具、观察结果并持续推进任务的系统。与单轮 LLM 调用相比Agent 的关键不是“会回答”而是具备可执行的循环、状态与边界。2. AI Agent 与普通聊天机器人有什么差别普通聊天机器人主要做文本生成Agent 还会规划、调用外部系统、处理工具结果并根据中间反馈调整下一步。生产级 Agent 通常还需要权限、审计、重试、观测和成本控制。3. Agent Loop 的最小闭环是什么典型闭环是接收目标 - 调用模型决策 - 执行动作或工具 - 回填观察结果 - 判断继续或结束。工程上要给循环加上最大步数、预算、超时和终止条件。4. ReAct 的核心思想是什么ReAct 将推理与行动交替组织让模型在任务中同时生成推理轨迹和面向环境的动作。它适合需要检索、工具调用和逐步纠错的任务。5. 为什么生产环境不能只依赖“模型自己想”模型输出存在不确定性且可能出现幻觉、误用工具、越权请求或循环失控。生产系统应通过状态机、权限边界、结构化输出、人工确认和观测体系约束模型行为。6. 工作流和自主 Agent 如何区分工作流由开发者预先定义路径可靠性高、可审计性强自主 Agent 由模型动态选择下一步灵活但不可预测。真实系统常采用混合设计关键路径固定开放环节交给 Agent。7. 什么场景适合工作流优先支付、退款、审批、合规检查、数据变更等强约束任务适合工作流优先。原因是这些任务要求确定性、可回放、可审计和明确失败处理。8. 什么场景适合 Agent 优先研究分析、问题诊断、代码修复、复杂信息收集、跨工具排障等开放任务适合 Agent。它们的路径通常依赖中间观察结果难以提前穷举。9. Agent 的核心组件有哪些常见组件包括模型、指令、状态、工具、记忆、规划器、执行器、守护机制、观测系统和评测系统。不要把 Agent 简化成一个 Prompt它是一个工程系统。10. 规划器在 Agent 中承担什么职责规划器将用户目标拆成可执行步骤决定顺序、依赖和可并行部分。高风险系统应把规划结果显式化便于审查和回滚。11. 执行器和工具层有什么区别工具层提供具体能力例如查库、搜索、发邮件执行器负责选择、校验、调度、重试和记录这些工具调用。执行器是模型和真实世界之间的安全缓冲区。12. Agent 状态应该包含哪些内容状态通常包含用户目标、当前步骤、已完成动作、工具结果、关键变量、错误信息、预算和权限上下文。状态应结构化存储而不是只依赖对话文本。13. 短期记忆和长期记忆有什么区别短期记忆是当前上下文窗口内的信息适合即时推理长期记忆存储在数据库、向量库或对象存储中适合跨会话复用。长期记忆必须配合权限、时效和删除策略。14. 为什么上下文窗口不等于记忆系统上下文窗口只是模型一次调用能看到的输入容量。记忆系统还涉及选择、压缩、检索、更新、遗忘、权限隔离和冲突处理。15. Reflection / Reflexion 类机制解决什么问题反思机制让 Agent 在失败或质量不足时分析原因再调整策略。Reflexion 的代表思路是不改模型权重而把语言化反馈写入 episodic memory用于后续尝试。16. 反思机制有什么风险如果没有外部校验模型可能只是“自我合理化”重复错误假设。反思应结合测试、规则、评测器、工具返回值或人工反馈。17. 什么是 human-in-the-loophuman-in-the-loop 是在关键决策点引入人工确认、审批或纠偏。常用于转账、删除、发外部邮件、生产变更、敏感数据访问等场景。18. Agent 的终止条件如何设计可组合使用目标完成、最大步数、最大成本、最大耗时、无进展检测、重复动作检测和人工中止。没有终止条件的 Agent 很容易进入高成本循环。19. 如何判断 Agent 是否“真正完成”任务应定义可验证的验收标准例如测试通过、文件生成、数据写入成功、审批完成或用户确认。仅有自然语言“我完成了”不能作为可靠完成信号。20. Agent 架构的常见反模式有哪些反模式包括把所有工具一次性塞给模型、无权限边界、无状态结构、无重试策略、无观测日志、无评测集、无预算限制以及让模型直接执行高危动作。B. Prompt 与上下文工程21. System Prompt 应该承担什么职责System Prompt 应定义角色、目标、边界、输出约束、工具使用规则和安全策略。它不应承载频繁变化的业务数据动态数据应通过上下文或检索注入。22. 指令层级为什么重要指令层级用于处理系统指令、开发者指令、用户请求和工具结果之间的冲突。高优先级指令负责安全与边界低优先级输入不能覆盖它们。23. Few-shot 示例适合解决什么问题Few-shot 适合稳定格式、工具调用习惯、分类边界和业务口径。示例应覆盖正常、边界和拒绝场景而不是只给理想样例。24. Chain-of-thought 是否应该直接暴露给用户生产系统通常不应暴露完整内部推理轨迹。更好的做法是输出简短理由、证据摘要、操作记录或可审计的步骤而不是模型私有推理。25. 什么是上下文工程上下文工程是选择、组织、压缩和注入模型输入的工程方法。它包含 Prompt、历史消息、检索片段、工具说明、用户画像、状态和安全策略。26. 长上下文模型是否能替代 RAG不能完全替代。长上下文适合一次性读大量材料RAG 更适合可更新知识、权限过滤、来源引用、成本控制和跨文档检索。27. 如何处理上下文过长常用方法包括裁剪最近消息、摘要旧消息、按任务提取状态、检索相关片段、动态加载工具说明和压缩中间结果。关键是保留决策所需信息而不是机械截断。28. 什么是 lost in the middle模型在长上下文中可能更容易忽略中间位置的信息。解决方式包括重排重要内容、结构化索引、引用定位、分段处理和让模型先提取再回答。29. Prompt 注入攻击是什么Prompt 注入是用户或外部内容试图覆盖系统指令、诱导泄露数据或触发越权工具调用。RAG、网页浏览、邮件处理和插件系统尤其容易受到间接注入影响。30. 如何防御 Prompt 注入应隔离不可信内容、明确工具权限、对动作做策略校验、输出前做安全检查并要求模型把外部内容当作数据而非指令。高危动作必须由代码层强制拦截。31. 如何编写工具使用提示工具提示应说明何时使用、何时不用、参数含义、失败处理、权限限制和示例。工具描述越清晰模型越不容易误选或编造工具。32. 为什么要动态裁剪工具描述工具过多会增加 token 成本并干扰模型选择。动态选择与当前任务相关的工具可以提升准确率、降低延迟并减少幻觉调用。33. 如何让模型稳定输出结构化结果优先使用模型或框架支持的结构化输出、JSON Schema、函数调用或类型约束。不要只靠自然语言提示“请输出 JSON”。34. Prompt 版本如何管理Prompt 应像代码一样版本化记录变更原因、适用模型、评测结果和回滚方式。上线前应跑回归集避免单个 Prompt 优化破坏旧场景。35. 如何评估 Prompt 优化是否有效使用固定评测集比较任务成功率、格式正确率、工具调用准确率、成本、延迟和人工评分。只看几个手工样例容易过拟合。C. 工具调用与结构化输出36. Function Calling / Tool Calling 的本质是什么它是让模型根据工具定义生成结构化参数再由应用代码执行真实函数。模型负责选择和填参系统负责验证、执行和权限控制。37. 工具定义至少应包含什么应包含工具名、用途描述、输入 JSON Schema、必填字段、字段约束、返回格式、错误语义和权限要求。工具定义是模型选择工具的重要上下文。38. 为什么工具参数必须做服务端校验模型生成的参数不能被信任可能缺字段、类型错误、越权或注入恶意内容。服务端校验是安全边界不应外包给模型。39. 什么是工具幻觉工具幻觉指模型调用不存在的工具、编造参数或使用错误枚举值。常见治理方式是工具白名单、Schema 校验、错误回填和动态工具检索。40. 如何设计工具调用失败后的恢复流程先区分错误类型参数错误可让模型修正网络错误可重试权限错误应停止并解释业务规则错误应返回可操作原因。错误信息要清晰但避免泄露敏感细节。41. 为什么高风险工具需要确认步骤高风险工具会产生不可逆影响例如删库、转账、发外部通知或修改生产配置。执行前应展示动作、对象、影响范围和可回滚性并取得明确确认。42. 工具调用如何实现幂等为写操作设计 idempotency key、请求去重、状态检查和可重试语义。这样网络重试或 Agent 重复执行时不会产生重复副作用。43. 读工具和写工具的安全策略有何不同读工具重点是数据权限、脱敏和最小返回写工具重点是确认、幂等、审计、回滚和权限升级控制。两类工具不应混用同一安全等级。44. 如何限制 Agent 的 Action Space只暴露当前任务需要的工具、限制参数范围、绑定用户权限、增加策略引擎并对危险动作强制人工确认。Action Space 越大失控面越大。45. 工具返回结果应该如何设计返回结果应结构化、短小、包含状态码和关键字段避免把大段原始日志直接塞回上下文。必要时提供结果摘要和可追溯引用。46. 如何处理工具返回的大对象大对象可存储到对象存储或数据库只把摘要、ID、分页游标和必要片段返回给模型。模型需要细节时再按需拉取。47. 多工具并行调用何时可用当工具之间无依赖且都是只读或安全幂等时适合并行例如同时查询天气、日历和价格。写操作并行前必须分析冲突和事务边界。48. 工具选择器可以独立于主模型吗可以。复杂系统会用轻量分类器、规则或 embedding 检索先筛选工具再交给主模型决策。这样能降低上下文污染和调用成本。49. 如何避免 SQL 工具被模型滥用使用只读账号、参数化查询、SQL AST 校验、表级/列级白名单、行级权限和查询成本限制。不要让模型直接拼接任意 SQL 执行。50. 如何设计文件系统工具必须限制工作目录、禁止路径穿越、区分读写权限、记录 diff、支持回滚并对批量删除等危险操作增加确认。文件路径也要当作不可信输入处理。51. 工具执行日志需要记录什么记录 trace_id、用户、工具名、参数摘要、权限上下文、开始结束时间、状态、错误码、输出摘要和成本。敏感字段应脱敏或不落日志。52. 结构化输出和工具调用有什么区别结构化输出用于让模型按 schema 返回数据工具调用用于让模型请求系统执行动作。两者都依赖结构约束但副作用和安全要求不同。53. 为什么要把工具错误反馈给模型可修复错误反馈能帮助模型调整参数或选择替代工具。反馈应具体到可行动层面例如“字段 date 必须是 YYYY-MM-DD”而不是只返回“失败”。54. 如何评测工具调用能力看工具选择准确率、参数正确率、无工具场景拒调率、多工具顺序正确率、执行成功率和失败恢复率。BFCL 这类 benchmark 可用于通用能力参考。55. 工具权限应绑定用户还是 Agent通常同时绑定。用户决定数据访问范围Agent 决定可用动作集合系统还应根据任务类型、环境和风险等级做动态收敛。D. RAG 与知识系统56. RAG 解决的核心问题是什么RAG 将生成模型与外部知识检索结合提升知识可更新性、来源可追溯性和事实准确性。它尤其适合企业知识库、法规、文档问答和客服场景。57. RAG 的基本链路是什么基本链路是数据采集 - 清洗解析 - 切分 - 向量化/索引 - 检索 - 重排 - 上下文组装 - 生成 - 引用与评测。58. Chunking 为什么重要切分粒度会影响召回、上下文噪声和答案完整性。过小会丢上下文过大会降低匹配精度并增加 token 成本。59. 常见切分策略有哪些常见策略包括固定长度切分、按标题层级切分、按语义段落切分、按代码结构切分、滑动窗口切分和表格专用切分。应根据文档类型选择策略。60. Chunk overlap 有什么作用overlap 能减少边界处信息丢失但会增加索引体积和重复召回。它适合段落连续性强的文本不应盲目设置过大。61. 向量检索和关键词检索的差别是什么向量检索擅长语义相似关键词检索擅长精确匹配专有名词、编号、代码和法规条款。企业 RAG 常采用混合检索。62. 什么是 hybrid searchHybrid search 组合稀疏检索如 BM25 和稠密向量检索再融合排序结果。它能同时覆盖语义匹配和精确词匹配。63. Rerank 在 RAG 中做什么Rerank 对初召回片段进行更精细排序常用 cross-encoder 或 LLM 评分。它提升相关性但会增加延迟和成本。64. 如何选择 top_ktop_k 应结合文档粒度、模型上下文、重排能力和答案复杂度调参。过低容易漏召回过高会引入噪声。65. 什么是 query rewritingQuery rewriting 将用户问题改写为更适合检索的查询例如补全上下文、生成多路查询或拆分子问题。多轮对话 RAG 中尤其常见。66. 什么是 multi-query retrieval它为同一问题生成多个不同表达的检索查询再合并结果。优点是提升召回缺点是成本和去重复杂度增加。67. 什么是 metadata filteringMetadata filtering 是基于文档属性过滤例如租户、部门、权限、时间、语言、文档类型和版本。它是企业 RAG 权限隔离的关键。68. RAG 如何处理权限隔离索引时写入权限元数据检索时根据用户身份做强制过滤生成时只使用可见片段。权限校验必须在检索层或服务端实现不能只靠 Prompt。69. 如何处理文档版本为文档记录版本号、生效时间、失效时间和来源 ID。检索时优先使用有效版本答案中标注来源和时间避免新旧知识混杂。70. RAG 中的 hallucination 如何治理要求答案基于检索证据、输出引用、检测无证据回答、限制模型自由发挥并对高风险答案做二次验证。检索不到时应承认不足。71. 如何评估检索质量常用指标包括 Recallk、Precisionk、MRR、NDCG、命中率和人工相关性评分。没有检索评测就很难判断生成错误来自召回还是模型。72. 如何评估端到端 RAG 质量看答案正确性、引用准确性、完整性、拒答合理性、延迟、成本和用户满意度。端到端评测应覆盖真实业务问题。73. RAG 为什么需要数据清洗PDF 解析噪声、页眉页脚、重复导航、乱码表格都会污染索引。清洗质量往往比换 embedding 模型更影响最终效果。74. 表格 RAG 有什么难点表格的行列关系、合并单元格、单位、注释和跨页结构容易丢失。可使用结构化解析、表格摘要、SQL 化或多粒度索引。75. 代码 RAG 和文本 RAG 有何不同代码 RAG 应按函数、类、模块和调用关系切分并保留文件路径、语言、符号和依赖。仅按固定 token 切分容易破坏语义边界。76. 图谱 RAG 适合什么场景当问题依赖实体关系、多跳推理、血缘分析或权限关系时图谱 RAG 更合适。它可与向量检索结合先找实体再扩展关系。77. 什么是 late interaction 检索思路late interaction 在查询和文档 token 级别保留更细粒度匹配信号常用于提升检索精度。代价是索引和计算更复杂。78. Embedding 模型如何选型关注语言覆盖、领域适配、向量维度、吞吐、成本、最大输入长度和检索评测结果。必须用自己的数据集做离线对比。79. 向量数据库选型看什么看索引算法、过滤能力、写入吞吐、查询延迟、扩展性、备份恢复、多租户隔离、混合检索和运维复杂度。80. RAG 缓存可以缓存什么可缓存 embedding、检索结果、rerank 结果、最终答案和引用片段。缓存键要考虑用户权限、知识版本和查询语义。81. 如何处理知识库增量更新通过文档 ID 做 upsert记录版本删除过期 chunk并重新计算受影响索引。还要处理缓存失效和引用链接更新。82. 什么是 grounded answergrounded answer 是能被给定证据支撑的答案。面试中应强调“答案必须可追溯到来源”而不是只追求流畅表达。83. RAG 何时不适合如果问题主要依赖复杂计算、强事务操作、实时传感器数据或严格数据库查询直接工具调用可能更合适。RAG 不是所有知识问题的默认答案。84. RAG 与微调如何取舍RAG 适合注入可变知识和提供来源微调适合学习格式、风格、领域任务模式或工具调用习惯。知识频繁更新时优先 RAG。85. 如何设计“检索不到”的体验系统应明确说明未找到足够证据可给出已查范围、建议补充材料或请求更具体问题。不要编造答案填补空白。E. 多 Agent 与协议生态86. 多 Agent 系统解决什么问题多 Agent 用角色分工、并行处理和专业化能力解决复杂任务。它适合研究、软件工程、数据分析和跨系统协作但会带来协调成本。87. Orchestrator-workers 模式是什么一个编排者负责拆解任务、分配工作、收集结果和整合输出多个 worker 负责专门子任务。它比完全点对点协作更容易控制。88. 多 Agent 协作的主要风险是什么风险包括目标漂移、重复工作、上下文膨胀、互相放大错误、权限边界不清和成本失控。需要共享状态、清晰角色和统一验收标准。89. Handoff 是什么Handoff 是把任务从一个 Agent 转交给另一个更合适的 Agent。交接时应传递目标、上下文、已完成动作、未解决问题和权限边界。90. Agent 间通信需要结构化吗需要。结构化消息能减少歧义便于审计、路由、重试和回放。自由文本适合解释结构字段适合控制流程。91. MCP 的定位是什么Model Context Protocol 是连接 AI 应用与外部数据、工具和工作流的开放标准。它关注“模型应用如何访问上下文和工具”。92. MCP 中 client、server、host 的关系是什么Host 是承载用户交互的应用client 负责与某个 MCP server 建立连接server 暴露 tools、resources、prompts 等能力。一个 host 可连接多个 server。93. MCP tools 和 resources 有何区别Tools 表示可执行动作或计算resources 表示可读取的上下文数据。工具通常可能有副作用资源更像文件、记录或文档。94. MCP prompts 的价值是什么Prompts 可把常用工作流或提示模板作为服务端能力暴露出来让客户端按需发现和复用。它适合组织共享标准操作流程。95. MCP 安全上最关键的问题是什么关键是 server 信任边界、用户授权、工具权限、数据最小化和提示注入防御。MCP 只是协议不能替代应用层安全策略。96. A2A Protocol 的定位是什么A2A 面向 Agent 与 Agent 之间的互操作强调任务、消息、artifact、Agent Card、流式更新和异步任务管理。它关注“不同 Agent 如何彼此协作”。97. A2A 和 MCP 如何区分MCP 更像 Agent 连接工具和数据的协议A2A 更像 Agent 之间委托任务和交换结果的协议。实际系统可以同时使用两者。98. Agent Card 是什么Agent Card 描述一个 Agent 的身份、能力、接口、安全要求和可发现信息。它帮助其他 Agent 或客户端判断能否调用该 Agent。99. A2A 中 Task 的作用是什么Task 是跨 Agent 协作的工作单元包含状态、消息、artifact 和更新机制。它适合长任务、异步执行和进度订阅。100. 多 Agent 系统如何做任务分解可按领域、阶段、工具权限、数据边界或输出类型拆分。拆分粒度应让子任务能独立验收避免过细导致协调成本过高。101. 多 Agent 如何避免重复执行使用任务 ID、锁、状态机、幂等键和共享任务板。编排者应维护全局进度worker 不应凭自然语言猜测是否已完成。102. 多 Agent 如何合并冲突结果可用投票、裁判 Agent、规则优先级、证据评分或人工仲裁。高风险场景应保留各方证据而不是只输出合成结论。103. 什么是 evaluator-optimizer 模式生成器产生结果评估器检查质量并提出反馈生成器再修正。它适合代码、写作、结构化抽取和复杂推理但要设置迭代上限。104. 什么是 routing 模式Routing 根据请求类型选择不同模型、Agent、工具或工作流。它能降低成本并提高专业度关键是路由分类准确和错误兜底。105. 什么是 parallelization 模式Parallelization 将独立子任务并行执行后合并结果例如多来源调研或多个测试维度。它可以降低整体耗时但需要结果去重和一致性处理。F. Agent 工程化与后端系统106. 为什么 Agent 后端要使用状态机状态机让任务阶段、允许动作、错误恢复和审计路径明确。相比纯对话历史状态机更适合生产级长任务。107. Agent 服务的核心后端模块有哪些通常包括会话服务、任务服务、模型网关、工具网关、权限服务、记忆/检索服务、日志追踪、评测服务和管理后台。108. 同步任务和异步任务如何选择秒级简单问答可同步返回长时间检索、代码执行、报告生成、批处理和外部审批应异步化。异步任务要提供状态查询、取消和进度更新。109. SSE 和 WebSocket 如何取舍SSE 适合服务端单向推送 token、进度和事件WebSocket 适合双向实时交互、协同编辑和语音/多模态流。多数文本流式输出用 SSE 更简单。110. 流式输出有哪些工程注意点要处理断连、重连、心跳、部分输出缓存、取消任务、错误事件和最终状态。前端不能只按字符串拼接应识别事件类型。111. Agent 如何支持取消任务任务服务应维护 cancel token执行器在模型调用、工具调用和循环边界检查取消状态。对外部工具还要支持补偿或停止请求。112. 如何检测 Agent 死循环可检测重复工具调用、状态无变化、相同错误反复出现、步数超限、成本超限和时间超限。触发后应停止并返回可诊断信息。113. 如何设计 Agent 的降级策略降级可包括小模型回答、只检索不生成、缓存答案、关闭非核心工具、转人工或返回待处理状态。降级策略应按业务优先级预先定义。114. 模型网关有什么作用模型网关统一封装多供应商模型、鉴权、限流、重试、超时、日志、成本统计和 fallback。它能避免业务代码直接依赖单一模型 API。115. 工具网关有什么作用工具网关统一管理工具注册、参数校验、权限、审计、熔断、重试和沙箱。它是防止模型直接触碰生产系统的边界。116. Agent 如何做限流可按用户、租户、模型、工具、任务类型和预算限流。还应区分读请求和写请求避免某个长任务耗尽共享资源。117. Agent 如何处理并发状态写入使用乐观锁、版本号、事务、任务队列或单线程 actor 模型。长任务中不要让多个 worker 无约束写同一状态对象。118. 如何做任务恢复保存检查点包括状态、已完成工具调用、模型输出、外部副作用和下一步计划。恢复时跳过已确认完成且幂等的步骤。119. 如何设计 Agent 的消息模型消息应区分 user、assistant、tool、system/event、error 等类型并记录时间、trace_id、可见性和来源。工具结果不一定都要展示给终端用户。120. Agent 如何处理外部 API 不稳定使用超时、指数退避、熔断、备用服务、缓存和错误分类。模型不应无限尝试同一失败工具。121. Agent 服务如何部署到 Kubernetes无状态 API 层可水平扩缩任务 worker 独立部署状态放数据库或队列模型和工具调用通过网关。还要配置 HPA、资源限额、探针和日志采集。122. Agent 中为什么要区分在线链路和离线链路在线链路关注低延迟和用户体验离线链路关注吞吐、成本和批处理。评测、索引构建、报告生成通常不应阻塞在线请求。123. 如何设计 Agent 的配置中心配置项包括模型、Prompt 版本、工具开关、预算、阈值、灰度策略和安全策略。配置变更要可审计、可回滚。124. Agent 如何做灰度发布按用户、租户、流量比例或任务类型逐步启用新模型、新 Prompt 或新工具。灰度期间对比成功率、错误率、成本和用户反馈。125. 为什么 Agent 需要沙箱代码执行、文件操作、浏览器操作和 Shell 工具都有安全风险。沙箱用于限制网络、文件系统、进程、资源和可执行命令。G. 推理服务与性能优化126. LLM 推理延迟由哪些部分组成主要包括排队时间、prefill 时间、decode 时间、网络耗时、工具调用耗时和后处理耗时。Agent 还会叠加多轮模型调用和工具调用。127. 首 token 延迟和总延迟有什么区别首 token 延迟影响用户感知启动速度总延迟影响任务完成时间。流式输出能改善感知体验但不能减少实际计算量。128. KV Cache 的作用是什么KV Cache 缓存 Transformer 已处理 token 的 key/value避免每次生成新 token 时重复计算历史上下文。它是自回归推理性能的关键。129. PagedAttention 解决什么问题PagedAttention 将 KV Cache 以分页方式管理减少显存碎片并提高并发请求下的显存利用率。vLLM 因此能更高效地服务多请求。130. Continuous batching 是什么Continuous batching 动态把不同时间到达、不同长度的请求合并执行。它能提升 GPU 利用率但调度复杂度更高。131. Prompt caching 适合什么场景当多个请求共享较长前缀例如系统提示、工具说明、长文档前缀时Prompt caching 可降低重复计算成本。Agent 场景中固定指令和工具定义很适合缓存。132. 量化的收益和风险是什么量化能降低显存和提升吞吐但可能损失准确性、工具调用稳定性或长上下文能力。上线前应按真实任务评测而不是只看通用榜单。133. 如何在大模型和小模型之间做路由简单分类、格式化、摘要可走小模型复杂推理、高风险决策、疑难失败重试可走大模型。路由器应可观测并允许 fallback。134. Speculative decoding 是什么它用较小或较快的草稿模型先生成候选 token再由目标模型验证从而加速解码。适用性取决于模型组合和服务框架支持。135. 如何优化 Agent 的 token 成本精简 Prompt、动态加载工具、压缩历史、缓存检索和输出、使用小模型路由、限制循环步数并为每个任务设置预算。136. 为什么 Agent 的性能瓶颈常在工具而不在模型真实任务经常依赖搜索、数据库、代码执行、浏览器或外部 API这些工具的延迟和失败率会主导总体体验。需要端到端 tracing 才能定位。137. 吞吐和延迟如何权衡更大的批处理提高吞吐但可能增加排队延迟低延迟策略会牺牲 GPU 利用率。面向交互式 Agent 应优先控制尾延迟。138. 如何控制长上下文推理成本使用检索替代全量塞入、摘要压缩、分层上下文、缓存公共前缀和按需读取。长上下文应作为能力而不是默认输入策略。139. 私有化推理部署需要关注什么关注 GPU 资源、模型权重许可、推理框架、量化、监控、弹性扩缩、数据安全和运维能力。私有化不一定比 API 更便宜。140. 如何优化流式生成体验降低首 token 延迟、稳定输出节奏、展示工具进度、支持取消并在最终答案补齐引用和结构化信息。不要把未验证的中间猜测当最终结论展示。H. 可观测性、评测与优化141. Agent 可观测性和普通服务观测有什么不同Agent 需要观察模型输入输出、工具选择、状态迁移、检索片段、token 成本和决策路径。普通 HTTP 指标不足以解释 Agent 行为。142. Trace 中应包含哪些 span常见 span 包括用户请求、模型调用、检索、rerank、工具调用、状态写入、评测器调用和输出后处理。每个 span 应包含耗时、状态和关键属性。143. 日志中如何处理敏感信息默认脱敏或哈希用户数据、密钥、PII、业务机密和工具原始结果。调试日志应有访问控制和保留期限。144. Agent 指标体系包括哪些包括任务成功率、工具成功率、平均步数、循环中止率、延迟、token 消耗、成本、人工接管率、用户满意度和安全拦截率。145. 如何构建离线评测集从真实请求、典型业务场景、失败案例和边界条件抽样标注期望结果、可接受范围、工具轨迹和参考证据。评测集要持续更新但保留回归基线。146. LLM-as-a-judge 有什么优缺点优点是扩展性强、可评估开放答案缺点是偏差、不可重复和被表述影响。应配合规则、人工抽检和多 judge 校准。147. 任务成功率如何定义成功应与业务目标绑定例如正确回答、正确引用、工具执行成功、测试通过或工单解决。不同任务类型不能混用一个模糊指标。148. Passk 和稳定性指标有什么区别Passk 衡量多次尝试中是否至少一次成功适合重试场景稳定性指标关注连续成功或单次可靠性更贴近生产体验。149. 什么是 shadow testingShadow testing 将生产流量复制给新系统运行但不影响用户结果。它适合上线前比较新旧 Agent 的质量、成本和错误模式。150. Agent A/B 测试怎么做定义假设和主指标随机分流控制样本量记录版本评估统计显著性和安全指标。不要只看点赞率还要看成本和风险。151. 如何分析 Agent 失败案例按意图理解、检索、工具选择、参数、权限、模型推理、外部系统和输出格式分类。分类后才能决定是改 Prompt、工具、数据还是架构。152. 回放能力为什么重要回放可以复现失败、比较模型版本和验证修复。需要保存足够的输入、状态、工具结果摘要和配置版本同时注意隐私合规。153. AgentBench 这类 benchmark 有什么价值它们提供跨环境、跨任务的通用参考有助于了解模型作为 Agent 的能力边界。但业务上线仍要依赖自己的评测集。154. SWE-bench 衡量什么SWE-bench 衡量模型或 Agent 解决真实软件仓库 issue 的能力指标通常看 resolved percentage。它适合评估 coding agent而不是通用聊天能力。155. GAIA 类 benchmark 关注什么GAIA 面向通用 AI 助手任务强调多步推理、工具使用和现实知识。它可用于观察 Agent 综合能力。156. BFCL 适合评估什么BFCL 关注函数/工具调用能力包括工具选择、参数生成、多函数、并行调用和无关工具拒调。它与生产 Agent 工具可靠性高度相关。157. 如何做线上质量监控采样请求自动打分监控安全拦截、异常成本、低置信回答、重复失败和人工反馈。线上监控应能关联到 Prompt、模型和工具版本。158. 如何避免评测集污染保留私有评测集限制访问定期新增真实失败案例并区分开发集和最终验收集。不要把评测答案放进 Prompt 或训练数据。159. 如何评估多 Agent 系统除最终成功率外还要看分工正确性、通信轮数、重复率、冲突率、合并质量和成本。多 Agent 的协调开销必须被量化。160. 优化 Agent 应遵循什么顺序先定位失败环节再选择最小改动。常见顺序是数据/检索、工具 Schema、Prompt、模型路由、架构重构最后才考虑微调。I. 安全、合规与成本161. OWASP LLM Top 10 中与 Agent 最相关的风险有哪些Prompt injection、sensitive information disclosure、excessive agency、system prompt leakage、vector and embedding weaknesses、unbounded consumption 都与 Agent 高度相关。162. Excessive agency 是什么它指系统授予 LLM 过多自主权、权限或工具能力导致非预期动作。治理思路是最小权限、动作确认、范围限制和审计。163. 如何防止敏感信息泄露输入前脱敏、检索时权限过滤、输出前 DLP 检查、日志脱敏、密钥隔离和审计追踪。不能依赖模型承诺“不泄露”。164. System Prompt 泄露是否一定是灾难不一定但不应把密钥、内部策略细节或安全边界只放在 System Prompt 中。真正的安全控制必须在代码、权限和基础设施层实现。165. Agent 如何防越权访问每次工具和检索调用都基于用户身份、租户、角色和资源策略做服务端校验。模型生成的“我有权限”没有安全意义。166. RAG 中的向量库有什么安全风险风险包括跨租户召回、嵌入反推、过期数据残留、恶意文档注入和权限元数据缺失。需要索引隔离、过滤、删除机制和数据治理。167. 间接 Prompt 注入是什么攻击指令隐藏在网页、文档、邮件或检索片段中被 Agent 当作指令执行。防御重点是把外部内容标记为不可信数据。168. 如何处理 Agent 生成代码的安全风险使用沙箱执行、依赖扫描、静态分析、测试、人工 review 和最小权限运行环境。不要让生成代码直接访问生产凭据。169. Agent 成本失控的常见原因是什么无限循环、长上下文滥用、多 Agent 过度通信、重复检索、工具失败重试和模型路由不当。需要预算、熔断和成本监控。170. 成本控制有哪些手段模型分层、缓存、Prompt 压缩、动态工具、检索去重、异步批处理、预算上限、流量限额和低价值请求降级。171. 如何估算 Agent 单次任务成本累加各轮输入输出 token、检索/rerank、工具 API、向量库、代码执行、存储和人工审核成本。Agent 成本不能只看最后一次模型调用。172. 审计日志应满足什么要求应可追溯用户、时间、输入摘要、动作、权限、工具结果、审批记录和最终输出。审计日志要防篡改并符合保留期限要求。173. 如何做数据最小化只向模型和工具提供完成任务所需的最少字段、最短历史和最小权限数据。对检索片段和工具返回也应做裁剪。174. 如何处理模型供应商数据合规确认数据使用政策、地域、保留期限、训练使用、加密、审计和企业协议。敏感场景可考虑私有化、专有通道或脱敏代理。175. Agent 输出如何做安全过滤按内容安全、数据泄露、代码危险、合规口径和业务规则做多层检查。高风险输出进入人工审核或拒绝。176. 如何防止工具供应链风险对工具代码、MCP server、插件、依赖和外部 API 做来源审查、版本锁定、权限隔离和漏洞扫描。不要安装来历不明的 Agent 工具。177. Agent 如何做租户隔离租户隔离应覆盖数据库、向量库、对象存储、缓存、日志和任务队列。共享组件必须带租户字段和强制访问控制。178. 如何处理用户删除数据请求需要定位会话、长期记忆、向量索引、缓存、日志和备份中的相关数据并按政策删除或匿名化。RAG 索引删除不能只删原文。179. Agent 的法律风险主要来自哪里可能来自版权内容、错误建议、隐私泄露、歧视性决策、越权操作和不可解释审计。高风险行业应引入法律与合规评审。180. 如何设定 Agent 的风险分级按数据敏感度、动作可逆性、金额影响、外部传播范围、自动化程度和监管要求分级。不同等级对应不同权限、确认和审计要求。J. 框架与研发效能181. OpenAI Agents SDK 提供哪些核心概念它围绕 agent、tool、handoff、guardrail、run、trace 等概念构建 Agent 应用。适合把模型调用、工具、编排和观测组织成可维护代码。182. Guardrails 在 Agent SDK 中解决什么问题Guardrails 用于在输入、输出或运行过程中执行策略检查例如安全过滤、格式校验和业务约束。它们应与服务端权限控制配合使用。183. Spring AI 的 ChatClient 是什么ChatClient 是 Spring AI 中与聊天模型交互的 fluent API支持同步和流式调用。它把 prompt、模型选项、工具和 advisor 组织在统一接口下。184. Spring AI Advisor 的作用是什么Advisor 类似拦截器可在模型调用前后注入逻辑例如日志、RAG、缓存、安全检查、重试和观测。多个 advisor 组成链式处理流程。185. Spring AI Tool Calling 如何理解它把 Java 方法或 ToolCallback 暴露给模型由模型生成参数框架完成映射和调用。工程上仍需处理权限、校验、异常和审计。186. LangChain 的 agent harness 指什么Harness 是包裹模型循环的工程层包括 prompt、工具、中间件、状态和运行逻辑。LangChain 文档中把 Agent 概括为 Model Harness。187. LangGraph 适合解决什么问题LangGraph 适合构建有状态、多步骤、可持久化、可中断和人机协作的 Agent 工作流。它比简单链式调用更适合复杂控制流。188. LlamaIndex 更偏向什么场景LlamaIndex 强项是数据连接、索引、RAG、查询引擎和知识应用构建。它适合以企业数据和检索增强为中心的 LLM 应用。189. 如何选择 Agent 框架看团队语言栈、可观测性、工具生态、状态管理、部署方式、社区成熟度和可扩展性。框架不能替代清晰的业务边界和评测体系。190. 框架封装过深有什么风险可能导致难以调试模型输入、工具调用和状态迁移。生产项目应保留关键链路的可观测性和可替换性。191. AI Coding Assistant 和 Coding Agent 有何区别Coding Assistant 更偏补全和问答Coding Agent 能跨文件理解、编辑、运行命令、测试并迭代修复。后者需要更强的权限控制和 review 流程。192. 使用 Coding Agent 时如何给高质量上下文明确目标、约束、相关文件、验收标准、测试命令和禁止事项。让 Agent 先理解代码库再做小步修改和验证。193. 为什么复杂开发任务适合先 plan 后 code先规划能暴露架构假设、影响范围和风险点减少盲目修改。尤其在大仓库、多模块和高风险改动中很重要。194. 团队如何管理 AI 生成代码保持 code review、测试、静态扫描、提交粒度和责任归属。AI 生成不降低工程标准提交者仍要对代码负责。195. CLAUDE.md、AGENTS.md、规则文件的价值是什么这类文件把项目规范、命令、架构约束和团队偏好提供给 Coding Agent。它们适合沉淀稳定规则不适合放密钥或临时需求。196. 如何防止 Coding Agent 误改无关文件限制任务范围要求先列计划使用版本控制查看 diff分阶段提交并在工具权限上限制写入范围。评审时重点看无关改动和隐式行为变化。197. Agent 开发中单元测试和评测集有什么区别单元测试验证确定性代码逻辑评测集验证模型行为和端到端任务质量。两者互补不能互相替代。198. 如何把 Agent 能力集成到现有 SaaS从低风险助手场景开始接入现有权限体系和审计系统逐步开放读工具和写工具。不要绕过已有业务服务直接操作数据库。199. 面试中如何回答“设计一个企业知识库 Agent”应覆盖数据接入、权限、索引、混合检索、重排、引用、会话状态、反馈、评测、观测、安全和成本。回答时给出端到端架构而不只是说“用向量库”。200. 面试中如何回答“设计一个代码修复 Agent”应覆盖仓库理解、任务规划、检索相关文件、最小修改、运行测试、错误回填、循环上限、diff 审查、安全沙箱和最终报告。核心是把自主修复约束在可验证闭环中。使用建议基础面试优先掌握 A、B、C、D、I 模块。工程实现岗位重点准备 C、F、G、H、J 模块并能画出服务架构图。RAG 岗位重点准备 D、H、I 模块尤其是检索评测、权限隔离和数据治理。多 Agent / 平台岗位重点准备 E、F、H、I 模块尤其是协议边界、任务状态和可观测性。Java / Spring 岗位重点准备 Spring AI 的 ChatClient、Advisor、Tool Calling、RAG 和 Observability。说明AI总结请不要作为招聘标准。如有错漏可以评论我让AI再修正一下。本人不保证准确性可按照来源自行查证。