[论文学习]AgentDAM:自主网路代理的隐私洩漏评估基准
AgentDAM: Privacy Leakage Evaluation for Autonomous Web Agents (NeurIPS 2025)核心问题与动机随着**自主 AI 代理Autonomous Web Agents**能力的快速提升它们已经能够执行複杂的多步骤任务例如网购、社群互动、程式码管理等大幅提升生产力。然而这些任务通常需要代理存取使用者的个人敏感资讯例如信用卡、聊天记录、医疗资料、宗教信仰等。这引发了严重的隐私疑虑代理是否能「适当」使用这些资讯而非不必要地洩漏或处理传统隐私研究多聚焦于训练资料的隐私保护如差分隐私、成员推断攻击或仅透过简单提示probing询问 LLM 是否「应该」揭露某资讯。但这些方法忽略了实际执行情境inference-time in action代理在真实多步骤、互动式的网页环境中是否会无意中将无关敏感资讯融入动作如输入表单、发布贴文先前工作如 ConfAIde、PrivacyLens多为对话式或模拟环境缺乏端到端的真实性与多模态支援。核心概念「Data Minimization」资料最小化代理仅在任务「必要」时使用敏感资讯。例如用社安号报税是必要的但在网购时不该使用。论文以此原则为基础提出AgentDAMAgent DAta Minimization基准旨在系统性评估并推动代理在实际动作中遵守此原则。这是第一个端到端、基于真实但隔离可控网页环境如 WebArena / VisualWebArena的代理隐私基准涵盖 Reddit、GitLab、Shopping 等环境。动机不仅是技术评估更是呼吁 AI 代理开发者重视「推理时隐私」inference-time privacy避免代理在良性环境中仍造成隐私风险进而影响使用者信任与实际部署。结果 / 成果基准建构包含246 个真实任务使用合成但逼真的 user_data长文聊天/笔记。每个任务包含相关与无关敏感资讯涵盖6 大类个人联络、宗教政治、就业、金融、教育、医疗。任务设计透过人类註解 LLM 生成确保多样性与自然性。支援文字axtree与多模态截图 SOM输入。评估框架採用双轴评估Utility任务成功率由环境状态自动判断Privacy洩漏率使用 GPT-4o 作为 LLM JudgeCoT 推理分析代理每一步动作是否洩漏 SENSITIVE DATA人类验证一致性达98%。提供完整 trajectory 追踪。主要实验结果无 mitigation 时GPT 系列4o、4o-mini、4-turbo隐私表现较差洩漏率约25%-46%privacy score 约 0.54–0.75但 utility 较高。Llama-3 系列与 Claude-3.5-Sonnet (computer-use)隐私意识较强~90%但 utility 可能稍低。多模态输入略提升 utility对 privacy 影响有限。Probing vs. End-to-End仅提示 LLM 询问隐私往往高估安全性尤其 GPT无法捕捉实际动作中的洩漏也无法衡量 utility-privacy 权衡。Mitigation 成效提出 privacy-aware system prompt CoT 示范告知敏感类别、提供范例显着降低洩漏率多数模型提升至90%最高近 94%但会略微降低 utility偶有过度拒绝任务。Pre-/Post-filtering 效果不佳。开源完整基准、资料集与评估程式码便于未来代理测试与改进。分析与洞见优势与创新真实性使用自託管真实网页副本非纯模拟支援多模态与长 horizon 任务远优于先前文字-only 或对话式基准。可扩展性易适配现有 web navigation agents如基于 LLM/VLM 的 scaffolding。细緻性区分「必要」与「无关」敏感资讯LLM Judge 处理上下文 nuance如匿名化是否算洩漏。互补性与训练时隐私、对抗攻击研究互补聚焦 benign 环境下的 inference-time 风险。局限与边缘考量资料为合成虚构情境虽逼真但可能未完全涵盖真实世界的複杂性或 adversarial 攻击。任务规模有限246 个集中于特定三个网站未来可扩展更多环境/任务类型。Mitigation 仍非完美存在 utility 下降如 false denial-of-service显示资料最小化与任务完成间的根本权衡。依赖强大 LLM Judge可能引入自身偏差人类验证虽高但大规模时成本高。模型差异更强大的模型如 GPT在 utility 上优势明显但 privacy 控制较弱显示 scaling 未必自然解决隐私问题。Llama/Claude 在 privacy 上较保守可能因训练或提示差异。更广洞见当前代理在「思考」隐私时表现良好但在多步骤执行中易「忘记」或混淆资讯。这凸显 LLM 代理的上下文管理与指令遵循挑战。隐私不是静态属性而是动态动作中的emergent 行为需端到端基准才能准确测量。长期而言这可能影响代理在企业/个人助理中的採用特别是涉及高敏感资料的领域如金融、医疗。相关考量结合其他安全机制如 prompt injection 防禦、工具隔离或未来架构如专用 privacy module可能更有效。基准也为「可解释代理」或「对齐」研究提供新视角。结论AgentDAM是一项及时且重要的贡献清晰定义并量化了自主网路代理的资料最小化问题揭示当前前沿模型GPT、Llama、Claude在实际部署中仍存在显着隐私洩漏风险。虽然 prompting-based mitigation 有帮助但结果强调需更多研究开发能原生优先考量隐私的代理架构。文章连结arXiv: https://arxiv.org/abs/2503.09780PDF: https://arxiv.org/pdf/2503.09780.pdf