[论文分享]H2HMem：当AI开始“偷听人类对话”，我们才发现它的记忆远没有想象中可靠—

H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions Paper • Dataset • Leaderboard • Project Page • Code如果您对我们的工作感兴趣希望您能为我们的Github仓库点一个star以便更多的人关注到我们的工作。同时欢迎您将您的方法提交到Leaderboard上面。一、为什么要做这个工作随着大模型逐渐进入真实应用场景会议助手、医疗记录、智能助理等一个关键问题开始变得重要AI在“长时间、多人物、多模态”的真实对话中到底能不能可靠地记住信息但现有评测普遍存在一个问题只关注人类 ↔ AI 对话大多是纯文本交互结构单一但目前agent的应用已经扩展到了新的场景agent在人与人的对话中作为观察者。这种状况下的难点在于多人同时参与A/B/C/D图片文本混合出现信息甚至可能互相冲突因此我们提出了一个新的benchmark H2HMem 二、H2HMem到底解决什么问题H2HMem专门模拟一种更真实的设定AI作为“观察者”被动记录人类之间的对话并在之后回答问题。它包含三个核心特点‍‍ 多人对话dyadic multi-party️ 多模态信息图像文本⏳ 长时序多session交互简单说就是不再是“你和AI聊天”而是“AI在旁边听你们聊天”。️ 三、我们是怎么构建这个数据集的整体采用human-in-the-loop LLM生成 pipeline① 先构建人物设定性格/背景/职业/说话方式② 再生成多session场景旅游、医疗、宠物等③ 引入图像检索生成人工修正④ 用LLM生成完整多人物对话⑤ 自动生成人工校验QA任务整个过程确保对话是连续的、图文是对齐的、人物关系是稳定的四、我们如何评估“记忆能力”我们将memory能力拆成三大类1️⃣ Memory Recall记住发生了什么包括单模态事实回忆UPR图文对齐检索CRR多session信息更新KR2️⃣ Memory Reasoning理解发生了什么包括时间顺序推理TR因果推理MCR指代与人物关系追踪RET3️⃣ Memory Application如何用记忆包括测试时学习TTL冲突检测CD信息缺失时拒答AR 五、实验结果我们在多种主流方法RAG / multimodal memory / agent memory上进行了测试。整体结果呈现出一个比较一致的趋势当前模型在“检索信息”方面表现尚可但在“组织和理解记忆”方面仍然明显不足。更具体来说 1. 跨模态对齐仍然是主要瓶颈模型可以找到信息但经常无法正确对齐文本 ↔ 图像关系图像属于哪个说话人图像对应哪个事件‍‍ 2. 多人对话引入明显混淆在multi-party场景中speaker attribution错误增加人物关系容易混乱冲突信息难以区分⏳ 3. 时间与因果推理能力较弱尤其在事件顺序多session更新逻辑因果关系这些任务上表现明显下降六、一个更本质的发现如果从整体来看我们可以总结一个核心现象当前大模型的“记忆”更像是信息检索而不是结构化理解。它们可以找到相关片段回忆局部事实但难以做到将多模态信息对齐在多人之间正确归属信息在时间维度上保持一致性处理冲突信息七、H2HMem的意义H2HMem的目标不仅仅是一个benchmark而是希望推动下一代memory agent从“记忆检索系统”走向“结构化认知系统”未来的AI如果要真正进入真实世界需要具备多人交互理解能力多模态长期记忆能力跨时间一致性建模能力总结H2HMem揭示了一个很关键的现实记住信息并不难但在复杂人类交互中“正确理解并使用记忆”仍然非常困难。八、资源TypeLinkPaperhttps://arxiv.org/abs/2606.09461v1Codehttps://github.com/varib1/H2HMEMLeaderboardhttps://h2hmemleaderboard1.vercel.app/Datasethttps://huggingface.co/datasets/varib/H2HMEMProject Pagehttps://h2hmemprojectpage.vercel.app/我们在此处提供了我们论文相关的资源。

相关新闻

如何轻松实现PS4游戏修改：GoldHEN金手指管理器完整指南

Adobe软件授权验证的技术解决方案：如何安全地管理创意工具访问权限

滑动窗口解法：最短子数组长度代码解释与优化

最新新闻

centos搭建k8s 1.28集群

基于Playwright与OpenCV的滑块验证码自动化破解实战

计算机毕业设计之jsp基于SSM的校园新闻管理系统开发与实现

从此告别素材荒｜2026年视频剪辑新手用什么AI工具制作视频素材盘点

宝珀 Cal.6950 超薄大日历机芯故障拆解、结构解析与标准化保养工艺

南昌家用电梯哪家性价比高？5个关键问题搞清楚，再选品牌更踏实

日新闻

计算机毕业设计之基于Java的流浪动物收养系统设计与开发

Qwen2.5-Turbo百万上下文实战指南：百炼平台长文本处理全解析

【Netty源码解读和权威指南】第54篇：Netty在Elasticsearch中的应用——分布式搜索引擎的网络通信

周新闻

Google AI Studio 300美元额度的真相与实战指南

【人工智能】一文搞定到底什么是智能体

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

月新闻