H2HMem: A Multimodal Memory Benchmark for Agents in Human-Human Interactions Paper • Dataset • Leaderboard • Project Page • Code如果您对我们的工作感兴趣希望您能为我们的Github仓库点一个star以便更多的人关注到我们的工作。同时欢迎您将您的方法提交到Leaderboard上面。 一、为什么要做这个工作随着大模型逐渐进入真实应用场景会议助手、医疗记录、智能助理等一个关键问题开始变得重要AI在“长时间、多人物、多模态”的真实对话中到底能不能可靠地记住信息但现有评测普遍存在一个问题只关注人类 ↔ AI 对话大多是纯文本交互结构单一但目前agent的应用已经扩展到了新的场景agent在人与人的对话中作为观察者。​​这种状况下的难点在于多人同时参与A/B/C/D图片 文本混合出现信息甚至可能互相冲突因此我们提出了一个新的benchmark H2HMem 二、H2HMem到底解决什么问题H2HMem专门模拟一种更真实的设定AI作为“观察者”被动记录人类之间的对话并在之后回答问题。它包含三个核心特点‍‍ 多人对话dyadic multi-party️ 多模态信息图像 文本⏳ 长时序多session交互简单说就是不再是“你和AI聊天”而是“AI在旁边听你们聊天”。️ 三、我们是怎么构建这个数据集的整体采用human-in-the-loop LLM生成 pipeline​① 先构建人物设定性格/背景/职业/说话方式② 再生成多session场景旅游、医疗、宠物等③ 引入图像检索 生成 人工修正④ 用LLM生成完整多人物对话⑤ 自动生成 人工校验QA任务整个过程确保对话是连续的、图文是对齐的、人物关系是稳定的 四、我们如何评估“记忆能力”我们将memory能力拆成三大类1️⃣ Memory Recall记住发生了什么包括单模态事实回忆UPR图文对齐检索CRR多session信息更新KR2️⃣ Memory Reasoning理解发生了什么包括时间顺序推理TR因果推理MCR指代与人物关系追踪RET3️⃣ Memory Application如何用记忆包括测试时学习TTL冲突检测CD信息缺失时拒答AR 五、实验结果我们在多种主流方法RAG / multimodal memory / agent memory上进行了测试。整体结果呈现出一个比较一致的趋势当前模型在“检索信息”方面表现尚可但在“组织和理解记忆”方面仍然明显不足。更具体来说 1. 跨模态对齐仍然是主要瓶颈模型可以找到信息但经常无法正确对齐文本 ↔ 图像关系图像属于哪个说话人图像对应哪个事件‍‍ 2. 多人对话引入明显混淆在multi-party场景中speaker attribution错误增加人物关系容易混乱冲突信息难以区分⏳ 3. 时间与因果推理能力较弱尤其在事件顺序多session更新逻辑因果关系这些任务上表现明显下降 六、一个更本质的发现如果从整体来看我们可以总结一个核心现象当前大模型的“记忆”更像是信息检索而不是结构化理解。它们可以找到相关片段回忆局部事实但难以做到将多模态信息对齐在多人之间正确归属信息在时间维度上保持一致性处理冲突信息 七、H2HMem的意义H2HMem的目标不仅仅是一个benchmark而是希望推动下一代memory agent从“记忆检索系统”走向“结构化认知系统”未来的AI如果要真正进入真实世界需要具备多人交互理解能力多模态长期记忆能力跨时间一致性建模能力 总结H2HMem揭示了一个很关键的现实记住信息并不难但在复杂人类交互中“正确理解并使用记忆”仍然非常困难。八、资源TypeLinkPaperhttps://arxiv.org/abs/2606.09461v1Codehttps://github.com/varib1/H2HMEMLeaderboardhttps://h2hmemleaderboard1.vercel.app/Datasethttps://huggingface.co/datasets/varib/H2HMEMProject Pagehttps://h2hmemprojectpage.vercel.app/我们在此处提供了我们论文相关的资源。