简单RAG打败agentic，南大EvoEmbedding起飞-尧图建网站

今天为大家分享的是南京大学关于长上下文检索的新论文。现有embedding模型都是静态的——同一段文字不管放在什么上下文里永远是同一个向量。这在长上下文场景里是个大问题信息是动态的、有序列的、需要追踪状态的静态embedding把时序信息全丢了。现有方案要么reranking、要么推理增强、要么上专用agentic memory系统都带额外成本。EvoEmbedding跳出这个思路给embedding装个潜记忆让它带着历史和时序编码。潜记忆原始内容联合生成可演化embedding核心思路切换上下文不再是外部检索条件而是embedding的内部状态。整体流程给定当前输入segment x_t 和上一步的latent memory M_{t-1}模型并行做两件事Memory Evolution记忆演化参数θ_mLLM把当前segment压缩进latent memory输出新的K个latent token M̃_t ∈ ℝ^{K×D}Embedding Generation向量生成参数θ_r用memory原始segment联合生成context-aware embedding v_t ∈ ℝ^{D_emb}这两步可以形式化为M̃_t, v_t π(x_t, M_{t-1})。查询阶段只跑向量生成那条线拿到检索向量。递归压缩持续把时序动态和跨段关联注入表示同一query在不同上下文下生成不同向量——这就是看人下菜碟的机制。可演化表示对比用FIFO队列防止递归坍缩最关键的工程创新是记忆队列Memory Queue。递归编码有个老问题同一段历史记忆会被反复loop-encode最终表示坍缩成噪声模型直接崩。现有方案要么截断上下文要么上curriculum learning慢慢训。EvoEmbedding的做法把memory做成FIFO队列M_t ∈ ℝ^{C×D}容量C L × KL是记忆步数K是每步latent token数。每步新生成的M̃_t经过projector f_m映射到共享记忆空间挤掉最老的一批。设计上有两个硬约束Bounded loop有界循环单条历史记忆最多被loop-encode L次从根上避免递归坍缩所以能直接在长上下文上训不需要curriculum learningBounded capacity有界容量严格限制memory大小既bound了计算复杂度又强制模型每步学会新知识历史状态的融合实现上C512个latent token显存占用跟编码一张图片差不多——非常轻量。并行处理segment训练加速3.8×长上下文训练另一个坑segment要按顺序处理逐个forward慢得离谱。Segment-Batching的解法不再逐segment执行forward而是把k个连续segment拼一起并行处理。k的大小动态决定——只要拼接后总长度不超过阈值比如2048 token就尽量多塞。形式化M̃_{t:tk} π(x_{t:tk}, M_{t-1})后续memory queue更新和embedding生成保持一致。这一招带来3.8×训练加速而且不仅没掉点还涨了——并行处理让模型看到更长的局部上下文反而学得更好。多LoRA解耦联合训练目标参数解耦设计用multi-LoRA把memory evolution和representation generation两套能力分开。θ_m负责记忆θ_r负责向量推理时可以灵活切换。基座用Qwen系列构建0.8B/2B/4B三个scale。联合损失函数L L_mem L_con两个目标一起优化。L_mem记忆损失用生成的latent memory M_t和query q作为上下文预测目标答案y。关键设计——预测时冻结backbone LLM、关闭所有LoRA让loss通过frozen backbone直接反传到M_t隐式强制memory模块生成与基座LLM原生语义空间兼容的latent state。这一步保证memory不是孤立学出来的而是和LLM对齐。L_con对比损失候选池不从全局采而是从当前样本的t个segment动态切分。正样本P个含supporting evidence、负样本N个PNt。损失是length-weighted multi-positive contrastive loss用log(N1)作为长度权重因子——因为负样本数N随输入长度变化很大这个因子自适应校准loss scale保证不同序列长度下训练稳定。温度τ0.1。EvoTrain-180K三阶段自动化数据合成训练可演化embedding需要专门数据EvoTrain-180K的三阶段pipelineEvoTrain-180K构建流程Stage 1 原始上下文构建三类来源混合——(i) 从FineWeb随机采样文档sliding window切成sequential segments(ii) 用强LLM合成多轮persona-driven对话(iii) 从原文/对话里抽取各种类型的memory作为上下文。覆盖多领域、多类型、多长度。Stage 2 动态QA生成基于上下文建QA pair两个设计保证多样性——(i) 预定义40模板类型coreference resolution、temporal understanding等引导生成(ii) 用不同型号不同大小的LLM生成问题既有简单语义匹配题也有需要深度上下文理解的难题。Stage 3 检索标注与验证用Gemini-3.1-Pro做检索标注和样本验证。标注阶段识别query相关segment索引作为正样本target验证阶段排除幻觉强制要求依赖history而非通用知识。实验结果4B干翻12Bnaive RAG干翻agentic memory实验覆盖10个benchmark结果硬核检索性能4B版本击败KaLM-Embedding-Gemma3-12B6.4%和Qwen3-Embedding-8B11.1%——更小参数更强效果。性能对比长上下文泛化128K上下文训练窗口10倍长平均样本长度100倍长仍然有效。naive RAG碾压agentic memoryLongMemEval-s上naive RAG EvoEmbedding-4B 77.6%显著超过A-MEM65.2%和LightMem70.2%——简单RAG打败专用memory系统。RAG生成准确率下游迁移个性化任务等下游场景泛化好。集成agentic memory时序检索能力Plug-and-play集成作为模块塞进现有agentic memory系统A-MEM涨19.2%、LightMem涨13.5%击败Qwen3-Reranker-4B和reasoning-based检索策略。时序检索能力遇到firstly/lastly等时序关键词时query-context相似度在目标历史阶段明显达峰成功解耦时序意图——表明模型本身已具备时序理解能力不是简单堆记忆。时序敏感性分析学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

相关新闻

Abode AE安装包

人工智能专业术语详解（V）

从愤怒的小鸟到罗维奥：IP驱动型游戏公司的战略转型与运营实践

最新新闻

托管式 Agent 成为主流方向

2026流年运势批量推演怎么做？玄易AI命理软件测评

向量空间 JBoltAI TokUI 的定位与设计背景

马鞍山栈板工厂怎么选？看完这篇不纠结

前Zod作者新开源项目Nub：性能快、兼容性强，能否打破Node.js工具碎片化困局？

华中科技大学《人工智能导论》全套PPT课件

日新闻

计算机毕业设计之基于Java的流浪动物收养系统设计与开发

Qwen2.5-Turbo百万上下文实战指南：百炼平台长文本处理全解析

【Netty源码解读和权威指南】第54篇：Netty在Elasticsearch中的应用——分布式搜索引擎的网络通信

周新闻

Google AI Studio 300美元额度的真相与实战指南

【人工智能】一文搞定到底什么是智能体

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

月新闻