复旦大学与上海人工智能实验室联手打造的“技能记忆“系统
这项由复旦大学、上海人工智能实验室、上海创新研究院及华中科技大学联合开展的研究以预印本形式于2026年6月发布论文编号为arXiv:2606.09365v1有兴趣深入了解的读者可通过该编号查询完整论文。**当一位经验丰富的老医生遇到疑难病例时**一位行医三十年的老医生见过太多奇奇怪怪的病例。当一个新患者坐到诊室里他不只是机械地查阅医学教科书而是在脑海中飞速翻阅自己多年积累的病案经验——这个症状组合我上周遇到一个类似的、这种用药顺序之前出过问题要小心。这种从经验中提炼出来的直觉正是顶尖临床医生与刚毕业医学生之间最根本的差距。然而当前的医疗AI系统即便再聪明大多数都像是一个记忆力很好却没有临床经验的医学生——它们能背出教科书上的所有知识但每次面对新患者时都是从零开始完全不记得自己之前处理过多少类似的案例更无法从那些经验中提炼出可以反复使用的临床智慧。这篇论文提出的SkeMex系统正是为了解决这个问题而生的。研究者们希望让AI医生真正拥有职业成长的能力——不是通过重新训练、重新学习来升级而是像一个在岗位上持续积累经验的临床医生那样在每一次与患者的互动中悄悄变得更聪明、更可靠。**一、医疗AI的成长困境为什么聪明的AI总是健忘**要理解这个问题可以先想象一家大型医院里有一个全科AI助理每天处理来自不同科室的临床问题从诊断罕见病到制定复杂的用药方案。按道理这个AI每天都在积累经验应该越来越厉害才对。然而现实往往令人沮丧。传统的AI系统存在两种极端状况要么完全不记得过去的经验每次都当作第一次见到类似问题要么把所有经历到的原始记录一股脑儿堆在记忆库里结果那些记录大量重复、噪音很多每次要找有用信息时简直像在杂乱的储藏室里找一把钥匙。还有一些研究者尝试了另一条路通过重新训练AI模型本身来让它学习新经验。这种方式就好比你每次想让员工学到新技能都要给他做一次全面的大脑改造手术不仅代价高昂还有一个致命风险——新知识可能冲刷掉旧知识让AI忘记之前已经掌握的宝贵能力医学上称之为灾难性遗忘。这篇论文的研究团队指出当前的记忆机制还有一个更根本的问题它们从不思考哪些记忆真的有用。一个有用的经验和一个误导性的经验在传统记忆系统眼里待遇是完全一样的都被原封不动地保存下来等到用的时候一起端上来让AI自己去辨别。这就像一个厨师把每次做菜的所有过程都拍下来不管成功还是失败等下次做菜时把所有录像一起播放而不是把那些真正有用的技巧单独整理出来。**二、SkeMex的核心思路从堆经历到炼技能**SkeMex的名字来自Skill-based Memory Evolution基于技能的记忆进化这个名字精准地传达了它的核心理念重要的不是把经历本身存起来而是把经历背后可以复用的技能提炼出来。以一位临床医生学习新知识为例。假设他接诊了十个因为抗生素选择不当而导致病情加重的案例。一个经验浅的医生可能只是记住了我见过这十个案例而一个优秀的医生会从中提炼出一条规律在肾功能不全的患者中使用这类抗生素前需要先检查肌酐水平否则容易引发药物蓄积。后者提炼出来的就是一条可以在未来所有类似情况下反复使用的技能。SkeMex做的正是这件事。它不存储原始的诊疗过程而是从那些过程中萃取出结构化的技能条目——每一条技能都清晰说明了什么情况下适用、应该怎么做以及涉及哪些具体的操作步骤。这些技能条目就像是一本不断更新的临床操作手册既简洁可读又具有普遍适用性。更重要的是SkeMex还会持续评估每一条技能到底有没有用。每次使用某条技能之后系统会根据最终的临床结果来给这条技能打分——如果这条技能帮助AI做出了正确的判断它的评分就会提高如果它导致了错误评分就会降低。这种机制就像是对技能的绩效考核确保记忆库里留下来的都是真正经过实战检验的有效经验。**三、记忆仓库的三层结构通用智慧、专科经验与操作技巧各司其职**在SkeMex的设计中所有提炼出来的技能条目被组织进一个三层结构的记忆仓库三个层次分别承担不同的职责彼此互补。第一层叫做通用技能库存放的是那些跨越科室、跨越疾病类别都适用的普遍性思维方法。举个例子当第一次搜索没有找到直接答案时换个关键词或者用更宽泛的术语重新搜索而不是重复同一个查询——这条经验无论是在诊断罕见病、制定治疗方案还是回答患者问题时都管用因此放在通用层。第二层叫做任务级技能库存放的是针对特定临床任务类型的专门经验。比如在处理疑似心脏病发作的急诊案例时应先调用药物相互作用检查工具再进行最终用药决策——这条经验只在特定类型的任务中有价值因此单独归类存放。第三层叫做操作技能库存放的是使用特定工具时的精细化操作经验。比如调用影像分析工具时如果传入的是X光片而非CT扫描需要在查询里额外注明影像类型否则模型会做出错误的判断——这种非常具体的操作细节正是在真实使用中一点点积累出来的宝贵经验。这三层结构的设计解决了一个在记忆系统研究中长期存在的混乱问题以前所有经验都混在一个池子里通用的和专用的相互干扰在使用时很容易检索到不匹配的经验反而帮倒忙。三层分离之后每一类技能在自己的专属空间内管理相互之间不再竞争检索时也可以更有针对性地从不同层次各取所需。**四、四步闭环读取、写入、评估、治理让记忆持续进化**SkeMex的运作可以用一个词来概括闭环。它设计了一套完整的读取—写入—评估—治理的循环机制让记忆仓库在每一次临床交互之后都能变得更好。在读取阶段当一个新的临床任务到来时系统会先对任务进行分类——比如这是一个鉴别诊断任务还是治疗方案制定任务——然后根据分类从记忆仓库里检索出最相关的技能。检索时不只看技能内容与当前任务的语义相似度还会综合考量每条技能历史上的实际效果评分以及这条技能最近是否经常被使用并产生了正面效果。这种多维度的综合评分就像图书馆里的智能推荐系统既考虑书的内容是否相关也考虑这本书读者评价如何以及最近是否有人推荐。在写入阶段每次完成一个临床任务后系统会审视整个诊疗过程判断其中是否有值得提炼的新经验。这个审视过程有一个重要的过滤机制太简单的成功三步以内就解决了的任务不值得提炼因为它们很可能只是运气好纯粹的工具调用失败也不值得提炼因为那只是技术错误不涉及临床智慧而那些经过多步推理、反复验证才得出结论的案例无论最终成功还是失败都往往蕴含着值得总结的经验。通过了过滤的案例系统会进行一个两步的提炼过程先分析案例中的核心模式和关键转折点再把这个模式转化为一条结构化的技能条目或者对现有的某条技能进行补充修正。在评估阶段系统用一种类似考试成绩排名的方法来评估每条技能的表现。具体来说每次技能被使用后系统不是直接看这次任务的绝对结果而是与同类任务的平均水平相比较——如果使用了这条技能后结果比平均水平好技能得分提高如果比平均水平差技能得分降低。这种相对评估的方法解决了医疗任务中一个棘手的问题有些疾病本身就很难处理即使做得已经很好了绝对结果可能看起来也不理想而有些疾病很简单随便处理都能成功。把技能表现与类别平均值对比才能公平地判断技能本身的价值。在治理阶段系统会定期对记忆仓库进行大扫除。内容高度相似的技能会被合并避免冗余长期得分低落、屡屡帮倒忙的技能会被降级甚至删除而那些经过大量实战验证、长期保持高分的技能则会被晋升为成熟技能的特殊状态在未来的检索中会获得额外的优先权。这种机制让记忆仓库不会无限膨胀也不会被历史错误长期污染保持在一个精炼、可靠的状态。**五、用数字说话SkeMex在九个临床数据集上的表现**研究团队在九个不同的医疗评测数据集上检验了SkeMex的效果这些数据集覆盖了从互动式诊断对话到多选题推理从纯文字案例到包含医学影像的多模态任务代表了临床AI面临的各种真实场景。在离线测试中——也就是先用一批案例积累技能记忆再用另一批全新案例测试效果——以DeepSeek-V3.2作为基础AI模型SkeMex让原本的医疗AI系统从48.20%的平均正确率提升到了56.08%整整提高了接近8个百分点。而与其他同类记忆增强方法相比SkeMex的表现比排名第二的方案高出了将近4个百分点。使用另一款AI模型Qwen3.6-Plus时SkeMex让系统从48.63%跃升到59.22%提升幅度超过10个百分点。更能说明问题的是迁移测试——把用某些数据集积累的技能记忆直接用在训练阶段从未见过的全新数据集上。这是检验AI系统是否真的学到了通用临床智慧而非只是记住了特定数据集特点的金标准。在这个测试中SkeMex在DeepSeek-V3.2上的平均表现比普通医疗AI高出了13.78个百分点比最好的竞争方案还高出了5.44个百分点。其中在AgentClinic文字版这个互动诊断数据集上SkeMex的提升幅度高达34.11个百分点展示出惊人的迁移学习能力。在在线测试中——让系统在处理任务的同时实时更新记忆连续运行三轮——SkeMex从第一轮的76.39%稳步提升到第三轮的78.56%展示了持续学习的能力。相比之下一些竞争方案在更新记忆后反而出现了性能下滑的情况说明它们的记忆更新机制引入了新的错误信息而SkeMex的过滤和评估机制有效避免了这个问题。**六、技能能跨越AI模型传递一个意外的重要发现**研究团队在实验过程中发现了一个非常有意思的现象用DeepSeek-V3.2积累的技能记忆仓库不经过任何修改直接拿来给完全不同的AI模型使用效果依然相当不错。具体来说研究者把DeepSeek-V3.2积累的技能库直接插入到Claude Sonnet-4.6和Qwen3.6-35B-A3B这两个完全不同架构的AI模型中测试它们的临床表现。结果显示Claude Sonnet-4.6使用这个跨模型技能库后平均准确率从49.59%提升到了60.27%提升幅度达到10.68个百分点Qwen3.6-35B-A3B则从47.71%提升到了58.23%提升幅度超过10个百分点。这个发现深刻说明了SkeMex技能库的本质它存储的不是特定AI模型的回答方式或语言风格而是真正通用的临床推理程序——在什么情况下该做什么这种逻辑对任何善于理解语言的AI模型都是有价值的。换句话说这套技能库就像一本写给任何医生都能读懂的操作手册而不是专门为某位医生量身定制的个人笔记。对于实际应用来说这意味着一种很有吸引力的可能性一家医院可以用一个强大的AI模型积累临床经验然后把这套经验直接传授给其他模型使用而无需让每个模型都从头重新积累大大节省了时间和计算成本。**七、拆解SkeMex每个设计决策都有它的道理**研究团队做了大量的消融实验——也就是逐一拆除系统的某个组件看看性能会如何变化以此验证每个设计决策的必要性。在记忆写入部分他们发现如果取消对进入记忆仓库的轨迹进行过滤不再区分有价值的案例和无价值的案例全部写入系统的平均准确率从53.22%骤降到47.56%降幅接近6个百分点。这是所有消融实验中最大的单项降幅清楚地说明只存好的、过滤坏的这个看似简单的原则实际上是整个系统最重要的设计之一。在技能评估部分他们发现如果去掉与类别平均水平相比较这个相对评分机制改用绝对分数来评估技能准确率会在多个数据集上出现显著下滑在LiveMedBench上甚至下降了7个百分点。这证明了那个直觉上可能有些反常的设计——评估一个技能好不好不能只看绝对结果而要放在类似任务的背景下做相对评价。在三层记忆结构部分他们测试了只使用其中一层或两层的情况。结果显示任何单层或双层的组合表现都不如三层完整结构。特别值得注意的是仅有通用技能层加操作技能层的组合缺少任务级技能层表现比完整结构差了4.57个百分点说明面向特定类型任务的专项经验不是可有可无的锦上添花而是整个系统不可或缺的重要组成部分。在记忆治理部分他们发现去掉技能成熟晋升机制导致了5.62个百分点的下降——这是治理相关实验中最大的单项损失说明区分经过充分验证的稳定技能和刚刚创建的试用技能对于系统的长期可靠性至关重要。去掉技能淘汰机制或去掉重复合并机制同样各导致了接近3到4个百分点的下降。**八、运行效率的真实代价更深的思考需要更多的时间**既然SkeMex能让AI系统变得更聪明那它的代价是什么研究团队在论文中对执行效率进行了详细的统计。从每个任务的平均交互步数来看不使用记忆增强的普通医疗AI平均只需要3.17步就完成一个任务而SkeMex平均需要4.77步。这个差距在一些复杂数据集上尤为明显——在LiveMedBench上SkeMex平均需要6.139步而普通AI只需要3.578步。步数增加的原因很直接检索到的技能往往会引导AI去做更多的求证步骤比如先调用工具获取更多信息、再进行分步验证而不是直接凭直觉给出答案。从耗时来看SkeMex平均每个任务需要约116秒而普通医疗AI只需要约54秒。每一步的平均用时SkeMex约为24秒也高于普通AI的17秒原因之一是技能检索本身需要额外的时间另一方面也是因为注入的技能内容使得每次模型调用的输入更长处理时间也更长。不过有一个有趣的例外在HealthBench这个数据集上SkeMex的平均耗时反而比普通AI还要短52秒 vs 64秒。研究团队的解释是当检索到的技能与当前任务高度匹配时AI能更快地找到正确路径减少了无效的探索步骤整体上反而比无经验的漫无目的尝试更高效。这个发现暗示了一种可能在足够丰富的技能积累之后SkeMex的效率提升效应可能会逐渐超过其带来的额外开销。**九、从研究到现实这套系统解决的是医疗AI的根本难题**归根结底SkeMex触及的是一个关于AI系统如何成长的根本问题。当前大多数AI系统的成长方式非常笨拙要么通过昂贵的重新训练来学习新知识要么就干脆不成长永远停在训练结束时的水平。SkeMex提供了第三条路让AI通过积累经验来成长但经验不是原封不动地堆放而是被提炼成可复用的知识经过实战检验后保留下来经过反复验证后升华为成熟的临床智慧。这种成长方式在不修改AI模型任何参数的前提下实现意味着它可以非常灵活地与各种现有系统集成也意味着它天然规避了重新训练带来的灾难性遗忘风险。研究团队在实验中证明这套机制在九个不同类型的医疗评测场景中都能稳定地提升AI表现在从未见过的新场景中也能迁移有效并且适用于多种不同架构的AI基础模型。当然研究团队也坦诚地指出了现有系统的局限当前的测试数据集无法完全模拟真实临床环境的复杂程度额外的推理时间对某些对响应速度要求极高的应用场景可能构成障碍此外如果AI系统提炼出了错误的技能规律而没有被评估机制及时识别这些错误经验也可能反过来影响之后的判断因此人类的监督和审核仍然不可或缺。说到底SkeMex代表了一种令人信服的思路转换与其让AI成为一个永远保持原样的知识储存器不如让它成为一个能够从实践中不断提炼智慧的临床学习者。医疗AI是否真的能像一位随着岁月变得愈加睿智的老医生那样成长这个问题的答案正在这项研究中一点点变得清晰。对于这个领域感兴趣的读者可以通过arXiv编号2606.09365查阅原文亲自品味其中更多的技术细节。---QAQ1SkeMex的技能记忆仓库里存的是什么ASkeMex存储的不是完整的诊疗对话记录而是从那些记录中提炼出来的结构化技能条目。每条技能清晰说明了在什么情况下适用、应该怎么做以及涉及哪些操作步骤。这些技能分三层管理通用推理方法、面向特定任务类型的专项经验以及特定工具的精细操作技巧三层各司其职互不干扰。Q2SkeMex如何判断一条技能是好是坏ASkeMex采用相对评分而非绝对评分。每次技能被使用后系统会把这次任务的结果与同类任务的历史平均水平相比较——结果高于平均则给技能加分低于平均则扣分。这样做是因为不同医疗任务本身的难度差异很大用绝对结果评价技能会产生严重的不公平而与同类任务比较才能真正衡量技能本身的贡献。Q3SkeMex积累的技能可以给不同的AI模型共用吗A可以。研究团队做了专门的实验把用DeepSeek-V3.2积累的技能库直接给Claude Sonnet-4.6和Qwen3.6-35B-A3B使用结果两个模型的表现都提升了超过10个百分点。这说明SkeMex存储的是通用的临床推理逻辑而非特定模型的偏好任何能理解语言的AI模型都能从中受益就像一本任何医生都能读懂的操作手册一样。