“我们的模型始终在训练”——打破预训练与后训练的边界Engram联合创始人Dan Biderman认为把提示词调到极致也比不上等一个新版本。这一判断成为了这家公司创立的起点。当整个行业都在专注于上下文工程、RAG、工具调用时Biderman和搭档Jessy Lin却另辟蹊径将目光投向了训练。他们并非要训练更聪明的模型而是训练模型去记住用户。Biderman出身神经科学Lin来自NLP与认知计算方向二人组建了一支小而精的团队成立了名为“Neolab”的新兴AI实验室。Engram不做通用大模型其客户是那些需要让AI真正理解自身业务的团队像Notion、Microsoft、Harvey等公司已用它训练自己的“专属模型”使引擎能像老员工一样记住每一次决策、每一轮迭代和每个领域特有的暗知识。在本期45分钟的播客专访中两位风投背景的主持人追问核心问题当AI模型足够聪明下一个瓶颈是什么Engram给出的答案很明确——记忆。不是把更多东西塞进上下文窗口而是让记忆刻进模型的权重里。Engram架构把公司知识“烘焙”进模型权重Engram官网有句话引发主持人追问“我们不从预训练或后训练的视角看世界。我们的模型始终在训练。”Jessy Lin解释道如今的模型已很聪明但让其更有用的瓶颈不再是原始智能而是理解新的、持续变化的上下文比如新任务或公司特有的工作方式。问题在于如何把这些内容像预训练“法国首都是巴黎”那样深深刻进模型的权重里。Dan用比喻补充说人类每天睡醒回到工作大脑不仅有笔记还有新直觉知道该往哪儿看、怎么想。而现在的AI解决方案是外部化记忆将东西写进上下文和笔记但存在两个问题一是每天产生的token会达数千万级别检索成本极高二是外部记忆只有查找没有真正理解。两人认为上下文工程、RAG、工具调用都有价值但训练这个工具被严重低估。可以用前沿实验室训练顶级数学/代码模型的方式训练任何垂直领域、任何公司的私有数据。记忆到底该不该放进权重——RAG的局限Engram的工作可概括为训练每个团队的专属模型使其深度理解团队上下文并随时间持续进化。Jessy描述了产品工作方式他们接入Notion、Microsoft、Harvey等有大量长期工作数据的平台将文档、对话、反馈等日常工作产生的原始信号转化为训练数据再通过LoRA等adapter微调技术把这些知识“烘焙”进模型的权重。目标不是“在推理时把文件读一遍”而是让模型像在公司工作多年的老员工一样理解公司知晓公司战略方向理解做事方式熟悉招聘流程、写作风格和内部惯例能不检索文档直接给出准确答案。Dan给出量化对比当前最好的前沿模型回答公司内部知识问题可能需消耗10万个token来检索和推理而Engram训练好后同样问题可能只需100个token节省幅度达100倍。技术上Engram需要白盒访问模型权重因此更倾向开源模型也可与有闭源权重的公司合作。任何基于Transformer架构的模型都能接受Engram的处理。什么叫“重要的事才记”——遗忘是智能的一部分主持人追问RAG难道不能解决问题吗Dan用类比回答需要内化每天使用的门禁密码但无需内化去年酒店的房间号写下来即可。但他也指出RAG的核心局限即难以知道该搜什么。检索系统解决“存什么、放哪里”的问题而“知道该找什么”才是难题。很多有价值的关联无法预先查询如看到团队某人做研究凭直觉想起相关事情这种联想只能发生在权重里而非检索系统。Jessy补充依赖RAG只能做静态检索无法在知识上累积和组合就像只看笔记而不消化理解不会加深。Dan更直接地说Engram的方向在某种意义上是“RAG killer”并非RAG没价值而是对于需真正内化的知识训练进权重是更优选择。为什么大模型厂商自己不做这件事一个哲学问题浮现大模型把所有事实记进权重是优点还是缺点Jessy认为无法完全分离事实记忆和技能记忆有些研究者尝试剥离模型里的“事实”只保留“算法能力”结果模型变得不自然连基本问题都答不上来。需要内化一些东西才能构建更抽象的概念。但她也承认不是所有事实都值得记现有的学术benchmark常要求模型记住“某个非洲国家某座桥的长度”这类信息没必要占用模型容量。Dan从神经科学视角分析人类记忆是有损的这不是缺陷而是智能的一部分即压缩重要的过滤不重要的。深度学习的神奇之处在于梯度下降能把海量信息压缩进极少数参数里。70B的Llama模型参数文件约100GB却能记住整个互联网的精华而缓存一篇泰勒·斯威夫特的维基百科文章的KV cache需80GB的GPU内存将几十KB的文字变成了80GB的“大脑状态”。他的结论是训练就是压缩。若能把80GB离线压缩成几百兆加载速度会快1000倍这对整个推理基础设施有颠覆性意义。记忆钱包、个人模型与终极愿景主持人尖锐提问OpenAI、Anthropic等前沿实验室为何不自己做持续学习Dan坦率回答前沿实验室的首要目标是AGI即编程和数学上极度通用的超级模型。推进AGI的路径明确即更多预训练、更大模型、更多数据、更多RL、更多推理计算这占据了他们95%的精力和资金。他认为大厂并非没想过记忆和持续学习DeepMind的Demis Hassabis在Sequoia活动上就说过“这个领域需要新突破”但对大厂来说这更多是产品层面的问题未被当作核心研究挑战。Jessy补充这个问题需要研究和产品深度整合。在大厂现有模式中研究者训好模型交给产品团队产品团队再做上下文工程和提示词工程。而在Engram的模式里用户的每一次交互就是训练信号研究和产品必须在同一个闭环里运转这是不同的组织方式。她还提到每个人、每家公司想要的东西往往是私有的、冲突的比如写作风格和工作流不同这些不会出现在后训练数据集里。语言 vs 视觉——一个“疯狂理论”对话最后主持人畅想未来是否会有“记忆钱包”能把在某家公司学到的技能、养成的工作方式带到下一份工作。Dan认为这是终极目标之一在工作中创造的价值IP和机密留给公司但自己学到的技能和独特思考方式经过“消毒处理”后应能带走。数字化版本会更有趣能让人们将AI更深融入工作并获得回报。Jessy的愿景更具体即人人都有自己的模型与前沿模型不同服务于个人或团队。Dan用神经科学的发现收尾大脑中负责记忆和导航的神经回路几乎相同记忆本质上是认知空间里的导航。他想象中的Engram是“神经接口”不是文件系统的索引而是对整个数据平面的大脑状态表示关联性更强、效率更高、更贴近人类理解信息的方式。他说“这有点像Databricks或Oracle只不过我们存的是神经记忆模型是个性化的而且会有数亿个。”播客临近尾声主持人Sean分享“疯帽子理论”探讨为何语言模型最终超越视觉模型。他假设生物界中视觉信息带宽远超语言所以大脑把更多“计算资源”分配给视觉。但在计算机世界里视觉和语言的处理成本被“拉平”语言模型获得了公平竞争机会。Dan和Jessy认为这个方向有一定道理但也提醒人类现在的大量知识工作如写备忘录、读文档、和AI聊天并非大脑进化设计的任务而语言AI恰好擅长。视觉在图像/视频领域仍有巨大潜力但在知识工作方面语言暂时占优。