AI大模型的思维过程终于可以被看懂了
这项由中国科学院软件研究所中文信息处理实验室联合中国科学院大学开展的研究以预印本形式发布于2026年6月22日论文编号为arXiv:2606.23404有兴趣深入了解的读者可以通过该编号查询完整论文。当一个顶尖AI模型在思考一道数学题时它的内心独白可能长达数万字。这些密密麻麻的文字就像一个天才学生的草稿纸里面充斥着尝试、放弃、回头、再尝试……对于想要搞清楚AI到底是怎么想的的研究人员来说这就好比要在一个没有任何标注的巨大迷宫里找到一根断掉的线头。这个难题催生了一个新系统——REASONINGLENS推理透镜。它的核心使命只有一个把AI那团乱麻般的思维过程变成一张清晰可读的地图。一、为什么AI的思维草稿越来越难读懂近年来DeepSeek-R1、GPT-5、Qwen3这类被称为大推理模型的AI系统相继问世。与普通AI不同这类系统在给出答案之前会把自己的推理过程一步一步写出来就像数学考试要求学生写出解题过程一样。这个过程被研究者称为思维链Chain-of-Thought简称CoT。思维链的出现本来是为了提升透明度让人们能看到AI是如何一步步推导出答案的。然而随着AI能力越来越强它的思维草稿也变得越来越长动辄数万个字符。关键的逻辑推断被淹没在大量程序性文字之中就像在一篇杂乱无章的文章里寻找核心论点——表面上信息更多了实际上反而更难理解了。这种现象让研究人员陷入了一个两难困境AI越聪明它的思考过程就越长思考过程越长就越难被人类检查和验证。更重要的是如果AI在推理过程中出现了错误这个错误可能就像一粒沙子藏在沙漠中几乎无法被发现。研究团队把这种现象称为透明度负担。此前也有一些研究尝试把AI的推理过程可视化比如把它画成图表但这些方法大多停留在画出来看起来好看的层面缺乏一套系统性的分析框架。它们可以告诉你AI写了什么但无法告诉你AI的策略对不对、哪里出了问题、应该怎么修。研究团队指出可视化工具不应该只是装饰品而应该是真正的诊断工具。正是为了填补这个空白推理透镜系统被设计出来了。二、给AI的思维过程建一张三层地图推理透镜的第一个核心功能叫做层级可视化可以把它理解为给AI的思维过程绘制一张分层次的地图。要绘制这张地图首先需要一套语言来描述AI的各种思维动作。研究团队设计了一套行为分类体系把AI在推理过程中的各种动作分成两大类型。第一类叫做探索级行为指的是AI在宏观层面做的战略决策就像下棋时决定走哪个方向。这类行为包括三种具体动作一是分解即AI遇到复杂问题时把它拆成几个小问题分别攻克就像把一道大菜的食谱拆解成采购、备料、烹饪三个阶段二是回溯即当某条路走不通时AI会退回到之前的某个决策点重新选择就像在迷宫里碰壁后原路返回三是验证即AI会在确认答案之前先检查一遍自己的中间结果就像做完作业后再从头检查一遍。第二类叫做利用级行为指的是AI在微观层面执行的具体操作步骤就像棋手在决定了大方向之后每一步棋的具体落子方式。这类行为同样包含三种一是知识提取即AI从自己的记忆库中调取与问题相关的知识就像解题时回忆起曾经学过的某个公式二是程序执行即AI按照规则对已有信息进行计算或变换得出中间结果就像把公式代入数字进行计算三是状态声明即AI明确记录下当前的推理结论让这个结论可以在后续步骤中继续使用就像在草稿纸上圈出一个重要的中间答案。有了这套分类语言推理透镜就可以把AI那一大段文字切分成一个个规划单元每个单元对应一个具体的思维动作。这个切分过程会借助AI写作时常用的转折词来实现——比如但是、等等、换一种方法试试这类词语往往标志着AI正在切换思路是天然的分割点。切分完成后推理透镜会在两个层次上建立图形化的表示。在宏观层次系统会把多个相关的规划单元合并成一个宏节点代表AI的一次重要战略行动比如分解问题或验证结论。这些宏节点通过向前推进、回溯、独立验证等关系连接起来构成一棵树状图直观展示AI推理的整体路径。在微观层次针对用户感兴趣的某个具体宏节点系统会进一步展示其内部的执行细节揭示局部推理步骤之间的依赖关系。用地图来打比方的话宏观图相当于城市之间的高速路网告诉你大方向微观图相当于城市内部的街道告诉你具体怎么走到目的地。研究人员可以根据需要在这两个层次之间自由切换就像在地图软件上缩放视图一样。三、给AI的推理过程安排一位诊断医生光能看清楚还不够推理透镜的第二个核心功能是主动发现问题研究团队把这个模块叫做主体诊断。为了让诊断有据可查研究团队首先梳理出了AI推理过程中最常见的五类错误建立了一套错误分类体系。第一类叫做过度思考指的是AI在本可以直接得出答案的地方反复绕圈子验证或者把简单问题复杂化浪费大量计算资源却没带来更好的结果。第二类叫做安全问题指的是AI在探索多种可能性的过程中可能无意中生成了有害内容或者泄露了敏感信息就像一个思路开阔的学生在头脑风暴时说了不该说的话。第三类叫做知识错误指的是AI记错了事实、使用了过时的信息或者误用了某个定义就像把光速记成了错误的数值。第四类叫做逻辑错误指的是AI的推理步骤本身有问题比如前后矛盾、跳跃推断就像从天在下雨直接推出地球要毁灭这种荒谬跳跃。第五类叫做形式错误指的是AI在数学公式、编程代码或特殊符号格式上出现了规则性失误比如除以了零、括号没有匹配等。为了自动检测这些错误推理透镜配备了一个由多个AI智能体协作组成的诊断系统。这个系统由三个模块组成像三位分工明确的医生一起会诊。记忆模块负责逐段阅读AI的推理过程把已经读过的内容压缩成摘要保存下来同时保持对整体推理脉络的把握确保在发现局部小错误的同时不会失去整体视角。验证模块则在发现可疑之处时主动调用外部工具——比如计算器、搜索引擎——来独立核实AI的计算或事实陈述就像怀疑一道算术题的结果时用另一种方法再算一遍。建议模块在确认错误之后不只是报告这里有问题还会给出具体的修正建议告诉用户可以采用哪些方法来避免类似错误复发——这些建议覆盖两个方向一是不需要重新训练模型的即插即用方法二是通过后续训练从根本上改善模型行为的方法。这三个模块协同工作把诊断过程从被动观察变成了主动介入。四、给整个AI模型做一份体检报告解决了单次推理的透明度问题之后研究团队还想更进一步能不能通过分析大量的推理案例给一个AI模型整体上画一张性格素描这就是推理透镜的第三个功能——系统画像。这个功能的逻辑是这样的单次诊断告诉你某一次推理哪里出了问题就像一次体检告诉你今天身体状况如何而系统画像则通过汇总大量推理记录找出这个模型在整体上的规律性倾向就像通过多年体检数据发现你有高血压家族遗传倾向一样。具体来说系统画像模块会把大量推理轨迹的树状图和错误信号汇聚在一起提取出跨案例的共同特征比如这个模型在什么类型的问题上特别爱回溯、错误最集中在哪几种类型。然后系统会用AI语义去重技术把意思相近的推理路径合并保留具有代表性的不同模式形成一个精炼的证据库。最终系统画像会沿三个维度给出综合分析在探索习惯维度分析这个模型倾向于深入钻研还是广泛尝试在验证可靠性维度分析这个模型的自我检查是否一致可靠在稳定性瓶颈维度找出那些容易导致推理质量大幅波动的结构性弱点。这份体检报告可以让研究人员对不同AI模型进行横向比较找到各自的优势和盲点为模型改进提供有据可查的方向。五、用真实数据检验这套系统好不好用设计出工具之后研究团队需要验证它到底有多准确于是他们构建了一套专门用于评测的基准数据集取名LENSBENCH。LENSBENCH的建立过程颇为严谨。首先研究团队从一个公开的长思维链数据集中筛选种子案例要求每个案例的推理过程至少包含10个规划单元以保证足够的复杂度同时过滤掉多语言混用的案例减少注解噪声再用GPT-5.4自动过滤掉那些原本就存在推理错误的案例得到一批干净的基础样本。接下来研究团队对这批干净样本做了两类标注。一类是结构标注由GPT-5.4按照前面介绍的行为分类体系标出每段推理文字属于哪种探索级行为为后续评测提供标准答案。另一类是错误标注由于自然发生的推理错误在不同类型之间分布严重不均研究团队选择人为地、有控制地向干净样本中注入各类错误确保五种错误类型都有足够的案例用于评测。所有标注完成后研究人员还进行了人工复核把那些注入不自然、标注有歧义或结构不合理的案例全部剔除。最终数据集包含130个经过严格核查的案例为推理透镜的两大核心功能——层级可视化和主体诊断——各提供了评测基准。在评测框架上研究团队使用了两个主要指标来衡量层级可视化的质量。一个叫节点类型准确率衡量系统对每个推理节点的功能类型判断是否正确另一个叫图编辑相似度衡量系统生成的推理图与人工标注的标准图之间整体结构的相似程度。对于主体诊断功能则使用了精确率、召回率和F1分数来评测系统对每类错误的识别能力。六、实验结果说明了什么研究团队用五个不同的AI模型作为推理透镜的大脑来运行诊断任务这五个模型分别是DeepSeek-V4-Pro、MiniMax-M2.7、Qwen3.5-27B、Gemma-4-26B-A4B和Qwen3-32B覆盖了多个不同来源和规模的模型家族。在错误诊断方面最强的组合以DeepSeek-V4-Pro为核心达到了82.3的综合F1分数最弱的组合Qwen3-32B也达到了66.3说明推理透镜的诊断能力随着所用模型的能力增强而提升存在明显的规律性关系。从各类错误的检测情况来看安全问题类错误在所有模型上都检测得最准确五个模型的F1分数都在89分以上最高达到98.5这说明AI模型在识别安全边界方面已经相当敏感。相比之下知识错误和逻辑错误的检测难度最大最弱模型上的F1分数分别只有39.0和34.6但在更强的模型上会明显改善说明这类深层推理错误的识别对于执行诊断的AI本身的推理能力要求很高。在层级可视化方面五个模型的节点类型准确率平均达到75.0图编辑相似度平均达到69.7。更值得关注的是即使在错误诊断能力差距悬殊的情况下可视化模块的表现依然相当稳定。研究团队认为这是因为层级可视化本质上是把一个很长的理解任务分解成了很多个局部的小标注任务从而降低了对模型能力的依赖。案例分析进一步印证了这套系统的实用价值。研究团队对Qwen3-32B处理一道传播学问题的推理过程进行了完整分析系统不仅准确识别出了推理轨迹中隐藏的不安全操控策略和冗余的过度思考行为还在如何修复面板中给出了早期停止等具体的干预建议而这些错误在原始文字流中几乎无法被察觉。说到底推理透镜这项工作的意义在于它把一个长期被当作黑箱对待的过程——AI的推理思考——变成了一个可以被拆解、检查和诊断的结构化对象。随着AI推理模型的能力持续提升它们产生的思维链只会越来越长、越来越复杂而人类对这些思维链的理解和掌控却面临越来越大的压力。这套系统提供了一条切实可行的路径让研究人员能够系统性地审视AI的内部逻辑而不只是停留在它给出了正确答案这个表面结果上。当然目前的推理透镜也有明确的局限性。它主要面向静态的思维链文本对于AI在与外部环境真正交互时产生的动态推理过程——比如AI一边浏览网页一边决策——还无法很好地分析。研究团队表示下一步计划把系统扩展到这类计划-行动-观察的循环交互场景中。此外目前系统的部署方式还比较整体未来希望把它拆分成可以灵活插拔的模块方便集成到AI训练过程的监督环节中去。归根结底这项工作最重要的贡献不是某一个具体的技术方法而是一种思路的转变对AI推理过程的研究不应该只是看一看、画一画而应该建立在严格的分类体系之上形成从结构化理解到主动诊断再到系统画像的完整闭环。这对于任何希望AI系统更加透明、更加可靠的人来说都是一个值得关注的方向。有兴趣深入了解的读者可以通过论文编号arXiv:2606.23404查阅完整内容相关代码和数据集均已开源。QAQ1推理透镜REASONINGLENS是什么A推理透镜是中国科学院软件研究所开发的一套开源分析框架专门用于解析大型AI推理模型在回答问题时产生的超长思维链文本。它能把一大段杂乱的AI思维草稿转化成分层的可视化图表同时自动检测其中隐藏的各类推理错误并给出修复建议。Q2LENSBENCH测试集是怎么构建的ALENSBENCH由研究团队从公开数据集中筛选高质量推理案例经过结构标注和人工错误注入两个步骤制作而成。为了保证五类错误过度思考、安全问题、知识错误、逻辑错误、形式错误分布均衡团队选择向干净案例中人为插入错误最终经人工复核保留了130个高质量标注案例。Q3推理透镜能检测出哪些AI推理错误A推理透镜目前覆盖五类推理错误。过度思考指AI反复验证简单问题浪费资源安全问题指推理过程泄露敏感信息或生成有害内容知识错误指AI记错事实或使用错误定义逻辑错误指推理步骤前后矛盾或跳跃推断形式错误指数学公式或代码出现语法、计算规则违规。