这项由香港理工大学研究团队完成的研究以预印本形式发布于2026年6月8日论文编号为arXiv:2606.09585感兴趣的读者可通过该编号查阅原始论文。人类用语言思考已经司空见惯但如果有一天AI不再用文字想问题而是直接用图片来推理呢这个听起来有些奇特的想法正是这篇论文的核心出发点。香港理工大学的研究团队大胆地问了一个问题我们能不能把推理过程本身变成一张图片要理解这个想法的意义先得从AI是怎么想问题说起。现代大型语言模型也就是类似ChatGPT这样的AI在回答复杂问题时通常不会直接蹦出答案而是先一步步地把思路写出来就像我们在草稿纸上列算式一样。这种方法叫做思维链Chain-of-Thought简称CoT它能让AI在解数学题、做科学推理时表现好得多。然而这种方法有一个实实在在的成本文字推理步骤会消耗大量的令牌token可以粗略理解为AI处理信息的基本单位有点像计算机处理文字时的基本收费单元。推理步骤越长消耗越多速度越慢费用越高。随着多模态AI能同时理解图片和文字的AI的发展研究者们开始尝试把图片也塞进推理过程里让AI在想问题时既用文字又用图片。这个方向被称为交错模态推理。而香港理工大学的研究团队则更进一步提出了一个更激进的设想干脆把整个推理过程都用图片来呈现完全抛弃文字形式的中间步骤——他们称之为光学推理Optical Reasoning。研究结果相当亮眼在数学、科学和多模态推理等多个测试场景中光学推理不仅能达到甚至超过传统文字推理的准确率同时还能将推理所需的令牌数量平均削减28.57%语言任务到16%多模态任务整体令牌使用效率是传统文字推理的近两倍。---一、什么是光学推理从草稿纸到图片画布的转变要理解光学推理可以用一个生活场景来类比假设你需要向朋友解释一道几何题的解题过程。你有两种选择一种是用文字一句一句地描述首先角A等于角B因为……然后根据……可以推导出……另一种是直接画一张图在图上标注关键角度、画出辅助线、写上关键公式让人一眼就能看清楚整个推理脉络。光学推理选择的就是第二条路。它把AI的推理步骤渲染成一张图片然后让AI通过看图来提取推理信息最终得出答案。在学术框架上研究团队把这个过程描述得相当严谨。传统文字推理的流程是给AI一个问题AI生成一段文字推理步骤然后根据这段文字推导出答案。而光学推理的流程是给AI一个问题同时给它一张包含推理步骤的图片AI通过视觉编码器把图片转化为视觉令牌再根据这些视觉令牌得出答案。这里有一个关键概念值得解释清楚所谓渲染rendering就是把文字内容转化为图片的过程。就像一个文字编辑器可以把你打的字转化为PDF文件一样研究团队使用专门的工具把推理步骤变成了视觉化的图片。研究团队具体实现了两种不同风格的光学推理分别针对不同的需求场景。---二、排版版光学推理把推理步骤印成一张密集的版面第一种方式叫做排版版光学推理Typographic-based Optical Reasoning简称T-OR。顾名思义它把推理步骤排版成一张类似书页或报纸版面的图片——密密麻麻的文字、公式整齐地排列在图片上就像一本压缩得很紧凑的教科书页面。这种方法背后有一个精巧的设计思路如何在有限的图片空间里塞进尽可能多的信息同时又不能让字太小、排得太挤以至于AI看不清楚研究团队为此设计了一套自动化的排版优化策略。这套策略会在多种字体大小和文本宽度组合中进行搜索寻找最佳方案。具体来说系统会评估每种排版方案的版面填充率有多少版面被内容填满避免浪费空白同时也会惩罚那些过于拥挤或过于宽松的布局。综合这两个维度系统会选出在给定令牌预算下得分最高的排版方案。实现这套系统用到的是一个叫做XeLaTeX的排版工具——这是LaTeX排版系统的一个变种常被学术界用来排版论文可以精确控制字体、公式、图片的布局。系统会搜索不同的文本宽度和字体大小组合先进行粗粒度搜索找到满足令牌预算的候选方案后再对字体大小进行细粒度微调最终找到内容完整、布局紧凑、可读性良好的最优排版。一个有趣的发现是排版的视觉风格本身对推理效果也有影响。研究团队发现红色字体比黑色字体表现更好而绿色字体效果最差。Heros字体家族表现最佳。太小的字体8号会显著降低准确率而过宽的文本布局6英寸宽也不如较窄的布局2英寸宽效果好。这说明AI的视觉阅读能力对字体对比度和布局紧凑性有一定敏感性就像人类阅读时也更偏好清晰、对比鲜明的版面一样。---三、图形版光学推理把推理步骤画成解题漫画第二种方式叫做图形版光学推理Graphical-based Optical Reasoning简称G-OR。如果说排版版是把推理步骤印成一张报纸那图形版则是把推理步骤画成一张解题示意图或者说一组解题步骤的漫画面板。具体来说G-OR会把整个推理过程拆分成若干个步骤每个步骤对应图片中的一个独立面板。在每个面板里除了关键的文字和公式还会加入与该步骤相关的示意图、空间关系图、几何图形等视觉元素。这样一来一张图片不仅包含了文字推理还包含了帮助理解的可视化辅助信息。以一道关于汽车和建筑物的三角函数题为例排版版会把整个解题过程的文字和公式密集排版在图片上而图形版则会生成一个多面板图第一个面板画出汽车和建筑物的几何关系图并标注初始仰角45°第二个面板展示汽车行驶后的新位置和60°仰角第三个面板则呈现速度和时间的计算推导过程。研究团队用一个叫做Nano Banana 2的图像生成模型来实现这个功能这是谷歌DeepMind旗下Gemini系列的图像生成模型。系统通过一个精心设计的提示词模板要求模型将解题过程转化为紧凑的多面板教育漫画风格图片要求保留关键推理文字和公式使用简洁的形状和清晰的标签保持高对比度的白色背景风格清晰易读。图形版的一个潜在优势在于它能自然地整合空间关系信息。对于几何题、物理题这类需要理解空间位置关系的问题一张示意图往往比几段文字描述更直观。这也是研究团队对图形版寄予厚望的原因——它不仅是文字的压缩替代品更是能利用视觉空间来增强推理的独立媒介。---四、实验结果光学推理在五款顶级AI模型上的表现为了全面验证光学推理的效果研究团队在五款当前最先进的多模态AI模型上进行了测试分别是GPT-5.1OpenAI的最新模型、Gemini 2.5 Flash谷歌的多模态模型、Claude Sonnet 4.5Anthropic的模型、Kimi K2.5国内月之暗面的模型以及Qwen3-VL-235B阿里巴巴的开源多模态模型。测试覆盖了五个不同的推理基准数据集AquaRat代数和定量推理选择题共254题、GSM8K小学数学应用题共1319题、GPQA Diamond涵盖物理、化学、生物的研究生水平科学选择题共198题、ScienceQA包含图片的多模态科学问答共1836题以及Zebra-CoT包含图片和中间推理图片的交错模态推理共300题。基准线设置了两种对比场景一种是无推理只给问题让AI直接回答不提供任何推理步骤另一种是文字推理给问题的同时提供完整的文字推理步骤。光学推理的目标是在使用更少令牌的前提下达到接近甚至超越文字推理的准确率。排版版光学推理T-OR在语言任务上的表现相当出色。在所有模型和语言类基准的组合中有七个模型-基准配对中T-OR的准确率与文字推理持平甚至超越同时平均节省了28.57%的推理令牌。在剩余的未达到文字推理水准的配对中准确率差距平均仅为0.027约2.7个百分点而令牌数量仍减少了20%。多模态任务方面T-OR在五个模型-基准配对中与文字推理持平或超越平均节省16%的推理令牌在落后的配对中平均准确率差距仅0.014令牌却减少了32%。研究团队还引入了一个综合衡量指标叫做边际准确率增益Marginal Accuracy Gain简称MAG用于评估每消耗一千个推理令牌能带来多少准确率提升。按照这个指标视觉推理令牌的效率是文字推理令牌的1.96倍——也就是说同样的计算资源花在图片上产出了将近两倍的效果。从各个模型的表现规律来看不同AI对光学推理的敏感程度不一样。Gemini 2.5 Flash即便在极度压缩的情况下也能维持不错的准确率而Kimi K2.5和Claude Sonnet 4.5则随着视觉令牌数量的增加而更稳定地提升显示出它们对视觉信息密度更高的依赖性。这说明不同AI家族的视觉阅读能力存在差异就像不同人阅读图表的能力也有高有低一样。---五、图形版推理的额外优势以及令人惊讶的极端压缩实验在AquaRat数据集上研究团队进一步比较了排版版T-OR和图形版G-OR的表现差异。结果显示图形版的准确率达到0.8150高于文字推理的0.7323也高于排版版最好成绩的0.7835。这个结果说明图片不只是文字的压缩替代品在某些场景下它作为推理媒介本身具有超越纯文字的表达能力。更令人意想不到的是研究团队进行的极端压缩实验。他们在Gemini 2.5 Flash上测试了把推理图片压缩到极限会发生什么——具体来说他们把平均每道题的推理令牌数量一路压缩到1.2个文字推理需要95.3个。即便在这种近乎荒诞的极端压缩情况下压缩率高达98.75%模型依然能得到高于完全不给推理步骤的准确率0.7008对0.6890。更有趣的是在7.2个令牌的情况下准确率反而达到了最高点0.7992超过了使用完整令牌预算95.6个令牌的排版版0.7362也超过了文字推理0.7323。这个现象暗示了一件非常耐人寻味的事AI可能并不需要把图片中的每一个字都清晰地看出来某种程度上一张高度压缩的、肉眼已经看不太清楚的小图片依然能为AI提供有价值的推理线索。这与光学压缩领域此前的研究发现一脉相承——视觉编码似乎有某种我们还未完全理解的信息保留机制。---六、与现有文字压缩方法的比较以及在模型自生成推理中的验证研究团队还把光学推理与一种现有的文字压缩方法LLMLingua-2进行了对比。LLMLingua-2的思路是直接删减文字推理步骤中的部分内容保留关键信息从而减少令牌数量。在AquaRat数据集上使用相同令牌预算的情况下排版版光学推理在所有对比的令牌预算点上均优于LLMLingua-2。LLMLingua-2在低令牌预算下的准确率甚至下降到与无推理相同0.6890说明简单地删减文字会丢失关键推理信息而光学推理通过2D视觉编码保留了这些信息即便图片分辨率很低关键推理线索也没有完全丢失。此外前面的实验主要使用了公开数据集中预先提供的推理步骤而非AI自己生成的推理步骤。为了验证光学推理在更真实的场景中是否有效研究团队进一步让GPT-5.1自己在GPQA Diamond数据集上生成推理步骤再把这些自生成的推理步骤转化为图片进行测试。结果显示使用自生成推理的光学推理版本在多个令牌预算下都能达到甚至超越自由推理基准即让AI直接生成推理和答案不做任何压缩处理在令牌完全不压缩-0%的情况下准确率为0.6919略高于自由推理的0.6869。这验证了光学推理在真实场景下的实用价值。---七、不同渲染工具对效果的影响以及研究的局限性渲染工具的选择对最终效果也有影响。研究团队在GPQA Diamond上用三种不同的图片渲染工具测试了T-ORPillowPython常用图像处理库、MatplotlibPython常用数据可视化库和XeLaTeX学术排版系统。结果发现不同AI模型偏好不同的渲染风格——Qwen3-VL和Claude在XeLaTeX渲染的图片上表现最佳而Gemini则更喜欢Matplotlib风格的图片。这说明不同AI模型在训练过程中可能见过不同风格的图片从而形成了各自不同的视觉解读偏好。研究团队坦诚地指出了这项工作的两个主要局限性。第一个是模型依赖性问题光学推理对不同AI模型的效果不尽相同受到各模型对分辨率、布局密度、渲染风格和视觉令牌预算的不同敏感性影响。未来的研究可能需要为不同模型定制自适应的渲染策略。第二个局限是图形版推理的可靠性问题AI生成的示意图并不总是准确的。以几何题为例生成的图中标注关键对角线关系的红色线段其位置可能偏离了真正的几何约束。这种图形幻觉是图形版推理引入的新型错误模式而排版版则没有这个问题因为它只是忠实地将文字转化为图片布局不会改变内容本身。---说到底这项研究做的事情可以用一句话概括它证明了AI不一定非要用文字来思考一张图片同样可以承载完整的推理过程而且通常还能用更少的计算资源完成同样甚至更好的工作。这个发现对AI系统的实际应用有相当直接的意涵。当我们使用AI助手处理复杂问题时推理过程的令牌消耗往往是成本和速度的主要瓶颈。如果能把推理步骤压缩进图片既保留了推理的完整性又减少了令牌的消耗那么同样的计算预算就能处理更多的问题或者让AI的响应速度更快、费用更低。对于多模态任务比如需要结合图片信息的问题图形版光学推理还提供了一种自然整合文字推理和视觉空间信息的途径而不需要在文字和图片之间反复切换——所有信息都在同一张画布上。当然还有一些未解之谜值得进一步探索为什么极端压缩后反而有时能提升准确率不同AI模型的视觉理解机制究竟有何不同图形版推理中的图形幻觉问题能否通过训练或后处理来解决这些问题都为后续研究留下了充足的空间。有兴趣深入了解这项研究的读者可以通过arXiv编号2606.09585找到原始论文相关代码也已在论文中提供的GitHub仓库地址公开。---QAQ1光学推理和普通的文字推理相比主要优势是什么A光学推理把推理步骤变成图片而不是一长串文字。这样做最直接的好处是节省令牌——在香港理工大学的实验中语言任务平均节省了28.57%的令牌多模态任务节省16%整体令牌效率是文字推理的近两倍。同时准确率不仅没有明显下降在很多场景下还持平甚至提升了。对多模态任务来说图形版光学推理还能把文字和图形元素整合在同一张画布上这是纯文字推理做不到的。Q2排版版和图形版光学推理有什么区别哪个效果更好A排版版T-OR把推理文字和公式密集排版成图片就像一本压缩的教科书页面内容完全忠实于原始推理步骤主要优势是节省令牌。图形版G-OR则把推理步骤画成多面板示意图加入几何图、流程图等视觉元素更像解题漫画优势是能表达空间关系。在AquaRat数据集上图形版准确率0.8150高于排版版最佳结果0.7835但图形版存在图形幻觉风险生成的示意图不一定准确。Q3极端压缩到只有1.2个令牌时光学推理还有效吗A出乎意料地有效。在Gemini 2.5 Flash上的测试显示即便把推理图片压缩到平均每道题只剩1.2个视觉令牌原来文字推理需要95.3个准确率依然高于完全不给推理步骤的基准。更神奇的是在7.2个令牌的预算下准确率反而达到最高点超过了完整版排版推理和文字推理。这暗示AI从图片中提取推理线索的方式并不完全依赖于高清晰度的视觉可读性低分辨率的图片依然能保留有效的推理信息。