Task Definition作者首先重新定义了Reasoning Segmentation这个任务。传统的语义分割输入通常只是一个类别,例如"bird",模型只需要找到所有鸟对应的像素即可,这实际上几乎不需要推理。而Referring Expression Segmentation则进一步允许输入一句简单描述,例如"woman in blue",模型需要同时理解图像和文本之间的对应关系,定位那个穿蓝衣服的女人。虽然难度提高了一些,但描述依然是直接的,因为文本已经明确告诉了模型应该寻找什么。然而Reasoning Segmentation真正困难的地方在于,用户给出的标签T可能是一句十分抽象甚至隐含语义的话,例如"The unusual thing in the image"(图中最奇怪的东西)或者"能够提供持续能量的食物"。这类描述不会直接对应任何一个类别,而是要求模型先理解语言、分析图像、调动世界知识,再一步一步推导出真正的目标。因此作者认为,整个任务实际上可以拆解成两个完全不同的问题:第一个问题是"目标到底是谁",第二个问题才是"它的像素在哪里"。过去的大多数方法把这两个问题混在一起解决,而Seg-Zero认为,这两个问题应该彻底解耦。Development为什么Seg-Zero这种强化学习+推理模型+分割模型解耦的设计是合理的,它到底填补了哪一个研究空白?整个Related Work实际上分成三条技术发展路线,每一条路线都发展得很好,但是彼此之间一直没有真正结合,而Seg-Zero正是试图把它们融合起来。第一部分首先讨论的是Large Models中的Reasoning(大模型推理能力)。作者想表达的第一个观点其实非常简单:如今的大语言模型已经证明,一个模型真正强大的地方,不再只是知道多少知识,而是能够利用这些知识进行持续推理。过去几年,LLM的发展重点更多放在扩大参数规模、增加训练数据和提高语言生成能力上,但随着GPT系列以及后续模型的发展,研究者逐渐意识到,一个模型回答问题时最大的瓶颈其实不是知识储备,而是推理能力。如果一个模型拥有大量知识,却不会分析问题,那么面对复杂任务时依然会频繁犯错;相反,如果模型能够像人一样一步一步拆解问题,即使面对陌生场景,也能够利用已有知识逐渐找到答案。因此,整个LLM社区开始从"训练更大的模型"逐渐转向"训练更会思考的模型"。这种思想催生了近年来最重要的一个概念——Inference-Time Scaling,也就是"测试阶段推理扩展"。作者这里提到的OpenAI o1正是这一思想的代表。传统模型面对问题时通常直接输出答案,而o1并不会急于回答,而是允许自己在回答之前进行更长时间、更深入的推理。也就是说,它把更多计算资源放在"思考"而不是"回答"上。研究发现,仅仅增加推理过程的长度,就能够显著提升模型解决数学、逻辑推理和复杂规划问题的能力。这说明,大模型真正缺少的并不是知识,而是一个能够组织知识、调用知识和验证知识的推理过程。既然更长的推理过程能够提升性能,那么研究者自然开始思考:怎样才能让模型学会主动进行推理,而不是机械地生成几句看起来像推理的话?于是整个研究社区围绕这个问题提出了许多不同的方法。有些工作构建了专门的Process Reward Model,不再只评价最终答案是否正确,而是评价整个思考过程是否合理,希望模型能够因为"推理得好"而获得奖励;还有一些工作采用搜索算法,让模型在多个候选思路之间不断尝试和比较,从而找到最佳推理路径;而近年来最成功的一条路线,就是强化学习。强化学习最大的特点在于,它并不告诉模型应该怎样思考,而只是告诉模型最终哪种思考方式能够获得更高奖励。模型会不断试错,在大量探索中逐渐形成自己的推理策略。作者特别提到DeepSeek-R1,就是因为它很好地证明了这一点。DeepSeek-R1几乎没有依赖人工标注的大量推理数据,而是利用GRPO强化学习算法,仅经过几千步训练,就能够让模型自然形成复杂的Chain-of-Thought推理能力。这对于整个领域来说具有重要意义,因为它说明推理能力并不一定需要人工教会,而可以通过奖励机制让模型自己逐渐"悟出来"。接下来,作者把视角从纯语言模型扩展到多模态模型。既然语言模型已经能够学会推理,那么处理图像和文本的MLLM是不是也能够拥有类似能力?近年来确实出现了一批这样的研究。例如有的工作让MLLM专门学习数学推理,把图片中的公式、图形与数学逻辑结合起来进行分析;还有一些工作专注于计数问题,让模型能够准确数出图像中目标的数量。这些工作说明,多模态模型已经开始具备一定程度上的推理能力,而不仅仅停留在图像描述或者视觉问答阶段。但是作者指出,这些工作虽然能够处理"高层语义推理",却始终没有解决一个更加困难的问题,那就是像素级推理。数学推理最终输出的是一个数字,计数任务输出的是一个数量,视觉问答输出的是一句话,而推理分割最终要求的是图像中每一个像素到底属于目标还是背景。换句话说,推理最终