TIV:在大型推理模型中通过向量进行有效推理的思想注入
论文链接 TIV: Thought Injection via Vectors for Efficient Reasoning in Large Reasoning Models| Proceedings of the AAAI Conference on Artificial Intelligence解决大推理模型“想太多、输出太长”的问题不让模型把完整推理链写出来而是把推理过程压缩成几个 hidden-state 向量直接注入模型内部让模型“隐式思考”最后更短地答题。Abstract大型推理模型Large Reasoning Models, LRMs近年来通过生成中间思维过程在一系列推理任务中展现出了出色的性能。然而这类模型也可能面临“过度思考”overthinking问题即生成大量对最终准确率贡献有限的冗余 token从而显著增加推理成本。为缓解这一问题我们提出了 TIVThought Injection via Vectors一种创新框架旨在将 token 级别的推理过程压缩为紧凑的向量表示同时不牺牲模型性能。与显式生成思维过程不同TIV 将可学习向量注入到 Transformer 各层中最终 token 的 post-attention hidden states 中从而实现一种隐式且轻量化的推理机制。我们进一步提出了一种两阶段强化学习策略第一阶段用于校准模型的推理分布第二阶段则将其蒸馏为一种基于向量的策略并同时优化准确率与简洁性。在三个推理基准上的实验结果表明TIV 在保留原模型超过 99% 准确率的同时平均减少了超过 65% 的输出长度在部分情况下最高可减少 80%。此外相比现有方法TIV 在准确率与效率之间始终取得了更优的权衡使其成为大型推理模型高效推理方向上的一种最先进方法SOTA。Methodthought 怎么转换成 vector? 能用来干嘛4.2 节做了一个 attention decomposition 推导简单说就是在 Transformer 里最后生成答案的时候模型会 attention 到前面的内容包括question tokensthought tokens。如果把输入看成[Question; Thought]那么 attention output 可以拆成两部分来自 question 的贡献 来自 thought 的贡献于是作者说既然 thought tokens 对最终答案的影响本质上会通过 attention 聚合成某种 hidden representation那我们可以把这部分贡献压缩成一个向量v_thought然后把这个向量加到最后一个 token 的 hidden state 上。论文里把它写成h_{-1}^{(l)} ← h_{-1}^{(l)} v_thought^{(l)}意思是在第 l 层把 thought vector 加到最后 token 的 hidden state 上从而模拟“模型已经思考过了”怎么抽这个vector 呢TIV 假设上下文大概是Question tokens: Q Thought tokens: T Final answer start token: x比如Question: What is |34i|? Thought: |z| sqrt(3^2 4^2) 5 Answer:当模型准备在Answer:后面生成答案时最后一个 token 的 query vector 记作x这个x会去 attend 前面的所有 token[Q; T]所以 attention 输出是Attn(x, [Q; T], [Q; T])这里[Q; T]就是把 question tokens 和 thought tokens 拼起来。Q:这个thought 压缩成vector, 这是你就算压缩成vector了模型不也是先有reasoning 才有 vector 吗 还是训练一个稳定的vector 能适用于这个数据集里的所有数据这篇论文真正想做的是训练阶段用 reasoning 行为来学习一组共享的、可学习的、可注入的thought vectors推理阶段不再生成长 reasoning而是直接把这些学到的 vector 注入模型内部。训练阶段问题 → 模型生成 reasoning → RL 判断答案对不对、长度长不长 → 更新模型参数和 thought vectors推理阶段问题 → 注入已经学好的 thought vectors → 模型直接生成较短答案方法实现里它不是说测试时真的生成 T 再压缩而是把 v_thought 变成learnable vectors在 Stage II 里和模型一起训练。论文里 Stage II 的优化对象写成了 π(θ,v)也就是同时优化模型参数 θ 和注入向量 v具体训练TIV 有两个训练阶段。Stage IReasoning Calibration 推理校准第一阶段不是为了压缩长度而是为了让模型的 reasoning distribution 更稳定。它会从训练集里抽一小部分 calibration data大概最多 1% 或 50 个样本。然后用 GRPO 风格的强化学习训练模型只奖励答案对不对不管输出长不长。这个阶段的目的不是让模型变短而是先让模型知道怎么稳定地推理。同时它会记录正确答案轨迹的平均 token 数后面作为长度惩罚的参考Stage IIVector-based Compression第二阶段才是真正压缩。这时模型会注入 thought vectors然后训练目标变成答案要对而且输出要短。奖励函数大概是如果答案正确reward 1 - η * 当前长度 / 平均正确长度 如果答案错误reward 0所以模型会被鼓励答案正确不要写太长用注入向量替代显式 reasoning tokens。这就是 TIV 的核心训练逻辑。