TIV：在大型推理模型中通过向量进行有效推理的思想注入-尧图建网站

论文链接 TIV: Thought Injection via Vectors for Efficient Reasoning in Large Reasoning Models| Proceedings of the AAAI Conference on Artificial Intelligence解决大推理模型“想太多、输出太长”的问题不让模型把完整推理链写出来而是把推理过程压缩成几个 hidden-state 向量直接注入模型内部让模型“隐式思考”最后更短地答题。Abstract大型推理模型Large Reasoning Models, LRMs近年来通过生成中间思维过程在一系列推理任务中展现出了出色的性能。然而这类模型也可能面临“过度思考”overthinking问题即生成大量对最终准确率贡献有限的冗余 token从而显著增加推理成本。为缓解这一问题我们提出了 TIVThought Injection via Vectors一种创新框架旨在将 token 级别的推理过程压缩为紧凑的向量表示同时不牺牲模型性能。与显式生成思维过程不同TIV 将可学习向量注入到 Transformer 各层中最终 token 的 post-attention hidden states 中从而实现一种隐式且轻量化的推理机制。我们进一步提出了一种两阶段强化学习策略第一阶段用于校准模型的推理分布第二阶段则将其蒸馏为一种基于向量的策略并同时优化准确率与简洁性。在三个推理基准上的实验结果表明TIV 在保留原模型超过 99% 准确率的同时平均减少了超过 65% 的输出长度在部分情况下最高可减少 80%。此外相比现有方法TIV 在准确率与效率之间始终取得了更优的权衡使其成为大型推理模型高效推理方向上的一种最先进方法SOTA。Methodthought 怎么转换成 vector? 能用来干嘛4.2 节做了一个 attention decomposition 推导简单说就是在 Transformer 里最后生成答案的时候模型会 attention 到前面的内容包括question tokensthought tokens。如果把输入看成[Question; Thought]那么 attention output 可以拆成两部分来自 question 的贡献来自 thought 的贡献于是作者说既然 thought tokens 对最终答案的影响本质上会通过 attention 聚合成某种 hidden representation那我们可以把这部分贡献压缩成一个向量v_thought然后把这个向量加到最后一个 token 的 hidden state 上。论文里把它写成h_{-1}^{(l)} ← h_{-1}^{(l)} v_thought^{(l)}意思是在第 l 层把 thought vector 加到最后 token 的 hidden state 上从而模拟“模型已经思考过了”怎么抽这个vector 呢TIV 假设上下文大概是Question tokens: Q Thought tokens: T Final answer start token: x比如Question: What is |34i|? Thought: |z| sqrt(3^2 4^2) 5 Answer:当模型准备在Answer:后面生成答案时最后一个 token 的 query vector 记作x这个x会去 attend 前面的所有 token[Q; T]所以 attention 输出是Attn(x, [Q; T], [Q; T])这里[Q; T]就是把 question tokens 和 thought tokens 拼起来。Q:这个thought 压缩成vector, 这是你就算压缩成vector了模型不也是先有reasoning 才有 vector 吗还是训练一个稳定的vector 能适用于这个数据集里的所有数据这篇论文真正想做的是训练阶段用 reasoning 行为来学习一组共享的、可学习的、可注入的thought vectors推理阶段不再生成长 reasoning而是直接把这些学到的 vector 注入模型内部。训练阶段问题 → 模型生成 reasoning → RL 判断答案对不对、长度长不长 → 更新模型参数和 thought vectors推理阶段问题 → 注入已经学好的 thought vectors → 模型直接生成较短答案方法实现里它不是说测试时真的生成 T 再压缩而是把 v_thought 变成learnable vectors在 Stage II 里和模型一起训练。论文里 Stage II 的优化对象写成了 π(θ,v)也就是同时优化模型参数 θ 和注入向量 v具体训练TIV 有两个训练阶段。Stage IReasoning Calibration 推理校准第一阶段不是为了压缩长度而是为了让模型的 reasoning distribution 更稳定。它会从训练集里抽一小部分 calibration data大概最多 1% 或 50 个样本。然后用 GRPO 风格的强化学习训练模型只奖励答案对不对不管输出长不长。这个阶段的目的不是让模型变短而是先让模型知道怎么稳定地推理。同时它会记录正确答案轨迹的平均 token 数后面作为长度惩罚的参考Stage IIVector-based Compression第二阶段才是真正压缩。这时模型会注入 thought vectors然后训练目标变成答案要对而且输出要短。奖励函数大概是如果答案正确reward 1 - η * 当前长度 / 平均正确长度如果答案错误reward 0所以模型会被鼓励答案正确不要写太长用注入向量替代显式 reasoning tokens。这就是 TIV 的核心训练逻辑。

相关新闻

【计算机Java毕业设计案例】基于 SpringBoot 的健康档案分类检索管理系统的设计与实现 移动端适配的个人健康档案服务平台(程序+文档+讲解+定制)

深入解析ACE：多核内存一致性管理的核心协议(1)

关于兆能ZN-M5（五天线版）移动定制路由锁网解锁方法

最新新闻

WinUtil：三步搞定Windows系统优化与程序安装的终极工具箱

大模型API价格对比与商用成本建模指南

如何让老款Mac电脑焕发新生：OpenCore Legacy Patcher完全指南

如何构建高可用分布式网络监控：SmokePing主从架构深度解析

炉石传说终极模改指南：如何用HsMod提升300%游戏体验

CANN残差诊断算子

日新闻

SSRF漏洞攻防实战：从原理到绕过技巧与防御策略

Playwright自动化测试实战：从零搭建现代Web测试框架

Zip炸弹漏洞剖析：从GuardDog安全工具瘫痪看文件解压的资源耗尽攻击与防御

周新闻

管理者的六个层次

华为OD机试2025C卷-座位调整[100分]（ Java _ Python3 _ C++ _ C语言 _ JsNode _ Go）实现100%通过率

CrabCode v1.0.7与v1.0.8 更新速览！

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！

【计算机Java毕业设计案例】基于 SpringBoot 的健康档案分类检索管理系统的设计与实现移动端适配的个人健康档案服务平台(程序+文档+讲解+定制)