今日候选池96篇硬过滤 LLM 打分后通过评估17篇精选 Top-10另列 7 篇速览。关注方向多 Agent 系统 / LLM 后训练RL/SFT / 扩散语言模型 / 推理加速 / 长上下文 / 量化交易 精选1.HASTEWhy Solve It Twice? Hierarchical Accumulation of Skills for Transfer-Efficient ML Engineering评分8.3·方向cs.MA · Multiagent Systems ·arxiv2606.30911· PDF HASTE按global/domain/competition三层积累技能让ML工程agent跨Kaggle比赛热启动。多智能体系统agentic workflowML工程自动化摘要ML 工程 agents 常在新竞赛中重复摸索既有技巧浪费计算。HASTE 以 global、domain、competition-specific 三层组织跨竞赛技能并由 orchestrator 协调专家 agent、用 LLM 抽象促进技能上升。消融显示在 8 个竞赛和固定 159 项技能下分层加载奖牌率达 100%显著优于扁平加载的 62.5%且输出 token 减半。在 MLE-Bench Lite 22 个 Kaggle 竞赛上HASTE 奖牌率达 77.3%warm start 使 refinement 迭代减少 52%。评分细项rel 9.0 / nov 7.5 / prac 8.5 / author 5.52.SkillComposerGenerative Skill Composition for LLM Agents评分8.3·方向cs.CL · Computation and Language ·arxiv2606.32025· PDF SkillComposer 用受约束自回归序列预测为 LLM agent 联合选择技能子集、数量与执行顺序。LLM Agent技能组合工作流摘要LLM agents 可通过技能库复用过程知识但库规模增大后如何选择技能组合成为瓶颈。现有全量暴露推理或基于 embedding/LLM reranker 检索的方法难以联合决定技能子集、数量和顺序。论文形式化提出 structured skill composition并给出 SkillComposer将任务条件下的技能组合建模为技能序列预测用受约束的自回归解码器一次生成可执行计划自然捕捉技能依赖。作者基于人工维护技能库构建训练数据用于评估该结构化组合范式。评分细项rel 9.0 / nov 7.5 / prac 8.0 / author 6.03.ACEACE: Pluggable Adaptive Context Elasticizer across Agents评分8.3·方向cs.AI · Artificial Intelligence ·arxiv2606.31564· PDF ACE 用无损消息层与上下文编排层在 ReAct 等代理中动态切换 raw、abstract、drop 历史。长上下文Agent框架上下文压缩摘要针对 agent 任务轨迹变长、固定上下文窗口难以承载历史信息的问题本文提出可插拔模块 ACE。它为每个历史步骤同时保存原始消息与压缩摘要并在每次决策时按当前状态动态选择 raw、abstract 或 drop保持信息可恢复。ACE 无需训练或改架构适配 ReAct、DeepAgent、WebThinker、MiroFlow实验显示相比截断和摘要基线在四类框架中均稳定提升性能。评分细项rel 8.8 / nov 7.5 / prac 8.5 / author 6.54.BrowserBCScalable Behaviour Cloning on Browser Using via Skill Distillation评分8.0·方向cs.CL · Computation and Language ·arxiv2606.32014· PDF BrowserBC 将人类浏览轨迹蒸馏成自然语言技能并用 skill graph 支持检索、复用与组合。浏览器 Agent行为克隆技能蒸馏开源摘要本文关注浏览器 agent 的可扩展行为克隆认为瓶颈主要在不完整信息下的决策而非低层操作。作者将用户浏览轨迹蒸馏为紧凑的自然语言技能使 agent 可读取、检索、复用和组合并用 skill graph 组织技能避免无界累积。该工作指出浏览器 agent 的扩展性可更多来自真实用户交互中隐含的集体技能而非人工设计任务。评分细项rel 8.5 / nov 7.0 / prac 8.0 / author 7.05.SAGEOne Reflection Is Not Enough: Self-Correcting Autonomous Research via Multi-Hypothesis Failure Attribution评分8.0·方向cs.AI · Artificial Intelligence ·arxiv2606.31478· PDF SAGE 用 MHFA 多假设失败归因把研究代理故障路由到假设、实验或实现层。自主研究代理agentic workflow失败恢复摘要自主科研代理已能提出假设、写代码并运行实验但在实验失败后仍易失稳。本文提出 SAGE以多假设失败归因MHFA替代单次自由反思从轨迹指标、日志和设计选择中生成多种证据支撑的因果解释评估严重性并路由到假设、实验设计或实现层面的修正。同时用 grounded reporting 约束结果只报告实测值。12 主题、5 领域基准上SAGE 将含指标产出从 42% 提升到 92%质量评分达 6.75/10并优于 AI-Scientist-v2。评分细项rel 8.5 / nov 7.5 / prac 7.5 / author 6.56.ERAERA: Entropy-Guided Visual Token Pruning with Rectified Attention for Efficient MLLMs评分8.0·方向cs.CV · Computer Vision ·arxiv2606.31982· PDF ERA 用 Dual-view Entropy Pruning、Token Recycling 和 Attention Rectification 压缩 MLLM 视觉 token。MLLM推理加速Token剪枝摘要MLLMs 因视觉 token 序列过长而推理成本高免训练 token 剪枝虽有效却会扭曲注意力分布导致 Attention Logit Collapse。本文提出 ERA先用 Dual-view Entropy Pruning 结合视觉多样性与多头显著性选 anchor token再用 Bias-aware Token Recycling 将被剪 token 回收到对应 anchor 并估计 logit 偏置最后通过 Logit-preserving Attention Rectification 修正注意力。ERA 在单图、多图和视频任务中保持性能并支持激进压缩为高效 MLLMs 提供可部署框架。评分细项rel 8.5 / nov 7.5 / prac 8.0 / author 6.07.FARSFARS: A Fully Automated Research System Deployed at Scale评分7.6·方向cs.AI · Artificial Intelligence ·arxiv2606.31651· PDF FARS 用阶段化多智能体共享工作区自动完成选题、实验、代码日志与论文写作。多智能体自动科研Agentic Workflow摘要FARS 面向大规模 AI-for-AI 研究自动化使用分阶段 agents 在共享工作区完成选题、规划、实验与写作并保留提案、代码、日志和论文等可审计产物。首次公开部署生成 166 篇覆盖 67 个 AI/ML 细分主题的完整论文。282 份结构化评审显示其能产出可评审、偶有较强质量的研究但也暴露实验范围窄、方法局限和诚信风险等常见问题。评分细项rel 8.0 / nov 7.5 / prac 6.8 / author 6.58.LuckyStarThink in English, Answer in Korean: Efficient Adaptation of Multilingual Tool-Using Agents评分7.4·方向cs.AI · Artificial Intelligence ·arxiv2606.31648· PDF LuckyStar 111B 结合多语 SFT、RLVR 工具任务奖励与 4-bit 量化适配韩英企业代理。后训练RLVR工具调用量化部署摘要LuckyStar 111B 是 Cohere 与 LG CNS 面向韩英企业 agents 构建的 111B 混合推理模型目标是在内存和服务约束下高效适配工具使用能力。它基于已后训练的 Command A通过 preamble conditioning 切换简洁回答与长链工具推理并结合多语 SFT、可验证奖励 RL、韩语一致性奖励和 4-bit quantization。实验提升数学推理、function calling 与 NL2SQL同时保持韩英指令跟随质量。评分细项rel 7.5 / nov 6.5 / prac 8.0 / author 8.09.SigExecSignature-Based Optimal Execution for Statistical Arbitrage with Path-Dependent Trading Signals评分7.7·方向q-fin.TR · Trading and Market Microstructure ·arxiv2606.31387· PDF 用截断 signature 线性交易速度把路径依赖统计套利执行化为二次规划。量化交易统计套利最优执行摘要本文提出用于统计套利最优执行的 signature-based 框架面向具有路径依赖预测信号的策略。方法将 alpha 过程与交易速度统一建模为时间增强市场路径截断 signature 的线性泛函使信号生成与执行共享同一基底并同时考虑临时冲击、库存风险、终端清算和近似美元中性。核心贡献是证明在线性 signature 交易速度类中路径依赖执行问题可化为有限维凹二次规划。合成均值回复价差实验和历史股票配对回测均显示该策略在收益/换手率和会计表现上优于经典 z-score 阈值基准。评分细项rel 8.5 / nov 7.5 / prac 7.0 / author 5.010.RSI-RLVRWhich Tokens Matter? Adaptive Token Selection for RLVR with the Relative Surprisal Index评分7.0·方向cs.AI · Artificial Intelligence ·arxiv2606.31575· PDF RSI 将 token 熵与采样概率耦合成相对惊讶指标用于 RLVR 自适应选择训练 token。RLVRToken选择后训练摘要本文研究 RLVR 训练中哪些 token 更应参与策略优化。现有观点一方面强调高熵 token另一方面担心低概率 token 主导梯度二者虽看似冲突却都能带来收益。作者提出 Relative Surprisal Index (RSI)用信息论方式同时刻画预测熵与已采样 token 概率并将其与 logit 扰动下梯度范数和熵的一阶变化关系联系起来。基于 RSI论文设计 RSI Selection (RSI-S)自适应保留稳定 RSI 区间内的 token从而统一两类经验准则并过滤冗余或不稳定更新提升 LLM 推理训练效果。评分细项rel 7.2 / nov 7.3 / prac 6.8 / author 5.5 速览 · 其他通过评估的工作7 篇一句话扫读按评分从高到低点击标题跳转 arxiv。cs.CL6.5CHERRY: Compressed Hierarchical Experts with Recurrent Representational Yield· CHERRY 结合 SGT 选择性监督、层平均压缩与 recurrent unrolling 训练低算力语言模型。cs.CL6.2Reinforcement Learning with Metacognitive Feedback Elicits Faithful Uncertainty Expression in LLMs· 提出 RLMF 与 metacognitive data selection用自评质量优化偏好排序并校准不确定性表达。cs.AI6.5RAISE: LLM-based Automated Heuristic Design with Robust Adversary Instance Search· RAISE 把约束最坏实例搜索嵌入 LLM 进化式启发式设计提升分布偏移鲁棒性。cs.AI6.4Self-Study Reconsidered: The Hidden Fragility of Learning from Self-Generated QA· 把自生成 QA 视为隐式数据选择策略分析覆盖饱和、显著片段偏置与文本内指令服从。cs.MA6.0DataEvolver: Self-Evolving Multi-Agent Data Construction for Text-Rich Image Generation· DataEvolver 用 Retriever、Verifier、Critic、Generator 多 agent 循环演化文生图数据构造策略。cs.AI6.3Design and Implementation of Agentic Orchestrations and Orchestration of Agents· 用任务特异性、可追踪性与正确性指标分类 agentic orchestration 方案。cs.CV6.5World Narrative Model for Highly Controllable Video Generation: A Paradigm Shift from Pixel Sampling to Physical World Orchestration· WNM用协作 agent 将文本、视频和草图转成可编辑4D世界表示驱动视频生成。