传统推荐精排模型有两个非常重要的子模块序列建模和特征交叉这两个子模块一般先做序列建模学习用户兴趣表示, 再与非序列特征 concat 起来做特征交叉。OneTrans试图用一个统一的 Transformer 来将这两个子模块统一起来本文提出的HyFormer也是类似的思路, 都是希望实现精排序列建模与特征交叉的统一但HyFormer在架构上进行了更深入的改进下文的多序列建模部分有提到MTGR和OneTrans采用简单的序列合并会导致性能显著下降方法Query Generation输入特征的 Tokenization 沿用RankMixer/OneTrans策略对于非序列特征有Group-wise和Auto-split两种 Token 化方式这里选择的是前者与现有工作不同的是Hyformer提出了Global Tokens用来当前序列特征和非序列特征中提取出全局信息在后续链路中起到 Query 的作用。具体做法是先将所有非序列特征向量 1,2,…, 与序列的 Mean Pooling 结果拼接得到 Global Info再通过 个并行的轻量 FFN 将其投影为 个 Global Tokens[FFN1(Global Info), …, FFN(Global Info)]∈×这里的 是超参在 HyFormer 中 N 通常很小实验中与其他非序列 Token 凑成总共 16 个远小于 OneTrans 将所有 NS-tokens 都作为 Query 的做法大量减小了 KV Cache 的计算开销KV Encoding在 Query Decoding 执行之前长行为序列需要先被编码为逐层的 K/V 表示。HyFormer在这里提供了三种灵活的策略以适应不同场景的算力约束所有策略最终都会产出同一套接口(,)用来给 Query Decoding 进行消费Full Transformer Encoding最重但是最强的方式直接在长序列上做完整的 Self-Attention捕捉序列内部的细粒度交互。适合离线场景或对效果极度敏感的头部流量。LONGER-style Efficient Encoding为适配在线推理用一条极短的压缩序列记为 short作为 Query对完整长序列做 Cross-Attention。复杂度从 (2) 降至 ()≪在保持大部分建模能力的同时大幅压缩计算量Decoder-style Lightweight Encoding最轻量的版本直接用 SwiGLU 等无 Attention 的前馈操作对序列做逐位变换完全舍弃 Token 间交互适合对延迟要求极端的场景Query Decoding有了 Query 和序列的 K/V 表示Query Decoding 就是对长序列做一次标准的 Multi-Head Cross-Attention~()CrossAttn((−1),(),())这一层的输出 ~() 是被长序列更新过的 Global Tokens携带了从用户行为历史中提取的与当前全局上下文相关的兴趣信号从而让 HyFormer 实现上下文信息在每一层都能直接干预序列的理解Query Boosting如果说前面 Query Decoding 的作用是序列建模那这里 Query Boosting 的作用就是特征交叉。前面 Query Decoding 通过将 Global Token 与用户行为序列的多层解码让 Query 一定程度上实现 sequence-aware但与非序列特征之间的特征交叉能力不足所以这里先将两者拼接为一个统一的 Token 集合[~(),1,…,]∈×然后使用RankMixer的 Token Mixing 操作让这些 Token 两两之间充分交换信息。具体而言每个 Token 沿通道维度被切分成 个子空间这里子空间数与 Token 数量必须一致同一子空间内的所有 Token 拼接后送入一个跨 Token 的 MLP实现类似“所有 Token 在某个子空间内互相看一眼”的效果最后再过一个 Per-Token FFN 做逐 Token 的语义精炼并通过残差连接与输入相加作为当前HyFormer Layer的输出~boostPerToken-FFN(TokenMixer())Query Boosting 的输出一方面作为本层最终产物向上层传递另一方面也成为下一层 Query Decoding 的新 Query形成一个交替递进的闭环Multi Sequence Modeling工业场景下用户通常有多条异质行为序列如搜索序列、短视频序列、商品序列不同序列的特征空间和语义差异巨大。OneTrans和MTGR的做法是将它们按时间戳或意图排序后拼接成一条长序列统一处理但HyFormer的实验发现这种简单合并在实际业务中会导致约 1.2% GMV 的显著下降。HyFormer 的解法延续了其用少量 Global Tokens 做信息路由的思路每条序列分配至少一个专属的 Global Token各自独立地对该序列做 Query Decoding。由于 Global Tokens 不要求序列间的特征维度对齐每条序列可以用完全独立的稀疏特征空间不同的 side information进行编码从根本上避免了合并序列时被迫对齐的语义折损。进入 Query Boosting 阶段后不同序列的 Global Tokens 在同一个 Token Mixing 池子里互相交互间接完成跨序列的信息融合。这种“各序列独立解码 统一混合池交互”的设计让模型既能保留各序列的建模独立性又能实现隐式的跨序列知识迁移实验可以看到 HyFormer 在同等程度的参数量下大大减小了 FLOPs同时取得了最高的 AUC与最佳基线 LONGER RankMixer 相比Scaling 表现领先很多线上也取得了很明显的收益