“HyFormer: Revisiting the Roles of Sequence Modeling and Feature Interaction in CTR Prediction“ 论文笔记-尧图建网站

传统推荐精排模型有两个非常重要的子模块序列建模和特征交叉这两个子模块一般先做序列建模学习用户兴趣表示, 再与非序列特征 concat 起来做特征交叉。OneTrans试图用一个统一的 Transformer 来将这两个子模块统一起来本文提出的HyFormer也是类似的思路, 都是希望实现精排序列建模与特征交叉的统一但HyFormer在架构上进行了更深入的改进下文的多序列建模部分有提到MTGR和OneTrans采用简单的序列合并会导致性能显著下降方法Query Generation输入特征的 Tokenization 沿用RankMixer/OneTrans策略对于非序列特征有Group-wise和Auto-split两种 Token 化方式这里选择的是前者与现有工作不同的是Hyformer提出了Global Tokens用来当前序列特征和非序列特征中提取出全局信息在后续链路中起到 Query 的作用。具体做法是先将所有非序列特征向量 1,2,…, 与序列的 Mean Pooling 结果拼接得到 Global Info再通过个并行的轻量 FFN 将其投影为个 Global Tokens[FFN1(Global Info), …, FFN(Global Info)]∈×这里的是超参在 HyFormer 中 N 通常很小实验中与其他非序列 Token 凑成总共 16 个远小于 OneTrans 将所有 NS-tokens 都作为 Query 的做法大量减小了 KV Cache 的计算开销KV Encoding在 Query Decoding 执行之前长行为序列需要先被编码为逐层的 K/V 表示。HyFormer在这里提供了三种灵活的策略以适应不同场景的算力约束所有策略最终都会产出同一套接口(,)用来给 Query Decoding 进行消费Full Transformer Encoding最重但是最强的方式直接在长序列上做完整的 Self-Attention捕捉序列内部的细粒度交互。适合离线场景或对效果极度敏感的头部流量。LONGER-style Efficient Encoding为适配在线推理用一条极短的压缩序列记为 short作为 Query对完整长序列做 Cross-Attention。复杂度从 (2) 降至 ()≪在保持大部分建模能力的同时大幅压缩计算量Decoder-style Lightweight Encoding最轻量的版本直接用 SwiGLU 等无 Attention 的前馈操作对序列做逐位变换完全舍弃 Token 间交互适合对延迟要求极端的场景Query Decoding有了 Query 和序列的 K/V 表示Query Decoding 就是对长序列做一次标准的 Multi-Head Cross-Attention~()CrossAttn((−1),(),())这一层的输出 ~() 是被长序列更新过的 Global Tokens携带了从用户行为历史中提取的与当前全局上下文相关的兴趣信号从而让 HyFormer 实现上下文信息在每一层都能直接干预序列的理解Query Boosting如果说前面 Query Decoding 的作用是序列建模那这里 Query Boosting 的作用就是特征交叉。前面 Query Decoding 通过将 Global Token 与用户行为序列的多层解码让 Query 一定程度上实现 sequence-aware但与非序列特征之间的特征交叉能力不足所以这里先将两者拼接为一个统一的 Token 集合[~(),1,…,]∈×然后使用RankMixer的 Token Mixing 操作让这些 Token 两两之间充分交换信息。具体而言每个 Token 沿通道维度被切分成个子空间这里子空间数与 Token 数量必须一致同一子空间内的所有 Token 拼接后送入一个跨 Token 的 MLP实现类似“所有 Token 在某个子空间内互相看一眼”的效果最后再过一个 Per-Token FFN 做逐 Token 的语义精炼并通过残差连接与输入相加作为当前HyFormer Layer的输出~boostPerToken-FFN(TokenMixer())Query Boosting 的输出一方面作为本层最终产物向上层传递另一方面也成为下一层 Query Decoding 的新 Query形成一个交替递进的闭环Multi Sequence Modeling工业场景下用户通常有多条异质行为序列如搜索序列、短视频序列、商品序列不同序列的特征空间和语义差异巨大。OneTrans和MTGR的做法是将它们按时间戳或意图排序后拼接成一条长序列统一处理但HyFormer的实验发现这种简单合并在实际业务中会导致约 1.2% GMV 的显著下降。HyFormer 的解法延续了其用少量 Global Tokens 做信息路由的思路每条序列分配至少一个专属的 Global Token各自独立地对该序列做 Query Decoding。由于 Global Tokens 不要求序列间的特征维度对齐每条序列可以用完全独立的稀疏特征空间不同的 side information进行编码从根本上避免了合并序列时被迫对齐的语义折损。进入 Query Boosting 阶段后不同序列的 Global Tokens 在同一个 Token Mixing 池子里互相交互间接完成跨序列的信息融合。这种“各序列独立解码统一混合池交互”的设计让模型既能保留各序列的建模独立性又能实现隐式的跨序列知识迁移实验可以看到 HyFormer 在同等程度的参数量下大大减小了 FLOPs同时取得了最高的 AUC与最佳基线 LONGER RankMixer 相比Scaling 表现领先很多线上也取得了很明显的收益

相关新闻

Layerdivider：如何用AI在5分钟内将任何插画转换为可编辑PSD图层

使用 Oracle EBS 的中国企业Oracle EBS在中国金融、电信、能源等行业有大量深度用户，尤其在银行和保险行业占据主导地位。金融行业（银行）这是Oracle EBS在中国最集中的用户

061、自定义数据集训练：如何将自己的图像和视频数据用于超分模型

最新新闻

ASM330LHH与PIC18LF25K80在运动跟踪中的硬件组合与优化

步态识别3种特征融合方案对比：轮廓+骨架+头部特征 vs GaitSet vs PoseGait

我的编程之旅正式启航

QMCDecode：一键解锁QQ音乐加密格式的终极macOS转换神器

为什么你用ChatGPT总感觉差点意思？可能是陷入了这3个误区

LV30条码扫描器与TM4C129XNCZAD微控制器的工业应用解析

日新闻

acme.sh私钥加密存储：基于OpenSSL的自动化证书安全管理方案

免费二维码修复工具终极指南：三步拯救损坏二维码

星露谷物语终极MOD指南：5个步骤打造智能自动化农场

周新闻

3步彻底解决Windows右键菜单混乱问题：ContextMenuManager使用全攻略

通达OA SQL注入漏洞深度剖析：从手工注入到自动化利用与防御

MLT 2026启示：因果推理与概率建模驱动下一代LLM应用

月新闻

FAE放射组学分析工具：医学影像特征探索的完整解决方案

基于Dify与DeepSeek构建私有知识库问答系统实战指南

餐饮老板必看：扫码点餐小程序3步搞定，别再让顾客干等了！