MixFormer: Co-Scaling Up Dense and Sequence in Industrial Recommenders“ 论文笔记-尧图建网站

现有序列建模和特征交叉的工作主要分为分离式和统一式分离式的设计限制了双向信息流和延迟优化统一式的OneTrans使用 Transformer 架构虽然效果好但如果不加改造计算量巨大尤其是 Cross-Attention 部分难以满足工业级低延迟要求。因此本文提出了Mixformer架构和User-Item Decoupling策略实现了更好的 Scaling 和计算效率方法Feature Embedding and Splitting与先前的工作不太一样这里对序列特征和非序列特征的处理为序列特征用户历史行为序列每个交互行为包含 item ID、action type、timestamp 和 side info每个经过 Embedding 层然后 Concat非序列特征包含用户特征、Item 特征和上下文特征这些特征各自经过 Embedding 后再 Concat 起来得到其中表示所有非序列特征的总嵌入维度然后非序列特征充当整个网络的 Query 的作用。结合多头注意力的机制本文进一步将均匀地划分为 N 个连续的子向量然后将每个子向量投影为 D 维向量从而保持表示多样性PS论文这里非序列特征的 Token 化其实和RankMixer、OneTrans、MTGR的思路还有一些不同这里没有将每个非序列特征单独一比一的映射成 TokenMTGR也不是 Group-wise 的方式RankMixer或者 Auto-split 的方式OneTrans而是将所有非序列特征的嵌入拼接后拆分为一组数量固定、维度统一的紧凑特征 Token。个人感觉和 Auto-split 比较接近只不过 Auto-split 是直接 concat 然后过 MLP 再切分Query Mixer本文提到受RankMixer的启发查询源自推荐场景中高度异构的特征字段包括用户属性、项目属性和上下文信号。这些特征源自不同的语义空间并且通常对应于极大且稀疏的 ID 域。在这种异质性下通过内积相似性计算注意力权重本质上是不可靠的因为很难在不同特征空间之间建立有意义的对齐。结果自注意力不仅无法持续提高建模效果而且还引入了大量的计算开销因此这里使用轻量级、无参数的MLP-Mixer模块取代了自注意力见框架图的最左边这里叫做HeadMixing操作然后再给每个查询头过一个 SwiGLUFFNCross Attention Output FusionQuery Mixer 的 N 个输出头直接作为 Cross Attention 的 N 个 Query Head这里不需要额外的投影矩阵是因为每个查询头都代表着非序列特征特定的子空间。对于 KV Encoding这里对每个行为使用当前层不同层的参数是独立的 SwiGLUFFN 做变换使序列表示与query输入对齐接着对不同的 Query Head 使用不同的权重计算得到 K 和 V最后计算注意力输出并进行残差连接见框架图的最右边Output Fusion 的作用就是对 Cross Attention 输出的聚合信息进行深度非线性融合这里不同 Query Head 的 FFN 依旧是独立的User-Item Decoupling请求级批处理RLB作为一种提高推荐训练和推理效率的有效范例而出现它在单个请求中跨多个目标共享用户端计算以实现计算成本的大幅降低。然而在原始MixFormer中user 侧和 item 侧的非序列特征是耦合在一起的对于同一用户请求, 精排模型一般需要对数百/上千个候选 item 进行打分在一个 batch 里面 user 端的非序列特征实际上是重复计算的PS推荐系统线上的处理逻辑是将一个用户的 user-item 候选对放到同一个 batch 里面不会出现同一个用户请求后产生的候选对跨 Batch 的情况也就是说 user 端的非序列特征也只要计算一次。OneTrans只考虑了序列特征的 KV Caching 优化没有考虑到 user 端的非序列特征计算也是在一个 batch 里面只共享一次的MixFormer首先将非序列特征拆分成 user 端和 item 端两个 heads 子集作者在实际设置中设置成 1:1然后再 HeadMixing 操作中 mask 掉 user head item head 的信息流如上图所示可以看到最后的 user head 不包含任何的 item 信息从而可以安全地在 RLB 中跨候选 item 共享 user 端的计算结果实验可以看到对比 Stacked 或 Parallel 的方法MixFormer都取得了 SOTA 的效果线上 A/B 实验也取得了比较显著的收益Mixformer相较于现有方法取得了很好的 Scaling 曲线此外UI-MixFormer在不同候选集大小下的推理延迟相比原始 MixFormer 实现 30% 的 speedup总结MixFormer最突出的设计就是针对 RLB 提出的User-Item Decoupling和Hyformer一样都是很不错的工作侧重点有些许不同都是对推荐系统 Transfomer 类型架构的探索分类: 论文笔记 / Recsys / Ranking Scaling

相关新闻

放大50倍看萧邦Happy Sport，这组活动钻石的固定公差才是底牌

异步网络套接字流转与协议仿真：基于 Python + Requests 的 HTTP 报文解析内核与 Pytest 流量 Mock 隔离治理

GPT-5.5 代码能力实测：项目理解、调试排错与重构辅助

最新新闻

微服务测试策略

WebView白屏问题全解析：从检测到解决的移动端实战指南

Kostka-Foulkes多项式与Chebyshev多项式的表示论桥梁

云计算生态产品经理面试攻略：从系统思维到商业实战

2026年6月专业GEO优化服务推荐评估

024、CBAM 插入 YOLOv11 四种位置的全面消融：mAP、参数量、推理延迟三维评分

日新闻

计算机毕业设计之基于Java的流浪动物收养系统设计与开发

Qwen2.5-Turbo百万上下文实战指南：百炼平台长文本处理全解析

【Netty源码解读和权威指南】第54篇：Netty在Elasticsearch中的应用——分布式搜索引擎的网络通信

周新闻

Google AI Studio 300美元额度的真相与实战指南

【人工智能】一文搞定到底什么是智能体

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

月新闻