线上曝光日志的query-doc pair是肯定可以加进来的不建议用query cross-join doc出的pair数据也许可以用一些比如Qwen3-Emb模型多筛选出正例但总体数据效率还是低建议模拟召回链路对Top10000的query进行候选doc的Top100召回构成pair数据