1. 神经网络求解器解码器扩展策略解析在组合优化领域车辆路径问题VRP和旅行商问题TSP等NP难题的求解一直是研究热点。传统启发式算法依赖专家经验而基于神经网络的求解器通过编码器-解码器架构实现了端到端的自动求解。这种构造式construction-based求解器通过自回归方式逐步构建解其中解码器作为节点选择的核心组件其架构设计直接影响模型性能。1.1 解码器参数分配的关键挑战现有研究普遍发现将更多参数从编码器转移到解码器能显著提升性能。例如LEHDLuo et al., 2023和BQDrakulic et al., 2023等重解码器模型在泛化能力上展现出优势。然而这些工作通常将解码器参数限制在1-3M范围内未能充分探索更大规模解码器的扩展规律。这引出了两个核心问题解码器参数应如何分配在深度层数和宽度嵌入维度之间不同扩展策略对参数效率、数据效率和计算效率的影响如何关键发现初步实验显示单纯增加参数总量并不能保证性能提升。如图1所示在TSP100问题上9.0M参数的深度优先模型D42,W128优于21.0M参数的宽度优先模型D6,W512表明参数分配策略比参数数量更重要。1.2 深度与宽度的本质差异深度和宽度扩展对模型能力的影响存在根本差异深度扩展增加Transformer层数增强特征变换和非线性表达能力。每一层可视为一个信息处理阶段更多层数意味着更复杂的特征抽象。宽度扩展增大嵌入维度提升单层的表示空间。理论上可以增加模型容量但也可能导致参数冗余。我们的实验设计了12种模型配置表1参数范围从1M到150M系统比较了两种扩展策略。通过控制变量法固定深度变化宽度6-42层和固定宽度变化深度128-512维量化分析其对三大效率维度的影响。2. 深度优先策略的三大优势2.1 参数效率深度扩展的近乎线性收益通过幂律拟合分析公式2我们发现深度扩展呈现接近线性的收益规律。当参数倍增时深度扩展α≈1.0可使最优间隙Gap降至原来的50%宽度扩展α≈0.3仅能降至76-85%# 幂律拟合公式 Gap(N) (Nc/N)^α # N为参数量α为效率指数这种差异源于深度模型更强的结构化表征能力。如图5所示高深度宽度比AD/W的模型在相同参数量下表现更优。例如将6层128维A0.047重构为24层64维A0.375参数量保持1.3M时TSP1000上的Gap从2.172%降至1.259%。2.2 数据效率深度模型的快速收敛在固定训练数据量下0.1M样本深度模型展现出更高效的学习能力。如图3所示深度模型的幂律指数α_s更高D42,W128α_s0.71D6,W512α_s0.55这意味着数据量倍增时深度模型的Gap可降至61%而宽度模型仅降至68%。这种优势在跨规模泛化中更为明显表3深度模型在TSP1000上的Gap2.572%显著低于宽度模型3.871%尽管前者参数量更少9.02M vs 21.0M。2.3 计算效率推理时的最优权衡通过分析FLOPs与Gap的关系公式4我们发现在中等计算预算≈10^4 GFLOPs下中等深度模型D24性价比最高充足预算时深度模型D42能达到更低的理论下限表4的实测数据显示在12分钟限制下D24,W128模型Gap为0.0044%D6,W512模型Gap为0.0138%而当预算充足时D42模型能以更短时间2.29h达到0.0001%的Gap优于D24模型的2.60h。3. 深度优势的机理分析3.1 表征质量更清晰的节点区分通过PCA降维可视化图10和余弦相似度矩阵图11分析发现深度模型能将非最优节点压缩到紧凑簇中与最优节点形成明显边界宽度模型虽然增加表示空间但无法有效抑制干扰节点的离散分布这种结构化表征使深度模型在节点选择时更具判别力。例如在长距离依赖场景下图12D42模型对第8个以上邻居的正确选择率仍保持93%而D6模型已降至83%。3.2 架构改进训练稳定的关键为实现深度扩展我们引入两项关键技术门控注意力公式11通过门控信号调节注意力输出缓解深层梯度消失G σ(XW_G) # 门控信号 H MHA(X) ⊙ G # 门控输出ReZero归一化学习型残差权重稳定深层训练H^(l) H^(l-1) α^(l)·GatedAttn(H^(l-1)) # α初始为0如表7所示加入门控注意力后D42模型在TSP1000上的Gap从1.023%降至0.869%。而图8显示ReZero能有效消除深度模型的训练震荡。4. 实践指导原则基于上述发现我们提炼出三条设计原则4.1 参数分配原则优先构建深窄架构在给定参数预算下通过增加层数同时适当减少宽度来提升深度宽度比AD/W。实验表明将6层128维改为24层64维参数量1.3M→1.29MTSP1000性能提升42%。4.2 数据利用原则数据稀缺时加深模型在小样本场景如0.1M训练数据深度模型能更有效提取特征。如表3所示D42模型比同参数宽度模型的Gap降低42.3%。4.3 计算分配原则根据预算选择深度有限预算用中等深度如24层充足预算用更大深度如42层。如表4所示D24模型在12分钟内达到0.0044% Gap而D42模型在充足时间下可突破0.0001%。5. 跨领域验证与局限5.1 方法的通用性在LEHD模型上的迁移实验表20验证了深度优先原则的普适性。将原6层128维改为24层64维后参数量减少12.6%1.43M→1.25MTSP1000性能提升41.8%5.2 当前局限与改进方向规模上限实验最大参数量150M更大规模的规律待探索问题扩展目前聚焦TSP需验证在带容量约束VRP等变体上的效果硬件适配深度模型需要优化GPU并行策略如表17小批量时可能受限在实际部署中建议根据硬件条件调整批量大小。当批量100时深度模型的FLOPs优势才能充分转化为实际加速。对于实时性要求高的场景可采用D24的折中方案在延迟和性能间取得平衡。通过系统实验建立的设计原则为神经网络求解器的架构优化提供了可量化的指导。深度优先策略在参数利用、学习效率和计算性价比上的优势使其成为资源受限场景下的理想选择。未来可结合神经架构搜索NAS技术自动寻找特定问题规模下的最优深度宽度组合。