核内调度问题的分层优化:缓存管理与性能均衡策略 问题 3 的模型建立与求解 实验结果
5.4 实验结果问题 3 的最终实验结果已系统汇总于表6。该表清晰展示了六个算例在总额外数据搬 运量与总执行时间两项核心性能指标上的具体数值。表6 中的数据结果表明本文所提出的优化模型在处理不同类型与规模的复杂计算图 时具备良好的鲁棒性同时揭示了计算图内在结构与其最终性能表现之间的内在联系。可以看出模型所产生的性能开销随问题规模扩大而显著增长。结合表7 可见在卷 积、矩阵乘法和注意力机制三类算子中规模较大的 Case1 版本在总额外数据搬运量与总 执行时间两方面均较 Case0 版本呈现数量级上升说明模型开销与计算图的节点数量、依 赖边数量等结构特征高度相关。这种增长具有其内在必然性规模更大的计算图通常包含 更长的关键路径限制指令级并行潜力同时更多节点导致同时活跃的缓冲区数量增加 峰值内存需求上升加剧缓存资源竞争进而引发更频繁的 Spill 操作。通过横向对比不同算子类型可发现计算图的拓扑结构是影响调度性能的关键因素。 以额外数据搬运量和总执行时间最高的 Conv Case1 为例卷积算子层间依赖复杂调度并行度受限对缓存空间压力大而矩阵乘法算子结构规整、可分块性强有利于构建高效 流水线因而在两项指标上均表现更优。需要注意的是实验结果中两项核心指标呈现高度耦合态势。我们认为其成因主要有 两方面其一每次 Spill 操作本身作为实际执行节点需占用数据搬运单元的执行时间 因此额外的数据搬运直接转化为时间开销其二调度难度高的计算图往往在缓存空间与 执行时间两个维度上均面临激烈资源竞争。指标间的强关联性进一步印证了调度问题中空 间与时间权衡的本质。具体的优化后的详细调度结果请参看附件。