文章总结与翻译一、主要内容本文聚焦大型语言模型(LLMs)的结构化剪枝技术,针对主流局部剪枝范式任务无关、下游性能提升有限的问题,重新审视全局结构化剪枝并提出GISP(Global Iterative Structured Pruning)方法。核心背景结构化剪枝因能生成硬件友好的紧凑架构,成为LLMs高效部署的关键技术,但现有局部剪枝(如Wanda、SparseGPT)通过层-wise重构优化,忽视任务目标,难以利用任务特定校准信号。全局剪枝虽能关联模型级损失,但传统单步全局剪枝在高稀疏度下稳定性差、易导致困惑度崩溃。GISP方法核心设计全局迭代剪枝:采用逐步剪枝策略(线性调度器控制每步剪枝比例),避免单步大量权重移除,在高稀疏度(40%-50%)下稳定模型性能,无需中间微调。结构级重要性评估:基于一阶损失信息,通过块归一化聚合注意力头和MLP通道的重要性,自然实现非均匀剪枝。任务特定适配:支持自定义任务目标,实例化两种损失函数——语言建模的困惑度损失、决策类任务的边际损失(Preserve正确/错误答案的损失差距)。“一次剪枝,多端部署”:迭代轨迹形成嵌套子网络,单次剪枝可生成不同稀疏度的模型,摊销计算成本。