OFQ-LLM: Outlier-Flexing Quantization for Efficient Low-Bit Large Language Model Acceleration 阅读总结中文标题OFQ-LLM面向高效低比特大语言模型加速的离群值弹性量化方案作者Gang Wang, Siqi Cai, Wenjie Li, Dongxu Lyu, Guanghui He发表IEEE TCAS-I / TVLSI基于论文信息推断工艺TSMC 65nm CMOS硬件评估平台摘要大语言模型LLM的权重与激活中存在离群值Outliers这是制约低比特如W4A4量化精度的核心瓶颈。现有方案要么无法兼顾精度剪裁/移位方案要么引入硬件不友好的稀疏或变长编码。本文提出OFQ-LLM一种算法-硬件协同设计方案核心思想为离群值弹性量化Outlier-Flexing Quantization将低比特编码空间划分为缩减的正常值编码区与少量保留的离群值弹性编码区。算法层提出基于重新缩放的剪裁RBC优化正常值量化误差与分组离群值聚类GOC以聚类均值灵活表示离群值。硬件层设计内存对齐的离群值弹性编码与离群-正常混合PE架构。实验表明OFQ-LLM在低比特LLM量化精度上达到SOTA硬件加速器在预填充阶段实现最高3.83×加速与2.44×能耗降低解码阶段实现最高2.01×加速与2.88×能耗降低。核心专有名词解析术语缩写定义面向跨专业读者离群值OutlierLLM权重/激活中占比极小0.1%但幅值远超正常值的数值对模型精度影响极大是低比特量化的主要障碍。离群值弹性量化OFQ本文提出的量化范式将低比特编码空间分割用缩减空间量化正常值用剩余极少编码槽如-7通过查表LUT灵活表示离群值。基于重新缩放的剪裁RBC对min/max进行比例缩放rescale ratio r缩小量化范围使正常值获得更密集的编码空间降低量化误差。数学上等价于调整缩放因子Δ当Δ1时正常值相对误差降低。分组离群值聚类GOC将权重/激活按组如group size128划分组内对离群值进行启发式K-means聚类聚类的均值作为该组离群值的代表存于GOC LUT中。GOC LUT—存储左编码值如-7、-0与对应实际离群值8-bit的查找表解码时通过比较输入值查表还原离群值。离群-正常混合PEMixed PE将MAC计算拆分为正常部分X^n*W^n与离群部分含X^o*W^n、W^o*X^n、X^o*W^o。离群部分利用GOC的聚类特性进行“先累加后相乘”Σ X_i^o (Σ W_j^n)减少乘法器数量无离群值时相关逻辑可门控关断。符号-幅值格式Sign-Magnitude数据表示格式最高位为符号位其余位为幅值。OFQ编码利用该格式中-01000的冗余编码空间作为离群值编码之一。GEMM模式—预填充阶段Prefilling Phase使用的矩阵-矩阵乘法数据流激活矩阵m×k与权重矩阵k×m在PE阵列中按输出驻留output-stationary方式计算。GEMV模式—解码阶段Decoding Phase使用的矩阵-向量乘法数据流激活向量1×mk广播至各列权重矩阵mk×m逐列加载部分和在行方向累加。左编码值Left Encoding Value在m-bit量化中RBC将正常值编码在2^m - 1个槽位中剩余1个或多个编码槽如-7、-0称为左编码值用于映射GOC聚类的离群值。一、研究动机与核心问题1.1 LLM量化的离群值困境LLM权重与激活分布呈现显著的双峰特征图3约99%的正常值集中在极窄范围LLaMA-7B中0.06而约0.1%的离群值幅值极大且相互之间差异显著。标准均匀量化式5-8需覆盖从min到max的全范围导致绝大多数编码槽被离群值的大范围“浪费”正常值量化颗粒度极粗误差累积导致精度崩溃。1.2 此前离群值处理方案的三类缺陷方案类型代表工作核心缺陷缩放移位类SmoothQuant [13]将离群问题从激活转移至权重但低比特W4A4下精度损失严重混合精度/稀疏编码类LLM.int8() [10], GOBO [22], OliVe [21]离群值单独存为FP16/INT8引入非对齐访问或牺牲相邻值victim硬件开销大或精度损失变长编码类SPARK [29]小值4-bit大值8-bit需内嵌1-bit标识符降低编码效率且访问不对齐二、算法层面OFQ-LLM量化方案2.1 总体思想标准m-bit量化提供2^m个编码槽。OFQ将编码空间分为两部分图4b正常值区使用2^m - 1 - n个槽对应经过RBC重新缩放后的[min, max]范围。离群值弹性区使用剩余n1个槽如-7、-0通过GOC LUT映射到实际离群值。2.2 基于重新缩放的剪裁RBCRBC对原始min/max乘以缩放比例r0r1构造新范围[r*x_min, r*x_max]正常值在此范围内量化至缩减编码空间。新的缩放因子s~rxmax−rxmin2m−1−nΔ⋅s,Δr⋅2m−12m−1−n\tilde{s} \frac{r x_{max} - r x_{min}}{2^m - 1 - n} \Delta \cdot s, \quad \Delta r \cdot \frac{2^m - 1}{2^m - 1 - n}s~2m−1−nrxmax​−rxmin​​Δ⋅s,Δr⋅2m−1−n2m−1​量化误差分析RBC量化误差为Err Δ · s · RoundErr原始误差为Err s · RoundErr。当Δ 1时即r (2^m - 1 - n)/(2^m - 1)正常值相对量化误差降低。此时RBC使min/max范围收窄正常值获得更密集编码颗粒度更细。2.3 分组离群值聚类GOC算法流程Algorithm 1提取离群将量化后张量按组如128重塑提取超出q_max或低于q_min的离群值。簇平衡检查分别计算正离群q_max与负离群q_min到剪裁边界的累计距离d1、d2。若某簇过小d (d1d2)/(2C)或C1时取较近侧则剔除该簇将其离群值还原为对应的q_max或q_min。K-means聚类对剩余离群值执行K-means簇数C 剩余编码空间数用各簇均值代表组内离群值存入GOC LUT。与常规K-means对比图5当C1时GOC显著优于常规K-means常规会将正负离群混杂均值偏离。当C2时两者相当但GOC计算复杂度更低。C3/4时困惑度反而上升因此本文设置C1或2。2.4 逐层配置搜索对每层搜索最优的r和n编码空间缩减数以最小化||W - GOC(RBC(W, r, n))||。以网格搜索方式确定每层配置。三、硬件层面OFQ-LLM加速架构3.1 OFQ解码器图8输入4-bit OFQ编码数据符号-幅值格式。操作比较器判断输入是否为左编码值如-7。若否直接输出正常值若是激活olvld信号前导1检测器LOD生成离群IDOid从GOC LUT查询对应的8-bit实际离群值拆分为MSP[6:3]与LSP[2:0]将LSP与符号拼为正常部分MSP与符号拼为离群部分。硬件开销仅需比较器、多路选择器、OR门与LOD极简逻辑。3.2 OFQ编码器图9对原始值实时编码与q_max/q_min比较超出者分别分配左编码-7/-0。组内group size2^g用移位器shifter计算均值作为GOC LUT条目。正常值按RBC缩放后量化至缩减空间。3.3 离群-正常混合PE图10数学分解激活X与权重W的乘积累加可拆分为XW∑(XoWo≪6(XoWnWoXn)≪3XnWn)XW \sum (X^o W^o \ll 6 (X^o W^n W^o X^n) \ll 3 X^n W^n)XW∑(XoWo≪6(XoWnWoXn)≪3XnWn)其中X^o/W^o为离群部分MSP3-bitX^n/W^n为正常部分LSP3-bit。离群部分利用GOC聚类特性的高效计算∑XoWn∑i∈GOCXio(∑jWjn)≪3\sum X^o W^n \sum_{i \in GOC} X_i^o (\sum_j W_j^n) \ll 3∑XoWni∈GOC∑​Xio​(j∑​Wjn​)≪3∑WoXn∑i∈GOCWio(∑jXjn)≪3\sum W^o X^n \sum_{i \in GOC} W_i^o (\sum_j X_j^n) \ll 3∑WoXni∈GOC∑​Wio​(j∑​Xjn​)≪3即先累加所有与同一GOC离群值相乘的正常值再统一乘以该离群值将多次乘法简化为一次乘法多次累加极大降低乘法器数量。硬件结构正常逻辑灰色处理密集的正常值MAC。离群逻辑绿色仅3个乘法器对应MSP 3-bit以交叠方式interleaved处理稀疏离群值。无离群值时离群逻辑完全门控关断功耗近零。实测离群逻辑占PE面积43.57%但翻转率仅5.44%。3.4 可重构数据流图12-14阶段运算类型PE阵列行为累加器模式预填充GEMMm×k×k×m激活行广播权重列广播输出驻留每个PE对应独立累加器图14b解码GEMV1×mk×mk×m激活向量列广播权重矩阵逐列加载行方向加法树累加图14c混合精度INT88-bit激活 × 4-bit权重2×2相邻PE协同移位后累加4 RAU移位累加图14d可重构累加单元RAU通过多路选择器配置为独立累加器、行间加法树或移位累加链兼容三种模式。四、实验结果4.1 量化精度Perplexity↓OPT系列W4A4模式Wikitext2模型RPTQ [14]QHACoD [20]OFQ-LLM-R本文OPT-1.3B16.8818.3116.49OPT-6.7B12.0012.0911.82OPT-13B12.7412.6212.20LLaMA-7BW4A4SmoothQuant的困惑度为19.21OFQ-LLM-S降至6.30降低7.71点。4.2 硬件核心架构对比TSMC 65nm, 200MHz指标ANT [35]SPARK [29]OliVe [21]QHACoD [20]本文面积 (mm²)4.383.954.394.355.32功耗 (mW)496.6508.2497.5611.9378.5吞吐 (TOPS)0.8-1.60.8-1.62.113.23.2能效 (TOPS/W)1.611.57-4.244.245.238.45OFQ-LLM核心能效为OliVe的2.0倍ANT的5.2倍。4.3 端到端LLM推理加速vs OliVe阶段性能提升能耗降低预填充Prefilling最高3.83×最高2.44×解码Decoding最高2.01×最高2.88×4.4 面积与功耗分解图15PE阵列占总面积主要部分其中离群逻辑占PE面积43.57%但翻转率仅5.44%动态功耗极低。OFQ解码器与GOC LUT面积占比小控制逻辑简洁。五、技术总结OFQ-LLM通过算法-硬件协同设计系统性解决了LLM低比特量化的离群值难题算法层RBC以Δ1的缩放策略降低正常值量化误差GOC以聚类均值聚合组内离群值用剩余编码槽1~2个实现灵活表示避免稀疏坐标或变长编码的硬件开销。编码层OFQ编码采用内存对齐的符号-幅值格式左编码值与GOC LUT映射机制使解码器仅需比较器MUXLOD极简且高速。计算层离群-正常混合PE将离群值计算转化为“先累加后乘”的稀疏交叠模式乘法器数量由O(N)降为O(C)C为簇数且离群逻辑可门控关断实现密度与效率兼得。数据流层可重构累加器支持GEMM/GEMV/混合精度三种模式适配LLM预填充与解码两阶段的不同计算形态。实验证明离群值的“弹性编码聚类聚合”能够在4-bit量化下同时保持模型精度Perplexity为SOTA最优与硬件能效8.45 TOPS/W为边缘端LLM部署提供了可行的低比特加速路径。