C-Transformer:面向大语言模型的同构DNN-Transformer/SNN-Transformer融合处理器
C-Transformer: An Energy-Efficient Homogeneous DNN-Transformer/SNN-Transformer Processor for Large Language Models阅读总结中文标题 C-Transformer面向大语言模型的同构DNN-Transformer/SNN-Transformer融合处理器作者Sangyeob Kim, Sangjin Kim, Wooyoung Jo, Soyeon Kim, Seongyon Hong, Nayeong Lee, Jungwan Lee, Hoi-Jun Yoo发表IEEE JSSC工艺Samsung 28nm 1P8M CMOS摘要本文提出C-Transformer处理器旨在解决大语言模型LLM部署于移动端时面临的两大核心瓶颈外部存储器访问EMA能耗占比过高与计算能效不足。该芯片融合DNN-Transformer与SNN-Transformer两种计算范式通过同构核心架构实现动态工作负载下的高硬件利用率并采用三级权重压缩技术大幅降低EMA。芯片在28nm CMOS工艺下实现支持GPT-2、mT5、T5、FSMT等模型的语言建模、翻译与摘要任务系统能耗较基线降低59%~79%。核心专有名词解析术语缩写定义面向跨专业读者脉冲神经网络SNN神经元以离散脉冲spike传递信息仅当膜电位超过阈值时发射脉冲。计算为累加操作无乘法能耗与脉冲稀疏度成正比。深度神经网络DNN传统人工神经网络每层执行密集矩阵乘法MAC操作能耗相对稳定与输入幅值无关。互补DNNC-DNN将DNN工作负载按输入幅值动态划分为SNN部分小幅值→累加与DNN部分大幅值→MAC实现全局能耗最优。同构核心Homogeneous Core同一硬件单元可通过配置切换为DNN模式或SNN模式避免异构架构中因工作负载比例变化导致的部分核心闲置。混合乘加单元HMAU可重构乘法器/累加器阵列DNN模式下执行1次N-bit乘法SNN模式下执行N次1-bit累加AND加法。位对齐Bit AlignmentSNN模式下多通道AND结果的位权需对齐后方可列向累加。HMAU通过重排权重位序实现垂直方向同权位对齐。输出脉冲推测OSSU对SNN的完整时间窗口仅采样前25%~50%时间步执行实际积分-发放运算根据采样步的发放概率推测剩余时间步的脉冲模式跳过后续计算。大-小模型BLN推理时优先使用小模型低精度、低参数生成输出当输出置信度低于阈值时调用大模型重新计算兼顾能效与精度。隐式权重生成IWG离线训练一个多层感知器MLP记忆原始LLM的权重分布。片上仅存储权重索引运行时由MLP重构权重大幅减少EMA。扩展符号压缩ESC神经网络权重呈高斯分布多数权重高位为冗余符号位全0或全1。ESC将8-bit权重压缩为5-bit低位4-bit 1-bit符号标志解码时还原MSB。一、研究动机与挑战1.1 SNN与DNN的互补特性SNN输入幅值越小→脉冲越稀疏→累加次数越少→能耗越低。DNN能耗与输入幅值相关性弱全加器FA基本恒定工作。互补策略小幅值数据→SNN处理大幅值数据→DNN处理。前期工作C-DNN在ResNet-18上证明该策略可降低31%推理能耗。1.2 语言模型带来的新挑战挑战一动态变化的SNN/DNN比例GPT-2语言建模中SNN-Transformer占比变化范围为45%~98%。mT5翻译任务中SNN-Transformer占比变化范围为48%~99%。若采用异构核心部分核心仅支持DNN、部分仅支持SNN当某一模式占比下降时对应核心闲置利用率下降32%~36%。挑战二EMA能耗主导语言模型参数量为图像分类模型ResNet-50的18倍计算量为43倍。因语言模型难以通过剪枝实现高稀疏度EMA能耗占总系统能耗的**~70%**。此前Transformer ASIC的能效评测均未计入EMA能耗与实际系统工况严重脱节。二、核心架构与技术方案2.1 整体架构芯片包含48个HDSC同构DNN/SNN核心、两个权重生成器WG、一个1D SIMD单元处理INT16异常值及片上网络NoC。每个HDSC包含8×16个HMAU、输入加载器、OSSU、工作负载分配器及本地存储器。工作负载分配器在层间或层内动态累加输入幅值统计量决策下一计算阶段采用DT-mode还是ST-mode且该决策过程与计算流水线重叠额外延迟被完全隐藏。2.2 混合乘加单元HMAUDT-modeDNN模式输入的不同bit位送至不同行同一权重广播至所有行。直通连接RC送入0进位从右半部分传至左半部分。行为与标准乘法器完全一致1次乘法/周期。ST-modeSNN模式权重与1-bit脉冲在不同通道间进行AND操作需对多通道结果进行列向累加。Step 1权重与脉冲沿垂直方向单播每行独立计算AND。Step 2位对齐——将各行权重的bit序重排如第2行原序[3,2,1,0] → [0,3,2,1]使相同权位垂直对齐实现正确列向累加。Step 3高位送入右半部分低位送入左半部分两部分分别累加。Step 4右半部分的进位与左半部分结果聚合完成最终累加。结果N次累加/周期N等于位宽。权重馈送逻辑WFLDT-mode一次加载N个权重分N周期逐行发送。ST-modeN个权重同时加载至N行。两种模式下权重带宽归一化数据供给速率与计算速率匹配。面积与能效权衡HMAU相比标准MAC面积开销15.1%功耗开销11.6%。因核心利用率从32%36%提升至49%74%能效提升59%计入EMA及SIMD延迟后。脉冲级零跳过输入加载器仅在检测到脉冲的通道上激活FA无效通道被跳过FA利用率提升28.6%。2.3 输出脉冲推测单元OSSU基本原理采用速率编码rate coding输入幅值与时间窗口内脉冲频率成正比。采样时间步的脉冲频率可反映完整窗口的脉冲频率。对采样步进行实际积分-发放运算获得发放概率据此推测剩余时间步的输出脉冲模式。实现流程Step 1仅对采样时间步如25%执行积分-发放计算输出发放概率。Step 2利用发放概率与随机数生成器对剩余时间步进行输出速率编码。Step 3跳过剩余时间步的积分-发放运算。阈值设置DNN定点数据分辨率为2⁻ᶠf为小数位长最大值2^(w-f-1)w为字长。设定SNN阈值 2⁻ᶠ使每个输出脉冲携带的信息量等同于DNN的1 LSB。时间窗口 2^(w-1)使SNN最大值与DNN最大值对齐。实测结果GPT-2语言建模中平均采样率40.7%跳过59.3%时间步困惑度仅增加0.2。2.4 三级权重压缩Stage 1大-小模型BLN小模型优先推理输出token置信度低于阈值时调用大模型。参数减少量解码阶段EMA降低39%~59%。Stage 2隐式权重生成IWG离线训练MLP5层INT8记忆LLM权重分布。片上仅存储权重索引运行时MLP重构权重索引大小远小于原始权重。EMA再降低21%28%累计60%71%。Stage 3扩展符号压缩ESC权重呈高斯分布MSB部分多为冗余符号位。8-bit权重压缩为5-bit4-bit LSB 1-bit符号标志解码时还原MSB。对4-bit权重压缩仍可降低EMA约20%。EMA累计降低74%~81%。片上解压数据流外部输入四类数据索引8-bit、符号1-bit、未压缩数据的MSB4-bit、所有数据的LSB4-bit。各类型分组打包32-bit对齐后独立存储ESDU完成符号扩展IWGU执行MLP重构最终权重经NoC发送至HDSC。三、芯片实现与实测结果3.1 芯片规格参数数值工艺Samsung 28nm 1P8M CMOS面积20.25 mm²电压0.7–1.1 V频率50–200 MHzSRAM500 KB精度INT8HDSC/ INT161D SIMD峰值性能3.41 TOPS 200MHz能效芯片级22.9–47.8 TOPS/W 50MHz, 0.7V外部带宽1.6 GB/s系统功耗47.6 mW 50MHz, 0.7V3.2 典型任务延迟与能耗200MHz, 1.1V50MHz, 0.7V计算能耗模型任务精度指标延迟系统能耗计算能耗比EMA能耗比GPT-2语言建模PPL 14.96656 ms35.9 mJ0.33×0.38×mT5翻译BLEU 39.83359 ms21.3 mJ0.31×0.37×T5摘要ROUGE-L 28.54307 ms15.0 mJ0.21×0.39×FSMT翻译BLEU 40.5593 ms5.5 mJ0.27×0.41×能耗比均为相较于未使用本论文提出技术的基线3.3 各技术模块贡献芯片能效提升芯片级不含EMAHDSC同构核心1.32×脉冲级零跳过1.21×OSSU1.19×三者综合1.9×排除BLN影响系统能耗降低含EMA编码解码BLN0.94×IWG0.75×ESC0.78×全部启用0.43×3.4 与SOTA对比对比条件说明此前Transformer ASIC均未计入EMA能耗。本文按DDR3接口参数对其EMA能耗进行标准化估算基于相同片上缓冲容量假设。对比维度本工作SOTA [17]MulTCIM对比结果参数量708MGPT-2337MViT2.1×参数系统能耗35.9 mJ41.5 mJ降低13.6%归一化能耗同参数量级——降低63.8%吞吐量——2.1×更高归一化吞吐量同参数量级——4.5×更高3.5 系统能耗细粒度分析以GPT-2编码1024 tokens为例系统总能耗构成DDR3 EMA占75.8%17.4 mJ芯片计算占24.2%。三级压缩后总延迟中EMA占40.6%仍为主要瓶颈但已大幅缓解。四、技术总结C-Transformer通过以下技术路径解决LLM端侧部署瓶颈计算维度利用SNN/DNN互补特性以HMAU实现同一硬件单元在乘法和累加模式间无缝切换解决动态工作负载下的核心闲置问题以OSSU跳过SNN冗余时间步降低计算能耗。存储维度以BLN、IWG、ESC三级压缩依次削减权重存储与传输开销累计EMA降低74%~81%将外部带宽需求压缩至1.6 GB/s适配移动端内存接口。系统维度全链路能耗建模——包含EMA的实际系统工况评测比此前仅报告芯片级能效的工作更具工程参考价值。该芯片证明在无需先进制程28nm的条件下通过算法-架构协同设计可使LLM端侧推理延迟控制在亚秒级FSMT仅93ms能耗较此前最优方案降低13.6%参数量反而更大为移动端部署大规模生成式语言模型提供了可行的硅实现路径。