EdgeDiff:面向多模态少步扩散模型的混合精度与重排序分组量化加速器 EdgeDiff: Energy-Efficient Multi-Modal Few-Step Diffusion Model Accelerator Using Mixed-Precision and Reordered Group Quantization 阅读总结中文标题EdgeDiff面向多模态少步扩散模型的混合精度与重排序分组量化加速器作者Sangjin Kim, Jungjun Oh, Jeonggyu So, Yuseon Choi, Sangyeob Kim, Dongseok Im, Gwangtae Park, Hoi-Jun Yoo发表IEEE JSSC工艺28nm CMOS芯片面积20.25 mm²摘要EdgeDiff是首款支持端到端、少步few-step、多模态multi-modal扩散模型DM推理的专用处理器。针对少步扩散模型FSDM中时间步间冗余消失、编解码器计算占比剧增及量化敏感度显著提升三大特征变化提出条件感知重排序分组混合精度CRMP方案并配套设计了压缩-累加CAA处理单元、位混洗树BST、分层累加单元TAU与网格化量化单元GQU等微架构。芯片在28nm CMOS实现峰值能效34.4 TOPS/W单步文生图能耗418.4 mJ/图较此前最优工作降低3.3倍。核心专有名词解析术语缩写定义面向跨专业读者扩散模型DM通过渐进去噪过程从随机噪声生成图像的生成式AI模型。少步扩散模型FSDM通过知识蒸馏将去噪步数从数十至数千步压缩至1~4步的扩散模型变体。多模态条件Multi-modal同时接受文本、图像等多种输入模态作为生成条件的机制。通道显著性Channel Saliency激活张量中某些通道的幅值系统性大于其他通道的特性这些通道对输出起主导作用。组量化Group Quantization将通道分组每组共享一个浮点缩放因子SF以提升低比特量化精度。混合精度Mixed Precision对不同通道组采用不同位宽INT4/INT8执行计算平衡精度与能效。条件感知重排序分组混合精度CRMPEdgeDiff提出的量化策略根据输入条件动态监测通道显著性重排通道顺序后实施分组量化与混合精度分配。压缩-累加处理单元CAA PE改变传统乘加顺序先做通道间压缩累加再做位间移位累加将符号重配开销从乘法器转移到共享加法器。位混洗树BST由单元混洗逻辑USL构成的蝴蝶网络将输入比特流极化1集中左侧、0集中右侧降低压缩器翻转率。分层累加单元TAU两级累加结构默认使用24-bit整数累加器I-AC仅当溢出或离群值出现时启用浮点累加器F-AC减少FP累加能耗。网格化量化单元GQU替代FP除法的量化电路生成缩放因子网格SFG通过比较器查找量化电平支持4/8/12/16-bit迭代量化。单元混洗逻辑USLBST的基本单元接收两比特输入输出对齐的密集稀疏对保持1的个数不变由1个AND门和1个OR门实现。一、研究背景与动机1.1 扩散模型的三项关键演进演进一少步去噪FSDM传统DM需数千步迭代生成单张图像。FSDM通过对抗性蒸馏Adversarial Diffusion Distillation将步数压缩至14步计算量降低9.722.0倍EMA降低12.0~42.3倍。硬件影响相邻时间步的激活值不再相似相关性消失此前利用时间步间冗余跳过计算的优化技术[13][14]完全失效。演进二多模态条件输入传统DM仅支持无条件生成或类别条件生成。现代DM支持文本图像等多模态条件输入如SDXL。硬件影响新增编码器文本编码器、图像编码器的计算负载大幅上升编解码器在总计算中的占比显著增加。演进三量化敏感度剧增传统多步DM对INT8量化鲁棒可采用逐通道/逐张量静态量化。FSDM对激活和权重量化的敏感度急剧上升需采用组量化group quantization与混合精度方可维持图像质量。1.2 此前硬件方案的局限性此前方案依赖技术在FSDM下的失效原因Qin et al. [13]时间步间背景像素重用FSDM仅1~4步相邻步激活不相关Guo et al. [14]相邻步激活差分计算同上Yoo et al. [15]自定义FP单元FP运算固有能效低不适用于低比特整数推理1.3 三项硬件挑战挑战一通道显著性的动态变化LLM等模型中离群通道在不同输入批次下重叠率达71%~93%可静态处理。FSDM中输入条件或初始噪声变化时离群通道重叠率低于5%需运行时动态感知。挑战二混合精度PE的符号重配开销比特切片bit-slice计算中高位切片为有符号数、低位切片为无符号数产生SS/SU/US/UU四种符号模式。传统方案[22][24]需为每种模式复制逻辑或采用位宽放大MAC面积与功耗开销显著。挑战三组量化带来的FP运算开销组量化依赖浮点缩放因子涉及FP缩放、累加与除法功耗极高。需设计专用低开销FP单元支持组量化运算。二、核心架构与技术方案2.1 整体架构EdgeDiff由四大模块构成动态分组与重排序单元DGRU包含通道分组单元CGU与重排序量化单元RQU运行时分析激活显著性执行通道重排与组量化。8个混合组精度核心MGPC每个核心含16×16×32张量PE阵列、本地存储器及专用精度控制通路。1.28 MB全局存储器双Bank 640KB含1D SIMD核心处理非线性运算。顶层控制器协调各模块通信与调度。2.2 条件感知重排序分组混合精度CRMPCRMP包含三个步骤步骤一显著性监测Saliency MonitoringMGPC计算输出激活OA后送入全局存储器。1D SIMD引擎以流式方式计算各通道的通道均值作为显著性指标。步骤二分组Grouping按显著性值对通道排序将320个通道划分为多个32通道组组内显著性分布均匀。CGU采用递归分割recursive partitioning实现排序并支持组内排序旁路bypass——因组量化仅依赖组内最大值组内顺序不影响结果旁路可降低29.8%分组延迟。步骤三重排序ReorderingIA和W从全局存储器加载至MGPC时依据分组结果进行物理地址重排。IA监测→分组→重排序三步全流程。W仅依据对应IA的分组结果执行重排序。重排后组内数据范围收窄FFN层SQNR从18.17 dB提升至19.38 dB。混合精度策略每组静态配置INT4或INT8高精度组比例根据网络模块和步数预先确定。单步推理对量化更敏感高精度组比例高于四步推理。2.3 压缩-累加处理单元CAA PE传统架构问题并行乘法器→加法树位间累加在先乘法器内通道间累加在后加法树。支持四种符号模式需重配每个乘法器开销巨大。CAA创新点交换累加顺序通道间累加在先压缩器→位间累加在后移位加法器。符号模式重配从乘法器级转移到共享加法器级显著降低开销。第一级16个位压缩器BC各对应4×4-bit乘法的一个位积。每BC接收32对1-bit输入执行AND后压缩为6-bit结果。第二级位间加法器IBA包含两个4路移位-加结构分别对应IA和W采用加法器-减法器处理MSB有符号路径。性能收益相比传统Mult.AT设计MAC功耗降低36.6%面积几乎不变1.058×。2.4 位混洗树BST问题CAA架构中32:6压缩器功耗占MAC总功耗的主导地位。BST结构由单元混洗逻辑USL构成2.5级蝴蝶网络。USL2-bit输入→密集稀疏输出保持1的个数不变由1个AND门1个OR门实现。第一级分离密集D与稀疏S组第二级进一步分为DD/DS/SD/SS第三级仅混洗DS与SD分支。效果比特流极化1集中左侧、0集中右侧。压缩器翻转率从0.867降至0.5031.72×降低。静态功耗微增但因USL仅2门/级优于压缩器中5门/FA整体MAC功耗降低36.6%。2.5 分层累加单元TAU问题组量化需要FP缩放因子FP累加功耗高昂。TAU结构第一级默认24-bit整数累加器I-AC低功耗。第二级条件激活浮点累加器F-AC仅当I-AC溢出或检测到离群值时启用。溢出检测单元ORDU使用前导1检测器估算所需动态范围结合缩放因子指数判断是否超出24-bit范围。能耗收益I-AC替代纯FP累加降低76.2%累加能耗。TAU使核心能效提升4-bit模式提升80.3%8-bit模式提升9.8%面积开销仅3.4%。2.6 网格化量化单元GQU问题组量化涉及FP除法激活 ÷ 缩放因子功耗高昂。GQU原理生成缩放因子网格SFG由网格生成电路GGC构建SFG将SF尾数乘以固定量化电平集合如-7.5至7.5。电平检测电路LDC32个LDC并行工作将各OA与SFG条目比较确定量化电平。迭代支持多精度MSB切片使用OA算术移位后的值作为比较输入LSB切片使用原始OA - 已量化值 × SF尾数作为输入同一电路支持4/8/12/16-bit量化。性能收益共享GGC设计使峰值功耗降低95.4%、面积降低66.7%vs. 朴素FP实现。能量节省5.4×~21.7×依目标位宽而定。三、芯片实现与实测结果3.1 芯片规格参数数值工艺28nm CMOS面积20.25 mm²电压0.68 – 1.0 V频率50 – 250 MHzSRAMMGPC 600KB 全局存储器 1.28MB精度支持IA/W: INT4/8/12/16SF: FP8/FP16 (IA), INT4 (W)峰值能效34.4 TOPS/W 50MHz, 0.68V (INT4)峰值性能8.6 TOPS 250MHz, 1.0V3.2 端到端生成能耗与延迟任务步数能耗 (mJ/图)备注T2I1步418.43.3×优于此前最优[13][14]T2I4步786.3—I2I1步506.5—I2I4步846.0—3.3 各技术模块贡献CRMP对延迟的加速比编码器1.6×~2.0×UNet1.5×~1.8×四步/ 1.4×~1.6×一步解码器1.4×~1.6×各模块功耗降低CAA BST TAUMGPC功耗显著下降GQU量化单元功耗降低综合系统功耗较基线降低41.6%总体加速比vs. 50步4-bit基线T2I15.7×含FSDM的9.4× CRMP的1.67×I2I13.1×含FSDM的7.9× CRMP的1.66×3.4 图像质量评估T2IMS-COCO, 30k prompts配置FID ↓CLIP ↑FP32基线19.760.321EdgeDiff混合精度20.090.310I2IPSNR各prompt下均保持30 dB PSNR与FP基线输出高度一致。精度-速度权衡静态INT4量化FID严重退化CRMP混合精度在接近INT8质量的同时保留显著性能增益。3.5 与SOTA对比对比维度EdgeDiff[13] VLSI’24[14] ISSCC’24[15] ESSERC’24支持的DM阶段编码器UNet解码器仅UNet仅UNet全流水线支持FSDM✓×××支持多模态✓×××峰值能效 (TOPS/W)34.452.0 (FP8)74.3 (BF16)4.96T2I单图能耗 (mJ)418.4~1400*~1400*—*注对比值基于报告峰值能效推算[13][14]仅支持多步DM无法直接运行FSDM。四、技术总结EdgeDiff通过以下技术路径实现FSDM端侧高效推理算法层面CRMP通过运行时通道显著性监测与重排解决FSDM中通道重要性随输入条件剧烈波动的难题使组量化和混合精度可有效部署。计算架构层面CAA PE通过颠倒累加顺序通道间先于位间将符号重配开销从乘法器级迁移至共享加法器级BST通过比特流极化降低压缩器翻转率两者协同实现低开销混合精度整数MAC。量化支持层面TAU以整数累加器为主路径、FP累加器为备用路径降低组量化中FP累加能耗GQU以网格比较替代FP除法支持可扩展的多精度量化。系统层面通过统一加速编码器、UNet与解码器EdgeDiff支持端到端FSDM推理在多模态条件下保持图像质量FID 20.09PSNR 30 dB的同时实现418.4 mJ/图的单步生成能耗较此前最优设计降低3.3倍。该芯片证明通过算法-架构协同设计可在28nm成熟工艺下实现实时、高能效的端侧生成式AI推理。