143、海思 NNIE 加速推理:NPU 在 ISP 降噪、超分中的硬件加速方案一、从一次“跑不动”的调试说起去年做某款旗舰机型的夜景降噪,ISP pipeline 里塞了一个轻量级 CNN 降噪模型,跑在 CPU 上,1080p 输入,单帧推理耗时 180ms。产品经理说:“夜景连拍要 3 帧合成,每帧 30ms 以内,你看着办。”我当时差点把开发板摔了。后来把模型切到海思 NNIE(Neural Network Inference Engine)上,单帧降到 8ms,还顺手塞了一个超分模块。但中间踩的坑,够写一本《NNIE 血泪史》。今天这篇笔记,就聊聊 NNIE 在 ISP 降噪、超分场景下的硬件加速方案,全是实战中磨出来的经验。二、NNIE 不是“万能加速器”——先搞清楚它能干什么海思 NNIE 本质是一个固定算子的 NPU,支持卷积、池化、全连接、激活等常见操作,但不支持循环、条件分支、动态 shape。这意味着:降噪模型:只要不是 Transformer 或 RNN 结构,CNN 类的基本都能跑。超分模型:ESPCN、FSRCNN 这种轻量级上采样可以,但 SRGAN 那种带残差密集块的,NNIE 的算子支持列表里可能缺几个,得手动拆。这里踩过坑:我一开始把 PyTorch 里的 PixelShuffle 直接转,NN