Quant.npu: Enabling Efficient Mobile NPU Inference for on-device LLMs via Fully Static Quantization
移动端 LLM 推理依赖 NPU 的全静态量化,但现有 PTQ 方法使用动态激活量化,难以适配移动 NPU。Quant.npu 通过可学习量化参数、旋转矩阵、旋转感知初始化与两阶段优化实现整数全静态量化,在真实 NPU 上达到 SOTA 精度,并将推理延迟降低 15.1%。
- 中文标题
- Quant.npu:通过全静态量化实现移动设备上大语言模型的高效 NPU 推理
- 方法
- 整数全静态量化框架,结合可学习量化参数、旋转矩阵和两阶段选择性优化。
- 结果
- 真实移动 NPU 上达到 SOTA 精度,推理延迟降低 15.1%。
- 来源
- arXiv: 2605.20295v1