Carl的生活碎碎念

个人学习记录

Carl的学习笔记

这里记录论文阅读、工程实践和日常技术整理。

网站建设中

近期论文 Blog

从本地 Markdown 笔记整理，保留论文来源、结论和阅读摘要。

精读 Edge LLM 2026年5月19日

Quant.npu: Enabling Efficient Mobile NPU Inference for on-device LLMs via Fully Static Quantization

Jinghe Zhang, Daliang Xu, Chenghua Wang, Weikai Xie, Tao Qi, Yun Ma, Mengwei Xu, Gang Huang

移动端 LLM 推理依赖 NPU 的全静态量化，但现有 PTQ 方法使用动态激活量化，难以适配移动 NPU。Quant.npu 通过可学习量化参数、旋转矩阵、旋转感知初始化与两阶段优化实现整数全静态量化，在真实 NPU 上达到 SOTA 精度，并将推理延迟降低 15.1%。

arXiv 页面

中文标题: Quant.npu：通过全静态量化实现移动设备上大语言模型的高效 NPU 推理
方法: 整数全静态量化框架，结合可学习量化参数、旋转矩阵和两阶段选择性优化。
结果: 真实移动 NPU 上达到 SOTA 精度，推理延迟降低 15.1%。
来源: arXiv: 2605.20295v1