LLM 量化方法对比
一份实用对比笔记,梳理 GPTQ、AWQ、GGUF 三种大语言模型量化方法的核心差异、硬件适性以及基于参数量与量化等级的粗略内存估算。
Summary
文档从算法原理、硬件要求、推理速度、量化质量、文件格式与消费级友好度等维度对三种量化方法进行表格对比。随后给出内存估算公式「模型内存需求 ≈ 参数量 × 每参数字节数 × 1.2」,列出 7B、13B、70B 模型在不同量化级别下的估算内存,并对照 M4 系列 Mac、RTX 4090 等硬件给出选型建议。文档指出在 Apple Silicon 统一内存架构上运行 GGUF 模型可避免 CPU/GPU 间复制开销,同时提醒实际可用内存通常只有标称容量的 60–70%。
Key Claims
- GGUF 是 CPU 推理与 Apple Silicon 场景下的唯一现实选择,消费级友好度最高,单文件分发,但在 GPU 推理速度上不及 GPTQ/AWQ。
- GPTQ 在 NVIDIA GPU 上推理速度最快;AWQ 量化质量最好且长上下文表现更优,二者均需要 CUDA,不支持纯 CPU 推理。
- 模型内存需求可粗略估算为:参数量 × 每参数字节数 × 1.2(overhead 包含 KV 缓存等临时空间)。
- 标称内存/显存容量不等于全部可用于模型加载,实际可用空间约为总容量的 60–70%,选型时应留出余量以保证流畅体验。
- Apple Silicon 的统一内存架构消除了 CPU 与 GPU 间的模型副本复制,内存利用率优于传统 CPU+独显组合。
Suggested Links
- GPTQ
- AWQ
- GGUF
- vLLM