LLM 量化方法对比

一份实用对比笔记，梳理 GPTQ、AWQ、GGUF 三种大语言模型量化方法的核心差异、硬件适性以及基于参数量与量化等级的粗略内存估算。

Summary

文档从算法原理、硬件要求、推理速度、量化质量、文件格式与消费级友好度等维度对三种量化方法进行表格对比。随后给出内存估算公式「模型内存需求 ≈ 参数量 × 每参数字节数 × 1.2」，列出 7B、13B、70B 模型在不同量化级别下的估算内存，并对照 M4 系列 Mac、RTX 4090 等硬件给出选型建议。文档指出在 Apple Silicon 统一内存架构上运行 GGUF 模型可避免 CPU/GPU 间复制开销，同时提醒实际可用内存通常只有标称容量的 60–70%。

Key Claims

GGUF 是 CPU 推理与 Apple Silicon 场景下的唯一现实选择，消费级友好度最高，单文件分发，但在 GPU 推理速度上不及 GPTQ/AWQ。
GPTQ 在 NVIDIA GPU 上推理速度最快；AWQ 量化质量最好且长上下文表现更优，二者均需要 CUDA，不支持纯 CPU 推理。
模型内存需求可粗略估算为：参数量 × 每参数字节数 × 1.2（overhead 包含 KV 缓存等临时空间）。
标称内存/显存容量不等于全部可用于模型加载，实际可用空间约为总容量的 60–70%，选型时应留出余量以保证流畅体验。
Apple Silicon 的统一内存架构消除了 CPU 与 GPU 间的模型副本复制，内存利用率优于传统 CPU+独显组合。

LLM 量化方法对比

Summary

Key Claims

Suggested Links