LLM 的三类量化方法对比

维度	GPTQ	AWQ	GGUF
核心算法	OBQ误差补偿	激活感知保护	k-means聚类混合精度
硬件要求	NVIDIA GPU (CUDA)	NVIDIA GPU (CUDA)	CPU / GPU / Apple Silicon
推理速度(GPU)	最快	快	中等
推理速度(CPU)	不支持	不支持	最快（唯一选择）
量化质量	中等	最好	中等
长上下文表现	一般	好	中等
文件格式	多文件	多文件	单文件
消费级友好度	低	低	高
vLLM支持	支持	原生支持	有限支持

内存估算：你的硬件到底能跑多大的模型

量化选择最终要落到一个具体问题上：我的硬件能跑多大的模型？

这里有一个粗略但实用的公式：

模型内存需求 ≈ 参数量 × 每参数字节数 × 1.2

那个 1.2 是 overhead 系数，涵盖了 KV 缓存、推理过程中的临时计算空间等额外开销。实际上这个系数会根据上下文长度和 batch size 变化，但 1.2 是一个合理的日常估算值。

常见配置的内存需求：

模型	量化	估算内存
7B	Q4_K_M	~4.2GB
7B	Q8_0	~8.4GB
13B	Q4_K_M	~7.8GB
13B	Q8_0	~15.6GB
70B	Q4_K_M	~42GB

拿这个表对照你的硬件：

M4 MacBook Air 16GB 内存：能跑 7B Q4_K_M（4.2GB），还有余量。13B Q4_K_M（7.8GB）勉强可以，但系统本身也需要内存，实际体验可能会有些卡顿。
M4 Pro MacBook Pro 24GB 内存：13B Q4_K_M 很舒服，7B Q5_K_M 或 Q6_K 也没问题。
M4 Max 48GB/64GB 内存：70B Q4_K_M 需要 42GB，48GB 版本刚好能塞进去但会很紧张。64GB 版本可以流畅运行。
RTX 4090 24GB 显存：13B Q4_K_M 没问题，70B 必须做 CPU-GPU 混合推理。
纯CPU（无独显）：只有 GGUF 格式可选，7B Q4_K_M 是最实用的配置。

注意：Apple Silicon 的统一内存架构有一个优势：CPU 和 GPU 共享同一块内存，模型不需要在 CPU 内存和 GPU 显存之间复制。这意味着在 Mac 上跑 GGUF 模型时，内存利用率比传统 PC 加独显的组合要高。

另一个常见误区：很多人看到“24GB 显存”就以为能装 24GB 的模型。实际上不行。操作系统、显示输出、其他应用都在占用显存或内存。一般来说，你的可用空间大约是标称容量的 60-70%。24GB 显存的 GPU，实际可用于模型的大约是 15-17GB。24GB 统一内存的 Mac，扣掉系统和其他应用的开销，留给模型的大约是 14-16GB。

所以做内存估算的时候，不要贴着上限去选。留出足够的余量，体验会好很多。模型勉强塞进去和舒适运行之间的差距，是卡顿和流畅的差距。