LLM 的三类量化方法对比
| 维度 | GPTQ | AWQ | GGUF |
|---|---|---|---|
| 核心算法 | OBQ误差补偿 | 激活感知保护 | k-means聚类混合精度 |
| 硬件要求 | NVIDIA GPU (CUDA) | NVIDIA GPU (CUDA) | CPU / GPU / Apple Silicon |
| 推理速度(GPU) | 最快 | 快 | 中等 |
| 推理速度(CPU) | 不支持 | 不支持 | 最快(唯一选择) |
| 量化质量 | 中等 | 最好 | 中等 |
| 长上下文表现 | 一般 | 好 | 中等 |
| 文件格式 | 多文件 | 多文件 | 单文件 |
| 消费级友好度 | 低 | 低 | 高 |
| vLLM支持 | 支持 | 原生支持 | 有限支持 |
内存估算:你的硬件到底能跑多大的模型
量化选择最终要落到一个具体问题上:我的硬件能跑多大的模型?
这里有一个粗略但实用的公式:
模型内存需求 ≈ 参数量 × 每参数字节数 × 1.2
那个 1.2 是 overhead 系数,涵盖了 KV 缓存、推理过程中的临时计算空间等额外开销。实际上这个系数会根据上下文长度和 batch size 变化,但 1.2 是一个合理的日常估算值。
常见配置的内存需求:
| 模型 | 量化 | 估算内存 |
|---|---|---|
| 7B | Q4_K_M | ~4.2GB |
| 7B | Q8_0 | ~8.4GB |
| 13B | Q4_K_M | ~7.8GB |
| 13B | Q8_0 | ~15.6GB |
| 70B | Q4_K_M | ~42GB |
拿这个表对照你的硬件:
- M4 MacBook Air 16GB 内存:能跑 7B Q4_K_M(4.2GB),还有余量。13B Q4_K_M(7.8GB)勉强可以,但系统本身也需要内存,实际体验可能会有些卡顿。
- M4 Pro MacBook Pro 24GB 内存:13B Q4_K_M 很舒服,7B Q5_K_M 或 Q6_K 也没问题。
- M4 Max 48GB/64GB 内存:70B Q4_K_M 需要 42GB,48GB 版本刚好能塞进去但会很紧张。64GB 版本可以流畅运行。
- RTX 4090 24GB 显存:13B Q4_K_M 没问题,70B 必须做 CPU-GPU 混合推理。
- 纯CPU(无独显):只有 GGUF 格式可选,7B Q4_K_M 是最实用的配置。
注意:Apple Silicon 的统一内存架构有一个优势:CPU 和 GPU 共享同一块内存,模型不需要在 CPU 内存和 GPU 显存之间复制。这意味着在 Mac 上跑 GGUF 模型时,内存利用率比传统 PC 加独显的组合要高。
另一个常见误区:很多人看到“24GB 显存”就以为能装 24GB 的模型。实际上不行。操作系统、显示输出、其他应用都在占用显存或内存。一般来说,你的可用空间大约是标称容量的 60-70%。24GB 显存的 GPU,实际可用于模型的大约是 15-17GB。24GB 统一内存的 Mac,扣掉系统和其他应用的开销,留给模型的大约是 14-16GB。
所以做内存估算的时候,不要贴着上限去选。留出足够的余量,体验会好很多。模型勉强塞进去和舒适运行之间的差距,是卡顿和流畅的差距。