2026年5月26日

#llm#quantization#inference

LLM 的三类量化方法对比

维度GPTQAWQGGUF
核心算法OBQ误差补偿激活感知保护k-means聚类混合精度
硬件要求NVIDIA GPU (CUDA)NVIDIA GPU (CUDA)CPU / GPU / Apple Silicon
推理速度(GPU)最快中等
推理速度(CPU)不支持不支持最快(唯一选择)
量化质量中等最好中等
长上下文表现一般中等
文件格式多文件多文件单文件
消费级友好度
vLLM支持支持原生支持有限支持

内存估算:你的硬件到底能跑多大的模型

量化选择最终要落到一个具体问题上:我的硬件能跑多大的模型?

这里有一个粗略但实用的公式:

模型内存需求 ≈ 参数量 × 每参数字节数 × 1.2

那个 1.2 是 overhead 系数,涵盖了 KV 缓存、推理过程中的临时计算空间等额外开销。实际上这个系数会根据上下文长度和 batch size 变化,但 1.2 是一个合理的日常估算值。

常见配置的内存需求:

模型量化估算内存
7BQ4_K_M~4.2GB
7BQ8_0~8.4GB
13BQ4_K_M~7.8GB
13BQ8_0~15.6GB
70BQ4_K_M~42GB

拿这个表对照你的硬件:

  • M4 MacBook Air 16GB 内存:能跑 7B Q4_K_M(4.2GB),还有余量。13B Q4_K_M(7.8GB)勉强可以,但系统本身也需要内存,实际体验可能会有些卡顿。
  • M4 Pro MacBook Pro 24GB 内存:13B Q4_K_M 很舒服,7B Q5_K_M 或 Q6_K 也没问题。
  • M4 Max 48GB/64GB 内存:70B Q4_K_M 需要 42GB,48GB 版本刚好能塞进去但会很紧张。64GB 版本可以流畅运行。
  • RTX 4090 24GB 显存:13B Q4_K_M 没问题,70B 必须做 CPU-GPU 混合推理。
  • 纯CPU(无独显):只有 GGUF 格式可选,7B Q4_K_M 是最实用的配置。

注意:Apple Silicon 的统一内存架构有一个优势:CPU 和 GPU 共享同一块内存,模型不需要在 CPU 内存和 GPU 显存之间复制。这意味着在 Mac 上跑 GGUF 模型时,内存利用率比传统 PC 加独显的组合要高。

另一个常见误区:很多人看到“24GB 显存”就以为能装 24GB 的模型。实际上不行。操作系统、显示输出、其他应用都在占用显存或内存。一般来说,你的可用空间大约是标称容量的 60-70%。24GB 显存的 GPU,实际可用于模型的大约是 15-17GB。24GB 统一内存的 Mac,扣掉系统和其他应用的开销,留给模型的大约是 14-16GB。

所以做内存估算的时候,不要贴着上限去选。留出足够的余量,体验会好很多。模型勉强塞进去和舒适运行之间的差距,是卡顿和流畅的差距。