支持的硬件

下表显示了 vLLM 中各种量化实现在不同硬件平台上的兼容性。

实现 Volta Turing Ampere Ada Hopper AMD GPU Intel GPU x86 CPU AWS Neuron Google TPU
AWQ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
GPTQ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
Marlin (GPTQ/AWQ/FP8) ✅︎ ✅︎ ✅︎
INT8 (W8A8) ✅︎ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
FP8 (W8A8) ✅︎ ✅︎ ✅︎ ✅︎
BitBLAS (GPTQ) ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
AQLM ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
bitsandbytes ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
DeepSpeedFP ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
GGUF ✅︎ ✅︎ ✅︎ ✅︎ ✅︎ ✅︎
  • Volta 指的是 SM 7.0,Turing 指的是 SM 7.5,Ampere 指的是 SM 8.0/8.6,Ada 指的是 SM 8.9,Hopper 指的是 SM 9.0。
  • ✅︎ 表示该量化方法在指定的硬件上得到支持。
  • ❌ 表示该量化方法在指定的硬件上不受支持。

注意

随着 vLLM 不断发展并扩展对不同硬件平台和量化方法的支持,本兼容性表可能会发生变化。

有关硬件支持和量化方法的最新信息,请参考 vllm/model_executor/layers/quantization 或咨询 vLLM 开发团队。