支持的硬件¶

下表显示了vLLM中各种量化实现与不同硬件平台的兼容性。

实现	Volta	Turing	Ampere	Ada	Hopper	AMD GPU	Intel GPU	Intel Gaudi	x86 CPU	AWS Neuron	Google TPU
AWQ	❌	✅︎	✅︎	✅︎	✅︎	❌	✅︎	❌	✅︎	❌	❌
GPTQ	✅︎	✅︎	✅︎	✅︎	✅︎	❌	✅︎	❌	✅︎	❌	❌
Marlin (GPTQ/AWQ/FP8)	❌	❌	✅︎	✅︎	✅︎	❌	❌	❌	❌	❌	❌
INT8 (W8A8)	❌	✅︎	✅︎	✅︎	✅︎	❌	❌	❌	✅︎	✅︎	✅︎
FP8 (W8A8)	❌	❌	❌	✅︎	✅︎	✅︎	❌	❌	❌	✅︎	❌
BitBLAS (GPTQ)	✅︎	✅︎	✅︎	✅︎	✅︎	❌	❌	❌	❌	❌	❌
AQLM	✅︎	✅︎	✅︎	✅︎	✅︎	❌	❌	❌	❌	❌	❌
bitsandbytes	✅︎	✅︎	✅︎	✅︎	✅︎	❌	❌	❌	❌	❌	❌
DeepSpeedFP	✅︎	✅︎	✅︎	✅︎	✅︎	❌	❌	❌	❌	❌	❌
GGUF	✅︎	✅︎	✅︎	✅︎	✅︎	✅︎	❌	❌	❌	❌	❌
INC (W8A8)	❌	❌	❌	❌	❌	❌	❌	✅︎	❌	❌	❌

Volta 指的是 SM 7.0，Turing 指的是 SM 7.5，Ampere 指的是 SM 8.0/8.6，Ada 指的是 SM 8.9，Hopper 指的是 SM 9.0。
✅︎ 表示该量化方法在指定的硬件上受支持。
❌ 表示该量化方法在指定的硬件上不受支持。

注意

此兼容性图表可能会随vLLM的不断发展以及其对不同硬件平台和量化方法支持的扩展而发生变化。

有关硬件支持和量化方法的最新信息，请参阅 vllm/model_executor/layers/quantization 或咨询vLLM开发团队。