支持的硬件#
下表显示了 vLLM 中各种量化实现在不同硬件平台上的兼容性
实现 |
Volta |
Turing |
Ampere |
Ada |
Hopper |
AMD GPU |
Intel GPU |
x86 CPU |
AWS Inferentia |
Google TPU |
---|---|---|---|---|---|---|---|---|---|---|
AWQ |
❌ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
❌ |
✅︎ |
✅︎ |
❌ |
❌ |
GPTQ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
❌ |
✅︎ |
✅︎ |
❌ |
❌ |
Marlin (GPTQ/AWQ/FP8) |
❌ |
❌ |
✅︎ |
✅︎ |
✅︎ |
❌ |
❌ |
❌ |
❌ |
❌ |
INT8 (W8A8) |
❌ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
❌ |
❌ |
✅︎ |
❌ |
❌ |
FP8 (W8A8) |
❌ |
❌ |
❌ |
✅︎ |
✅︎ |
✅︎ |
❌ |
❌ |
❌ |
❌ |
AQLM |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
❌ |
❌ |
❌ |
❌ |
❌ |
bitsandbytes |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
❌ |
❌ |
❌ |
❌ |
❌ |
DeepSpeedFP |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
❌ |
❌ |
❌ |
❌ |
❌ |
GGUF |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
✅︎ |
❌ |
❌ |
❌ |
❌ |
Volta 指的是 SM 7.0,Turing 指的是 SM 7.5,Ampere 指的是 SM 8.0/8.6,Ada 指的是 SM 8.9,而 Hopper 指的是 SM 9.0。
✅︎ 表示量化方法在指定的硬件上受支持。
❌ 表示量化方法在指定的硬件上不受支持。
注意
随着 vLLM 不断发展并扩展其对不同硬件平台和量化方法的支持,此兼容性图表可能会发生变化。
有关硬件支持和量化方法的最新信息,请参阅 vllm/model_executor/layers/quantization 或咨询 vLLM 开发团队。