欢迎使用 vLLM¶

人人都能轻松、快速、经济地进行 LLM 服务

Star Watch Fork

vLLM 是一个用于 LLM 推理和服务的快速易用库。

vLLM 最初由加州大学伯克利分校的 Sky Computing Lab 开发，现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。

vLLM 的优势在于

vLLM 灵活且易于使用，得益于

与流行的 HuggingFace 模型无缝集成
支持多种解码算法的高吞吐量服务，包括 并行采样、集束搜索 等
支持分布式推理的张量并行和流水线并行
流式输出
OpenAI 兼容的 API 服务器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU、Gaudi® 加速器和 GPU、IBM Power CPU、TPU 以及 AWS Trainium 和 Inferentia 加速器。
前缀缓存支持
多 LoRA 支持

更多信息，请查看以下内容