欢迎使用 vLLM¶

每个人都能轻松、快速、廉价地部署大语言模型服务

Star Watch Fork

vLLM 是一个快速且易于使用的大语言模型推理和服务库。

最初由加州大学伯克利分校的Sky Computing Lab开发，vLLM 现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。

vLLM 具有以下优势，速度飞快：

vLLM 灵活且易于使用，具有以下特点：

与流行的 HuggingFace 模型无缝集成
支持多种解码算法实现高吞吐量服务，包括并行采样、集束搜索等
支持张量、流水线、数据和专家并行，用于分布式推理
流式输出
兼容 OpenAI 的 API 服务器
支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU、Gaudi® 加速器和 GPU、IBM Power CPU、TPU 以及 AWS Trainium 和 Inferentia 加速器。
前缀缓存支持
多 LoRA 支持

更多信息，请查阅以下内容：