欢迎来到 vLLM¶

人人可用的便捷、快速、经济的 LLM 服务

星标关注复刻

vLLM 是一个用于 LLM 推理和服务的快速易用库。

vLLM 最初由加州大学伯克利分校的天空计算实验室开发，现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。

vLLM 具有以下优势：

vLLM 具有以下灵活性和易用性：

与流行的 HuggingFace 模型无缝集成
支持各种解码算法的高吞吐量服务，包括并行采样、集束搜索等
支持张量并行、流水线并行、数据并行和专家并行，用于分布式推理
流式输出
兼容 OpenAI 的 API 服务器
支持英伟达 GPU、AMD CPU 和 GPU、英特尔 CPU、Gaudi® 加速器和 GPU、IBM Power CPU、TPU 以及 AWS Trainium 和 Inferentia 加速器。
前缀缓存支持
多 LoRA 支持

更多信息，请查阅以下内容：