跳到内容

欢迎来到 vLLM

vLLM Light vLLM Dark

人人都能轻松、快速、低成本地部署LLM

Star Watch Fork

vLLM是一个用于LLM推理和部署的快速易用库。

vLLM最初由加州大学伯克利分校的Sky Computing Lab开发,现已发展成为一个由学术界和工业界共同贡献的社区驱动项目。

vLLM的入门方式取决于用户类型。如果您希望:

有关vLLM开发的信息,请参阅

vLLM 速度快,具备以下特点:

  • 最先进的部署吞吐量
  • 使用PagedAttention高效管理注意力键和值内存
  • 传入请求的连续批处理
  • 使用CUDA/HIP图进行快速模型执行
  • 量化:GPTQAWQ、INT4、INT8和FP8
  • 优化的CUDA内核,包括与FlashAttention和FlashInfer的集成。
  • 推测解码
  • 分块预填充

vLLM 灵活易用,具备以下特点:

  • 与流行的HuggingFace模型无缝集成
  • 通过各种解码算法实现高吞吐量服务,包括*并行采样*、*束搜索*等
  • 支持张量、流水线、数据和专家并行以进行分布式推理
  • 流式输出
  • 与OpenAI兼容的API服务器
  • 支持NVIDIA GPU、AMD CPU和GPU、Intel CPU和GPU、PowerPC CPU、Arm CPU和TPU。此外,还支持各种硬件插件,如Intel Gaudi、IBM Spyre和华为Ascend。
  • 前缀缓存支持
  • 多LoRA支持

更多信息,请查看以下内容: