跳到内容

示例

vLLM 的示例分为三个类别

  • 如果您在 Python 代码中使用 vLLM,请参阅离线推理部分。
  • 如果您从 HTTP 应用程序或客户端使用 vLLM,请参阅在线服务部分。
  • 有关使用 vLLM 的一些高级功能(例如 LMCache 或 Tensorizer)的示例,这些功能不特定于上述任一用例,请参阅其他部分。