离线推理

您可以在自己的代码中运行 vLLM,处理一个提示词列表。

离线 API 基于 LLM 类。要初始化 vLLM 引擎,创建一个新的 LLM 实例并指定要运行的模型。

例如,以下代码从 HuggingFace 下载 facebook/opt-125m 模型,并使用默认配置在 vLLM 中运行它。

from vllm import LLM

llm = LLM(model="facebook/opt-125m")

初始化 LLM 实例后,您可以使用各种 API 执行模型推理。可用的 API 取决于正在运行的模型类型

  • 生成模型输出 logprobs,从中进行采样以获得最终输出文本。
  • 池化模型直接输出其隐藏状态。

请参考以上页面获取关于每个 API 的更多详情。

信息

API 参考