跳到内容

Llama Stack

vLLM 也可通过 Llama Stack 获取。

要安装 Llama Stack,请运行

pip install llama-stack -q

使用兼容 OpenAI 的 API 进行推理

然后启动 Llama Stack 服务器,并使用以下设置将其配置为指向您的 vLLM 服务器

inference:
  - provider_id: vllm0
    provider_type: remote::vllm
    config:
      url: http://127.0.0.1:8000

有关此远程 vLLM 提供程序的更多详细信息,请参阅本指南

使用嵌入式 vLLM 进行推理

此外还提供了一个内联提供程序 (inline provider)。这是使用该方法进行配置的一个示例

inference:
  - provider_type: vllm
    config:
      model: Llama3.1-8B-Instruct
      tensor_parallel_size: 4