Llama Stack
vLLM 也可通过 Llama Stack 获得。
要安装 Llama Stack,请运行
pip install llama-stack -q
使用 OpenAI 兼容 API 进行推理
然后启动 Llama Stack 服务器,并进行以下设置,使其指向您的 vLLM 服务器
inference:
- provider_id: vllm0
provider_type: remote::vllm
config:
url: http://127.0.0.1:8000
有关此远程 vLLM 提供程序的更多详细信息,请参阅 此指南。
使用嵌入式 vLLM 进行推理
还提供了一个 内联提供程序。这是使用该方法进行配置的示例
inference:
- provider_type: vllm
config:
model: Llama3.1-8B-Instruct
tensor_parallel_size: 4