示例#
vLLM 用法示例集合。所有文档化的示例均使用 docs/source/generate_examples.py 从 examples 中找到的示例自动生成。
示例
- 离线推理
- 在线服务
- API 客户端
- Helm Charts
- Cohere Rerank 客户端
- 分离式预填充
- Gradio OpenAI 聊天机器人 Web 服务器
- Gradio Web 服务器
- Jinaai Rerank 客户端
- 多节点服务
- OpenAI 聊天完成客户端
- 用于多模态的 OpenAI 聊天完成客户端
- 带工具的 OpenAI 聊天完成客户端
- OpenAI 聊天完成结构化输出
- 带有推理的 OpenAI 聊天完成
- 带有推理流的 OpenAI 聊天完成
- 用于多模态的 OpenAI 聊天嵌入客户端
- OpenAI 完成客户端
- OpenAI 交叉编码器评分
- OpenAI 嵌入客户端
- OpenAI 池化客户端
- OpenAI 转录客户端
- 设置 OpenTelemetry POC
- Prometheus 和 Grafana
- 运行集群
- Sagemaker-Entrypoint
- 其他