在线服务#
在线服务示例演示了如何在在线设置中使用 vLLM,在这种设置中,模型被实时查询以进行预测。
示例
- API 客户端
- Helm Charts
- Cohere Rerank 客户端
- 解耦预填充
- Gradio OpenAI 聊天机器人 Web 服务器
- Gradio Web 服务器
- Jinaai Rerank 客户端
- 多节点服务
- OpenAI 聊天完成客户端
- OpenAI 多模态聊天完成客户端
- 带有工具的 OpenAI 聊天完成客户端
- 带有必需工具的 OpenAI 聊天完成客户端
- OpenAI 聊天完成结构化输出
- 带有推理的 OpenAI 聊天完成结构化输出
- 带有推理的 OpenAI 聊天完成工具调用
- 带有推理的 OpenAI 聊天完成
- 带有推理流式传输的 OpenAI 聊天完成
- OpenAI 多模态聊天嵌入客户端
- OpenAI 完成客户端
- OpenAI 交叉编码器评分
- OpenAI 嵌入客户端
- OpenAI 池化客户端
- OpenAI 转录客户端
- 设置 OpenTelemetry POC
- Prometheus 和 Grafana
- 运行集群
- Sagemaker-Entrypoint