在线服务#
在线服务示例演示了如何在在线环境中使用 vLLM,在该环境中,模型被实时查询以进行预测。
示例
- API 客户端
- Helm Charts
- Cohere Rerank 客户端
- 解耦预填充
- Gradio OpenAI 聊天机器人 Web 服务器
- Gradio Web 服务器
- Jinaai Rerank 客户端
- 多节点服务
- OpenAI 聊天完成客户端
- OpenAI 多模态聊天完成客户端
- 带有工具的 OpenAI 聊天完成客户端
- OpenAI 聊天完成结构化输出
- 带有推理的 OpenAI 聊天完成
- 带有推理流式传输的 OpenAI 聊天完成
- OpenAI 多模态聊天嵌入客户端
- OpenAI 完成客户端
- OpenAI 交叉编码器分数
- OpenAI 嵌入客户端
- OpenAI 池化客户端
- OpenAI 转录客户端
- 设置 OpenTelemetry POC
- Prometheus 和 Grafana
- 运行集群
- Sagemaker-Entrypoint