示例#
vLLM 用法示例集合。所有文档化的示例均使用 docs/source/generate_examples.py 从 examples 中的示例自动生成。
示例
- 离线推理
- 音频语言
- 基础
- 使用工具聊天
- CPU 卸载 LMCache
- 数据并行
- 解耦预填充
- 解耦预填充 LMCache
- 分布式
- Eagle
- 嵌入 Jina Embeddings V3
- 编码器-解码器
- 编码器-解码器多模态
- LLM 引擎示例
- 加载分片状态
- LoRA 量化推理
- Mistral-Small
- MLPSpeculator
- MultiLoRA 推理
- Neuron
- Neuron INT8 量化
- 使用 OpenAI 批量文件格式的离线推理
- 前缀缓存
- Prithvi Geospatial MAE
- 性能分析
- vLLM TPU 性能分析
- 可复现性
- RLHF
- RLHF 共址
- RLHF 工具
- 保存分片状态
- 简单性能分析
- 结构化输出
- Torchrun 示例
- TPU
- 视觉语言
- 视觉语言嵌入
- 视觉语言多图像
- 在线服务
- API 客户端
- Helm Charts
- Cohere Rerank 客户端
- 解耦预填充
- Gradio OpenAI 聊天机器人 Web 服务器
- Gradio Web 服务器
- Jinaai Rerank 客户端
- 多节点服务
- OpenAI 聊天完成客户端
- OpenAI 多模态聊天完成客户端
- OpenAI 使用工具的聊天完成客户端
- OpenAI 需要工具的聊天完成客户端
- OpenAI 结构化输出聊天完成
- OpenAI 带推理的结构化输出聊天完成
- OpenAI 带推理的工具调用聊天完成
- OpenAI 带推理的聊天完成
- OpenAI 带推理的流式聊天完成
- OpenAI 多模态聊天嵌入客户端
- OpenAI 完成客户端
- OpenAI 交叉编码器评分
- OpenAI 嵌入客户端
- OpenAI 池化客户端
- OpenAI 转录客户端
- 设置 OpenTelemetry POC
- Prometheus 和 Grafana
- 运行集群
- Sagemaker-Entrypoint
- 其他