离线推理#
离线推理示例演示了如何在离线设置中使用 vLLM,在这种设置中,模型会批量查询预测。我们建议从基础开始。
示例
- 音频语言
- 基础
- 与工具聊天
- CPU 卸载 LMCache
- 数据并行
- 解耦预填充
- 解耦预填充 LMCache
- 分布式
- Eagle
- 嵌入 Jina Embeddings V3
- 编码器-解码器
- 编码器-解码器多模态
- LLM 引擎示例
- 加载分片状态
- LoRA 与量化推理
- Mistral-Small
- MLPSpeculator
- MultiLoRA 推理
- Neuron
- Neuron INT8 量化
- 使用 OpenAI 批量文件格式的离线推理
- 前缀缓存
- Prithvi 地理空间 MAE
- 性能分析
- vLLM TPU 性能分析
- 可重现性
- RLHF
- RLHF 共址
- RLHF 工具
- 保存分片状态
- 简单性能分析
- 结构化输出
- Torchrun 示例
- TPU
- 视觉语言
- 视觉语言嵌入
- 视觉语言多图像