离线推理# 离线推理示例演示了如何在离线设置中使用 vLLM,在这种设置中,模型被批量查询以进行预测。我们建议从 基础 开始。 示例 音频语言 基础 与工具对话 数据并行 解耦预填充 分布式 编码器-解码器 Florence2 推理 LLM 引擎示例 带量化的 LoRA 推理 MLPSpeculator MultiLoRA 推理 Neuron Neuron INT8 量化 使用 OpenAI 批量文件格式的离线推理 Pixtral 前缀缓存 Prithvi 地理空间 Mae 性能分析 vLLM TPU 性能分析 Rlhf Rlhf 同位 保存分片状态 简单性能分析 结构化输出 Torchrun 示例 TPU 视觉语言 视觉语言嵌入 视觉语言多图像 Whisper