您正在查看最新的开发者预览文档。点击此处查看最新稳定版本的文档。

常见问题

目录

常见问题#

问：如何使用 OpenAI API 在单个端口上服务多个模型？

答：假设您指的是使用 OpenAI 兼容服务器同时服务多个模型，目前不支持这样做。您可以同时运行多个服务器实例（每个实例服务于不同的模型），并使用另一层来相应地将传入请求路由到正确的服务器。

问：离线推理嵌入应该使用哪个模型？

答：您可以尝试 e5-mistral-7b-instruct 和 BAAI/bge-base-en-v1.5；更多模型请参考此处。

通过提取隐藏状态，vLLM 可以自动将文本生成模型（如 Llama-3-8B, Mistral-7B-Instruct-v0.3）转换为嵌入模型，但预计它们不如专门针对嵌入任务训练的模型。

问：在 vLLM 中，提示的输出在不同运行中会发生变化吗？

答：是的，可能会发生变化。vLLM 不保证输出 token 的稳定对数概率（logprobs）。由于 Torch 操作中的数值不稳定性或批量处理变化时批量 Torch 操作中的非确定性行为，可能会出现对数概率的变化。有关更多详细信息，请参阅数值精度部分。

在 vLLM 中，由于其他并发请求、批量大小的变化或推测性解码中的批量扩展等因素，相同的请求可能会以不同的方式进行批量处理。这些批量处理的变化，加上 Torch 操作的数值不稳定性，可能会导致每一步的 logits/logprob 值略有不同。这些差异可能会累积，可能导致采样到不同的 token。一旦采样到不同的 token，进一步的差异就可能发生。

缓解策略#

为了提高稳定性和减少方差，请使用 float32。请注意，这将需要更多内存。
如果使用 bfloat16，切换到 float16 也有助于改善情况。
使用请求种子可以帮助在 temperature > 0 时实现更稳定的生成，但由于精度差异导致的差异可能仍然会发生。