离线推理¶

离线推理可以在您自己的代码中实现，使用 vLLM 的 LLM 类。

例如，以下代码从 HuggingFace 下载 facebook/opt-125m 模型，并在 vLLM 中使用默认配置运行。

from vllm import LLM

# Initialize the vLLM engine.
llm = LLM(model="facebook/opt-125m")

初始化 LLM 实例后，使用可用的 API 执行模型推理。可用的 API 取决于模型类型

生成模型输出 logprobs，通过对其进行采样以获得最终输出文本。
池化模型直接输出其隐藏状态。

信息

API 参考

Ray Data LLM API¶

Ray Data LLM 是一种替代的离线推理 API，它使用 vLLM 作为底层引擎。此 API 增加了多项开箱即用的功能，这些功能简化了大规模、GPU 高效的推理

流式执行处理超出集群总内存的数据集。
自动分片、负载均衡和自动扩缩容将工作分配到 Ray 集群中，并内置容错功能。
连续批处理使 vLLM 副本得到充分利用，并最大化 GPU 利用率。
透明支持张量并行和流水线并行，实现高效的多 GPU 推理。
读写大多数流行文件格式和云对象存储。
扩展工作负载无需更改代码。

代码

import ray  # Requires ray>=2.44.1
from ray.data.llm import vLLMEngineProcessorConfig, build_llm_processor

config = vLLMEngineProcessorConfig(model_source="unsloth/Llama-3.2-1B-Instruct")
processor = build_llm_processor(
    config,
    preprocess=lambda row: {
        "messages": [
            {"role": "system", "content": "You are a bot that completes unfinished haikus."},
            {"role": "user", "content": row["item"]},
        ],
        "sampling_params": {"temperature": 0.3, "max_tokens": 250},
    },
    postprocess=lambda row: {"answer": row["generated_text"]},
)

ds = ray.data.from_items(["An old silent pond..."])
ds = processor(ds)
ds.write_parquet("local:///tmp/data/")

有关 Ray Data LLM API 的更多信息，请参阅 Ray Data LLM 文档。