离线推理
您可以在自己的代码中运行 vLLM,处理一个提示词列表。
离线 API 基于 LLM 类。要初始化 vLLM 引擎,创建一个新的 LLM
实例并指定要运行的模型。
例如,以下代码从 HuggingFace 下载 facebook/opt-125m
模型,并使用默认配置在 vLLM 中运行它。
初始化 LLM
实例后,您可以使用各种 API 执行模型推理。可用的 API 取决于正在运行的模型类型
请参考以上页面获取关于每个 API 的更多详情。
信息
您可以在自己的代码中运行 vLLM,处理一个提示词列表。
离线 API 基于 LLM 类。要初始化 vLLM 引擎,创建一个新的 LLM
实例并指定要运行的模型。
例如,以下代码从 HuggingFace 下载 facebook/opt-125m
模型,并使用默认配置在 vLLM 中运行它。
初始化 LLM
实例后,您可以使用各种 API 执行模型推理。可用的 API 取决于正在运行的模型类型
请参考以上页面获取关于每个 API 的更多详情。
信息