跳到内容

vLLM 指南

Intern-S1 使用指南

Intern-S1 使用指南¶

Intern-S1 是由上海人工智能实验室开发的视觉-语言模型。最新的 vLLM 已支持 Intern-S1。您可以通过以下方法安装它：

安装 vLLM¶

uv venv
source .venv/bin/activate
uv pip install -U vllm --torch-backend auto

使用 vLLM 启动 Intern-S1¶

在 8xH800 GPU 上部署 BF16 模型 (80GB × 8)¶

vllm serve internlm/Intern-S1 \
  --trust-remote-code \
  --tensor-parallel-size 8 \
  --enable-auto-tool-choice \
  --reasoning-parser deepseek_r1 \
  --tool-call-parser internlm

在 4xH800 GPU 上部署 FP8 模型 (80GB × 4)¶

vllm serve internlm/Intern-S1-FP8 \
  --trust-remote-code \
  --tensor-parallel-size 4 \
  --enable-auto-tool-choice \
  --reasoning-parser deepseek_r1 \
  --tool-call-parser internlm

高级用法¶

切换思考和非思考模式¶

通过...配置

extra_body={
    "chat_template_kwargs": {"enable_thinking": False}
}

示例代码

from openai import OpenAI
client = OpenAI(api_key='YOUR_API_KEY', base_url='http://0.0.0.0:8000/v1')
model_name = client.models.list().data[0].id

response = client.chat.completions.create(
    model=model_name,
    messages=[{
        'role':
        'user',
        'content': [{
            'type': 'text',
            'text': '9.11 and 9.8, which is greater?',
        }],
    }],
    temperature=0.8,
    top_p=0.8,
    extra_body={
        "chat_template_kwargs": {"enable_thinking": False}
    }
)
print(response)

使用技巧¶

如果您遇到 ValueError: No available memory for the cache blocks. 错误，请尝试在 vllm serve 命令中添加 --gpu-memory-utilization 0.95 参数。

额外资源¶