Intern-S1 使用指南¶
Intern-S1 是由上海人工智能实验室开发的视觉-语言模型。最新的 vLLM 已支持 Intern-S1。您可以通过以下方法安装它:
安装 vLLM¶
使用 vLLM 启动 Intern-S1¶
在 8xH800 GPU 上部署 BF16 模型 (80GB × 8)¶
vllm serve internlm/Intern-S1 \
--trust-remote-code \
--tensor-parallel-size 8 \
--enable-auto-tool-choice \
--reasoning-parser deepseek_r1 \
--tool-call-parser internlm
在 4xH800 GPU 上部署 FP8 模型 (80GB × 4)¶
vllm serve internlm/Intern-S1-FP8 \
--trust-remote-code \
--tensor-parallel-size 4 \
--enable-auto-tool-choice \
--reasoning-parser deepseek_r1 \
--tool-call-parser internlm
高级用法¶
切换思考和非思考模式¶
通过...配置
示例代码
from openai import OpenAI
client = OpenAI(api_key='YOUR_API_KEY', base_url='http://0.0.0.0:8000/v1')
model_name = client.models.list().data[0].id
response = client.chat.completions.create(
model=model_name,
messages=[{
'role':
'user',
'content': [{
'type': 'text',
'text': '9.11 and 9.8, which is greater?',
}],
}],
temperature=0.8,
top_p=0.8,
extra_body={
"chat_template_kwargs": {"enable_thinking": False}
}
)
print(response)
使用技巧¶
如果您遇到 ValueError: No available memory for the cache blocks. 错误,请尝试在 vllm serve 命令中添加 --gpu-memory-utilization 0.95 参数。