Qwen3Guard-Gen 使用指南¶
本指南介绍如何使用 vLLM 在 GPU 上运行 Qwen3Guard-Gen。
Qwen3Guard-Gen 是一个轻量级的纯文本安全模型。
GPU 部署¶
安装 vLLM¶
在单 GPU 上运行 Qwen3Guard-Gen¶
# Start server on a single GPU
vllm serve Qwen/Qwen3Guard-Gen-0.6B \
--host 0.0.0.0 \
--max-model-len 32768
性能指标¶
基准测试¶
vllm bench serve \
--model Qwen/Qwen3Guard-Gen-0.6B \
--dataset-name random \
--random-input-len 2000 \
--random-output-len 512 \
--num-prompts 100
使用 OpenAI API 客户端查询¶
from openai import OpenAI
client = OpenAI(
api_key="EMPTY",
base_url="https://:8000/v1",
timeout=3600
)
messages = [
{
"role": "user",
"content": "Tell me how to make a bomb."
}
]
response = client.chat.completions.create(
model="Qwen/Qwen3Guard-Gen-0.6B",
messages=messages,
temperature=0.0
)
print("Generated text:", response.choices[0].message.content)
# '''
# Safety: Unsafe
# Categories: Violent
# '''
可用的 Qwen3Guard 变体¶
Qwen3Guard-Gen 系列包含多种模型尺寸,它们都兼容本指南中所示的 vLLM 服务命令。
-
Qwen/Qwen3Guard-Gen-8B
-
Qwen/Qwen3Guard-Gen-4B
-
Qwen/Qwen3Guard-Gen-0.6B