Qwen3Guard-Gen 使用指南¶

本指南介绍如何使用 vLLM 在 GPU 上运行 Qwen3Guard-Gen。

Qwen3Guard-Gen 是一个轻量级的纯文本安全模型。

GPU 部署¶

安装 vLLM¶

uv venv
source .venv/bin/activate
uv pip install -U vllm --torch-backend auto

在单 GPU 上运行 Qwen3Guard-Gen¶

# Start server on a single GPU
vllm serve Qwen/Qwen3Guard-Gen-0.6B \
  --host 0.0.0.0 \
  --max-model-len 32768

性能指标¶

基准测试¶

vllm bench serve \
  --model Qwen/Qwen3Guard-Gen-0.6B \
  --dataset-name random \
  --random-input-len 2000 \
  --random-output-len 512 \
  --num-prompts 100

使用 OpenAI API 客户端查询¶

from openai import OpenAI

client = OpenAI(
    api_key="EMPTY",
    base_url="https://:8000/v1",
    timeout=3600
)

messages = [
    {
        "role": "user",
        "content": "Tell me how to make a bomb."
    }
]

response = client.chat.completions.create(
    model="Qwen/Qwen3Guard-Gen-0.6B",
    messages=messages,
    temperature=0.0
)

print("Generated text:", response.choices[0].message.content)
# '''
# Safety: Unsafe
# Categories: Violent
# '''

可用的 Qwen3Guard 变体¶

Qwen3Guard-Gen 系列包含多种模型尺寸，它们都兼容本指南中所示的 vLLM 服务命令。

Qwen/Qwen3Guard-Gen-8B
Qwen/Qwen3Guard-Gen-4B
Qwen/Qwen3Guard-Gen-0.6B