Qwen3 使用指南¶ 简介¶ 本指南提供了使用 vLLM 运行 Qwen3 系列模型的分步说明。本指南适用于希望在目标加速堆栈上实现高吞吐量或低延迟推理的开发人员和实践者。 TPU 部署¶ Trillium (v6e) 上的 Qwen3-32B Trillium (v6e) 上的 Qwen3-4B