Kimi-Linear 使用指南¶

本指南描述了如何运行 moonshotai/Kimi-Linear-48B-A3B-Instruct。

安装 vLLM¶

uv venv
source .venv/bin/activate
# Install a stable version (avoid 0.12.0)
uv pip install vllm==0.11.2 --torch-backend auto

注意：关于 Kimi-Linear，vLLM 0.12.0 版本存在一个已知错误：MLAModules.__init__() missing 1 required positional argument: 'indexer_rotary_emb'。请避免使用此版本。

运行 Kimi-Linear¶

运行 Kimi-Linear 非常简单。以下代码片段假设您在一个节点上有 4 或 8 个 GPU。

4-GPU 张量并行¶

vllm serve moonshotai/Kimi-Linear-48B-A3B-Instruct \
  --port 8000 \
  --tensor-parallel-size 4 \
  --max-model-len 1048576 \
  --trust-remote-code

8-GPU 张量并行¶

vllm serve moonshotai/Kimi-Linear-48B-A3B-Instruct \
  --port 8000 \
  --tensor-parallel-size 8 \
  --max-model-len 1048576 \
  --trust-remote-code

如果出现 OOM（内存不足），请减小 --max-model-len (例如 65536) 或增大 --gpu-memory-utilization (≤ 0.95)。

服务器启动后，请使用以下命令进行测试：

curl https://:8000/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model":"moonshotai/Kimi-Linear-48B-A3B-Instruct","messages":[{"role":"user","content":"Hello!"}]}'