Kimi-Linear 使用指南¶
本指南描述了如何运行 moonshotai/Kimi-Linear-48B-A3B-Instruct。
安装 vLLM¶
uv venv
source .venv/bin/activate
# Install a stable version (avoid 0.12.0)
uv pip install vllm==0.11.2 --torch-backend auto
MLAModules.__init__() missing 1 required positional argument: 'indexer_rotary_emb'。请避免使用此版本。
运行 Kimi-Linear¶
运行 Kimi-Linear 非常简单。以下代码片段假设您在一个节点上有 4 或 8 个 GPU。
4-GPU 张量并行¶
vllm serve moonshotai/Kimi-Linear-48B-A3B-Instruct \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--trust-remote-code
8-GPU 张量并行¶
vllm serve moonshotai/Kimi-Linear-48B-A3B-Instruct \
--port 8000 \
--tensor-parallel-size 8 \
--max-model-len 1048576 \
--trust-remote-code
如果出现 OOM(内存不足),请减小
--max-model-len(例如 65536) 或增大--gpu-memory-utilization(≤ 0.95)。
服务器启动后,请使用以下命令进行测试: