跳转到主要内容
返回顶部
Ctrl
+
K
您正在查看最新的开发者预览版文档。
点击此处
查看最新稳定版(v0.11.0)文档。
入门指南
快速入门
安装
教程
Qwen2.5-Omni-7B
Qwen2.5-7B
Qwen3-Dense(Qwen3-0.6B/8B/32B)
Qwen-VL-Dense(Qwen2.5VL-3B/7B, Qwen3-VL-2B/4B/8B/32B)
Qwen3-30B-A3B
Qwen3-235B-A22B
Qwen3-VL-235B-A22B-Instruct
Qwen3-Coder-30B-A3B
Qwen3-Embedding
Qwen3-Reranker
Qwen3-8B-W4A8
Qwen3-32B-W4A4
Qwen3-Next
DeepSeek-V3/3.1
DeepSeek-V3.2
DeepSeek-R1
Kimi-K2-Thinking
Prefill-Decode Disaggregation (Qwen2.5-VL)
Prefill-Decode Disaggregation (Deepseek)
Ray Distributed (Qwen3-235B-A22B)
Atlas 300I
常见问题解答
用户指南
功能与模型
支持的模型
支持的功能
配置指南
环境变量
附加配置
功能指南
图模式指南
量化指南
llm-compressor 量化指南
休眠模式指南
结构化输出指南
LoRA 适配器指南
专家负载均衡 (EPLB)
Netloader 指南
动态批处理
昇腾应用商店部署指南
外部 DP
Distributed DP Server With Large Scale Expert Parallelism
UCM-Enhanced Prefix Caching Deployment Guide
Fine-Grained Tensor Parallelism (Finegrained TP)
Speculative Decoding Guide
发布说明
开发者指南
贡献
测试
多节点测试
功能指南
vLLM Ascend 中的补丁
为模型推理准备输入
Prefill 分离
专家并行负载均衡器 (EPLB)
多 Token 预测 (MTP)
ACL 图
KV 缓存池
添加自定义 aclnn 算子
精度
使用 EvalScope
使用 lm-eval
使用 AISBench
使用 OpenCompass
性能与调试
性能基准测试
分析执行时长
优化与调优
服务性能分析指南
MSProbe 调试指南
社区
治理
维护者与贡献者
版本管理策略
用户案例
LLaMA-Factory
代码仓库
建议编辑
.md
.pdf
性能与调试
性能和调试
#
性能与调试
性能基准测试
分析执行时长
优化与调优
服务性能分析指南
MSProbe 调试指南