您正在查看最新的开发者预览文档。 点击此处 查看最新的稳定版本文档。

logo
vLLM
NVIDIA Triton
初始化搜索
    GitHub
    • 主页
    • 用户指南
    • 开发者指南
    • API 参考
    • CLI 参考
    • 社区
    GitHub
    • 主页
      • 用户指南
      • vLLM V1
        • 常见问题
        • 生产指标
        • 可复现性
        • 安全性
        • 故障排除
        • 使用统计数据收集
        • 离线推理
        • OpenAI 兼容服务器
        • 分布式推理与服务
        • 集成
        • 使用 Docker
        • 使用 Kubernetes
        • 使用 Nginx
          • Anything LLM
          • AutoGen
          • BentoML
          • Cerebrium
          • Chatbox
          • Dify
          • dstack
          • Haystack
          • Helm
          • LiteLLM
          • Lobe Chat
          • LWS
          • Modal
          • Open WebUI
          • 检索增强生成
          • SkyPilot
          • Streamlit
          • NVIDIA Triton
        • 集成
        • 基于人类反馈的强化学习
        • Transformers 强化学习
        • 摘要
        • 节省内存
        • 引擎参数
        • 环境变量
        • 模型解析
        • 优化和调优
        • 服务器参数
        • 支持的模型
        • 生成模型
        • 池化模型
        • 扩展
        • 兼容性矩阵
        • 自动前缀缓存
        • 分离预填充(实验性)
        • LoRA 适配器
        • 多模态输入
        • Prompt 嵌入输入
        • 推理输出
        • 推测解码
        • 结构化输出
        • 工具调用
        • 量化
    • 开发者指南
    • API 参考
    • CLI 参考
    • 社区

    NVIDIA Triton

    Triton 推理服务器 提供了一个教程,演示如何使用 vLLM 快速部署一个简单的 facebook/opt-125m 模型。请参阅 在 Triton 中部署 vLLM 模型 以获取更多详细信息。

    使用 Material for MkDocs 构建