分布式部署故障排查¶
关于常规故障排查,请参阅 故障排查 (Troubleshooting)。
验证节点间 GPU 通信¶
在启动 Ray 集群后,请验证跨节点的 GPU 到 GPU 通信。正确的配置可能并不简单。有关详细信息,请参阅 故障排查脚本。如果您需要额外的环境变量来配置通信,请将其追加到 examples/ray_serving/run_cluster.sh 中,例如 -e NCCL_SOCKET_IFNAME=eth0。建议在集群创建时设置环境变量,因为这样变量会传播到所有节点。相比之下,在 shell 中设置环境变量只会影响本地节点。更多信息,请参阅 问题 #6803。
没有可用的节点类型可以满足资源请求¶
即使集群有足够的 GPU,也可能会出现 Error: No available node types can fulfill resource request 的错误信息。当节点有多个 IP 地址且 vLLM 无法选择正确的地址时,通常会出现此问题。请确保 vLLM 和 Ray 通过在 examples/ray_serving/run_cluster.sh 中设置 VLLM_HOST_IP(每个节点的值不同)来使用相同的 IP 地址。使用 ray status 和 ray list nodes 来验证所选的 IP 地址。更多信息,请参阅 问题 #7815。
Ray 可观测性¶
由于分布式系统的规模和复杂性,调试此类系统可能极具挑战性。Ray 提供了一套工具来帮助监控、调试和优化 Ray 应用程序及集群。有关 Ray 可观测性的更多信息,请访问 Ray 官方可观测性文档。有关调试 Ray 应用程序的更多信息,请访问 Ray 调试指南。有关排查 Kubernetes 集群故障的信息,请参阅 KubeRay 官方故障排查指南。