笔者通常会先访问健康检查接口确认两个服务端口是否可达curl -i http://[已脱敏IP]:8000/healthcurl -i http://[已脱敏IP]:8002/health这里可以先把关注点放在两件事上一是地址http://[已脱敏IP]是否能访问二是端口8000和8002是否分别有服务响应。02 | 分别验证对话与向量接口健康检查通过后就可以继续发起实际请求。对话模型测试命令如下curl http://[已脱敏IP]:8000/v1/chat/completions \-H Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxx \-H Content-Type: application/json \-d {model: qwen3.6-35b,messages: [{role: user, content: 你好简单介绍自己}],temperature: 0.1}这条命令对应的是8000端口对应模型为qwen3.6-35b。如果接口联通通常就能直接拿到一次对话返回。向量模型测试命令如下curl http://[已脱敏IP]:8002/v1/embeddings \-H Authorization: Bearer sk-xxxxxxxxxxxxxxxxxxxxxx \-H Content-Type: application/json \-d {model: qwen3-embedding,input: [测试文本用于向量生成]}这条命令对应的是8002端口请求模型为qwen3-embedding输入是一段测试文本用来验证向量生成接口是否可用。03 | 一次排查的推荐顺序如果只是想快速判断链路是否通顺序可以很简单① 先测健康接口先执行两个/health请求确认基础服务在线。② 再测业务接口分别测试/v1/chat/completions和/v1/embeddings确认聊天能力和向量能力都能正常接入。③ 按端口区分问题8000主要看对话模型8002主要看向量模型。这样排查时更容易定位是哪一路服务异常。