VLLM
在算力舱中默认使用 ollama 来提供大模型服务,这个是为了可以很方便的切换各种各样的模型。如果您的需求固定,没有频繁切换和释放模型的情况下,您可以使用 vllm 来部署您的服务。
推荐根据设备选择 vLLM 镜像。
Orin 可以使用算力舱封装的 vLLM 镜像(vllm 0.16.0 + cu126):
docker run --rm -it registry.lazycat.cloud/x/lzc-aipod-vllm:d59c2ca bash
Jetson Thor 可以优先验证 NVIDIA 官方 vLLM 镜像:
docker run --rm --runtime=nvidia --ipc=host --network=host nvcr.io/nvidia/vllm:26.04-py3 python3 -c "import vllm, torch; print(vllm.__version__, torch.__version__, torch.cuda.get_device_name(), torch.cuda.get_device_capability())"
该镜像已经在 Thor 上验证可以识别 NVIDIA Thor,并可启动 OpenAI-compatible /v1/models 与 /v1/chat/completions。如果模型配置中带有多模态字段,但只需要文本推理,启动时建议加 --language-model-only。
Thor 也可以使用 Jetson AI-IOT 镜像:
docker pull ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor
这个镜像已经跑通 Qwen3.5-27B-Text-NVFP4-MTP。但 Qwen3.5/3.6 27B FP8 当前在 Thor 上的 GDN linear-attention 路径仍不建议作为默认方案。
如果您希望使用 Jetson 官方镜像,可以参考 dustynv/vllm,例如 docker pull dustynv/vllm:r36.4-cu129-24.04。
额外的资源
- https://hub.docker.com/r/mitakad/vllm
- 资源列表
- https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html
- https://docs.nvidia.com/deeplearning/frameworks/vllm-release-notes/
例子
下面以算力舱中自带的翻译模型为例(Qwen/Qwen3-4B-Instruct-2507 + vllm)
- 算力舱直接运行下面的命令
docker run --rm -p 9999:3000 -ti registry.lazycat.cloud/x/lzc-aipod-trans:3480c9d
- 局域网中使用
curl http://192.168.1.167:9999/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "aipod-trans", "messages": [{"role": "user", "content": "hello!"}]}'注意: 记得将上面的ip地址(192.168.1.167)更改成您本地的ip地址