Skip to content

VLLM

在算力舱中默认使用 ollama 来提供大模型服务,这个是为了可以很方便的切换各种各样的模型。如果您的需求固定,没有频繁切换和释放模型的情况下,您可以使用 vllm 来部署您的服务。

推荐根据设备选择 vLLM 镜像。

Orin 可以使用算力舱封装的 vLLM 镜像(vllm 0.16.0 + cu126):

docker run --rm -it registry.lazycat.cloud/x/lzc-aipod-vllm:d59c2ca bash

Jetson Thor 可以优先验证 NVIDIA 官方 vLLM 镜像:

docker run --rm --runtime=nvidia --ipc=host --network=host nvcr.io/nvidia/vllm:26.04-py3 python3 -c "import vllm, torch; print(vllm.__version__, torch.__version__, torch.cuda.get_device_name(), torch.cuda.get_device_capability())"

该镜像已经在 Thor 上验证可以识别 NVIDIA Thor,并可启动 OpenAI-compatible /v1/models/v1/chat/completions。如果模型配置中带有多模态字段,但只需要文本推理,启动时建议加 --language-model-only

Thor 也可以使用 Jetson AI-IOT 镜像:

docker pull ghcr.io/nvidia-ai-iot/vllm:latest-jetson-thor

这个镜像已经跑通 Qwen3.5-27B-Text-NVFP4-MTP。但 Qwen3.5/3.6 27B FP8 当前在 Thor 上的 GDN linear-attention 路径仍不建议作为默认方案。

如果您希望使用 Jetson 官方镜像,可以参考 dustynv/vllm,例如 docker pull dustynv/vllm:r36.4-cu129-24.04

额外的资源

  1. https://hub.docker.com/r/mitakad/vllm
  2. 资源列表
  3. https://docs.vllm.ai/en/latest/getting_started/installation/gpu.html
  4. https://docs.nvidia.com/deeplearning/frameworks/vllm-release-notes/

例子

下面以算力舱中自带的翻译模型为例(Qwen/Qwen3-4B-Instruct-2507 + vllm)

  1. 算力舱直接运行下面的命令

docker run --rm -p 9999:3000 -ti registry.lazycat.cloud/x/lzc-aipod-trans:3480c9d

  1. 局域网中使用
curl http://192.168.1.167:9999/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{"model": "aipod-trans", "messages": [{"role": "user", "content": "hello!"}]}'

注意: 记得将上面的ip地址(192.168.1.167)更改成您本地的ip地址