VLLM

在算力舱中默认使用 ollama 来提供大模型服务，这个是为了可以很方便的切换各种各样的模型。如果您的需求固定，没有频繁切换和释放模型的情况下，您可以使用 vllm 来部署您的服务。

jetson 官方有打包最新的 vllm 镜像，您可以通过使用 docker pull dustynv/vllm:r36.4-cu129-24.04 拉取镜像。

额外的资源

https://hub.docker.com/r/mitakad/vllm

例子

下面以算力舱中自带的翻译模型为例(Qwen/Qwen3-4B-Instruct-2507 + vllm)

算力舱直接运行下面的命令

docker run --rm -p 9999:3000 -ti registry.lazycat.cloud/x/lzc-aipod-trans:a84895c

局域网中使用

curl http://192.168.1.167:9999/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{"model": "aipod-trans", "messages": [{"role": "user", "content": "hello!"}]}'

注意: 记得将上面的ip地址(192.168.1.167)更改成您本地的ip地址