Skip to content

VLLM

在算力舱中默认使用 ollama 来提供大模型服务,这个是为了可以很方便的切换各种各样的模型。如果您的需求固定,没有频繁切换和释放模型的情况下,您可以使用 vllm 来部署您的服务。

jetson 官方有打包最新的 vllm 镜像,您可以通过使用 docker pull dustynv/vllm:r36.4-cu129-24.04 拉取镜像。

额外的资源

  1. https://hub.docker.com/r/mitakad/vllm

例子

下面以算力舱中自带的翻译模型为例(Qwen/Qwen3-4B-Instruct-2507 + vllm)

  1. 算力舱直接运行下面的命令

docker run --rm -p 9999:3000 -ti registry.lazycat.cloud/x/lzc-aipod-trans:a84895c

  1. 局域网中使用
curl http://192.168.1.167:9999/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{"model": "aipod-trans", "messages": [{"role": "user", "content": "hello!"}]}'

注意: 记得将上面的ip地址(192.168.1.167)更改成您本地的ip地址