VLLM
在算力舱中默认使用 ollama 来提供大模型服务,这个是为了可以很方便的切换各种各样的模型。如果您的需求固定,没有频繁切换和释放模型的情况下,您可以使用 vllm 来部署您的服务。
jetson 官方有打包最新的 vllm 镜像,您可以通过使用 docker pull dustynv/vllm:r36.4-cu129-24.04 拉取镜像。
额外的资源
例子
下面以算力舱中自带的翻译模型为例(Qwen/Qwen3-4B-Instruct-2507 + vllm)
- 算力舱直接运行下面的命令
docker run --rm -p 9999:3000 -ti registry.lazycat.cloud/x/lzc-aipod-trans:a84895c
- 局域网中使用
curl http://192.168.1.167:9999/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{"model": "aipod-trans", "messages": [{"role": "user", "content": "hello!"}]}'注意: 记得将上面的ip地址(192.168.1.167)更改成您本地的ip地址