单独使用
您可以使用 docker-compose 在算力舱中单独部署服务
yml
services:
ollama:
image: registry.lazycat.cloud/catdogai/jetson-ollama:0.17.5
volumes:
- /etc/timezone:/etc/timezone:ro
- ./data:/root/.ollama
environment:
- LANGUAGE=en_US:en
- LANG=en_US.UTF-8
- LC_ALL=en_US.UTF-8
- OLLAMA_DEBUG=1
- OLLAMA_ORIGINS=*
- OLLAMA_HOST=0.0.0.0
- OLLAMA_FLASH_ATTENTION=1
- OLLAMA_NUM_PARALLEL=4
# - OLLAMA_CONTEXT_LENGTH=8192
- OLLAMA_KV_CACHE_TYPE=q8_0
- OLLAMA_LLM_LIBRARY=cuda
ports:
- 11434:11434
mem_limit: 60G
memswap_limit: 60G将上面的文件保存为一个 docker-compose.yml 文件,然后在同目录下使用 docker-compose up -d 启动。
在启动成功后,可以通过局域网中的 11434 端口进行访问.
ollama 最新的版本中,将自动根据内存的大小来决定上下文的大小,算力舱的内存为 64G 将默认分配的上下文很大,如果您需要控制的话,可以使用 OLLAMA_CONTEXT_LENGTH=8192 控制成 8k
附加说明
如果您的算力舱上不能访问到 registry.lazycat.cloud,您可以切换到 dockerhub 上,可以通过 docker pull catdogai/jetson-ollama:0.17.5
ollama 经常更新,可能文档上没有及时更新,新的 ollama 版本 tag 可以在 https://hub.docker.com/r/catdogai/jetson-ollama/tags 页面中查看.