Skip to content

单独使用

您可以使用 docker-compose 在算力舱中单独部署服务

yml
services:
  ollama:
    image: registry.lazycat.cloud/catdogai/jetson-ollama:0.17.5
    volumes:
      - /etc/timezone:/etc/timezone:ro
      - ./data:/root/.ollama
    environment:
      - LANGUAGE=en_US:en
      - LANG=en_US.UTF-8
      - LC_ALL=en_US.UTF-8
      - OLLAMA_DEBUG=1
      - OLLAMA_ORIGINS=*
      - OLLAMA_HOST=0.0.0.0
      - OLLAMA_FLASH_ATTENTION=1
      - OLLAMA_NUM_PARALLEL=4
      # - OLLAMA_CONTEXT_LENGTH=8192
      - OLLAMA_KV_CACHE_TYPE=q8_0
      - OLLAMA_LLM_LIBRARY=cuda
    ports:
      - 11434:11434
    mem_limit: 60G
    memswap_limit: 60G

将上面的文件保存为一个 docker-compose.yml 文件,然后在同目录下使用 docker-compose up -d 启动。

在启动成功后,可以通过局域网中的 11434 端口进行访问.

ollama 最新的版本中,将自动根据内存的大小来决定上下文的大小,算力舱的内存为 64G 将默认分配的上下文很大,如果您需要控制的话,可以使用 OLLAMA_CONTEXT_LENGTH=8192 控制成 8k

附加说明

如果您的算力舱上不能访问到 registry.lazycat.cloud,您可以切换到 dockerhub 上,可以通过 docker pull catdogai/jetson-ollama:0.17.5

ollama 经常更新,可能文档上没有及时更新,新的 ollama 版本 tag 可以在 https://hub.docker.com/r/catdogai/jetson-ollama/tags 页面中查看.