welcom ! Handel home

2025年1月22日 星期三

安裝 Ollama Lite for GPU 的 docker 安裝啟動流程

 

安裝 Ollama Lite for GPU 的 docker 安裝啟動流程

使用 Docker 安裝啟動 Ollama 並啟用 GPU 的詳細流程,包含 Ollama Lite 的概念說明:

Ollama 與 Ollama Lite 的概念

  • Ollama: Ollama 是一個用於運行大型語言模型 (LLM) 的工具,它簡化了模型的下載、管理和執行。Ollama 本身並不區分 "Lite" 版本,而是透過不同的模型檔案來達到類似 "Lite" 的效果。
  • Ollama Lite (廣義概念): 指的是使用較小、參數較少的模型,這些模型通常檔案較小、運行速度較快,但可能在某些任務上的表現不如大型模型。在 Ollama 中,您可以選擇下載不同大小的模型,例如 Llama 2 有 7B、13B、70B 等不同版本,7B 版本相對來說就是一種 "Lite" 的選擇。因此,並不存在一個官方的 "Ollama Lite" 版本,而是透過選擇較小的模型來達到輕量化的目的。

使用 Docker 安裝啟動 Ollama (包含 GPU 支援)

以下步驟假設您已安裝 Docker Desktop 或 Docker Engine,並且您的系統具備 NVIDIA GPU 以及正確安裝 NVIDIA Driver 和 NVIDIA Container Toolkit。

1. 安裝 NVIDIA Container Toolkit

這是啟用 Docker 使用 GPU 的關鍵步驟。

  • Ubuntu/Debian:
  • <!-- end list -->

    Bash:
    $curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg
    $curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring..list
    $sudo nvidia-ctk runtime configure --runtime=docker
    $sudo systemctl restart docker
  • 其他 Linux 發行版或 Windows (WSL2): 請參考 NVIDIA 官方文件:https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html

2. 建立 Docker Volume (可選但建議)

建立一個 Docker Volume 來持久化儲存 Ollama 的模型檔案,避免每次重啟容器都需要重新下載。

Bash:
$docker volume create ollama_models

3. 運行 Ollama Docker 容器 (GPU 支援)

使用以下指令運行 Ollama 容器,並啟用 GPU 支援:

Bash:
$docker run -d --gpus all -p 11434:11434 -v ollama_models:/root/.ollama --name ollama ollama/ollama

各參數說明:

  • -d:在後台運行容器。
  • --gpus all:允許容器使用所有可用的 GPU。
  • -p 11434:11434:將主機的 11434 端口映射到容器的 11434 端口,這是 Ollama API 的預設端口。
  • -v ollama_models:/root/.ollama:將先前建立的 ollama_models volume 掛載到容器內的 /root/.ollama 目錄,用於儲存模型檔案。
  • --name ollama:為容器命名為 ollama
  • ollama/ollama:Ollama 的 Docker 映像檔。

4. 下載模型

進入 Ollama 容器:

Bash:
$docker exec -it ollama bash

然後使用 ollama pull 指令下載模型。例如,下載 Llama 2 7B 模型 (相對 "Lite" 的選擇):

Bash:
$ollama pull llama2

或者下載其他模型,例如:

Bash:
$ollama pull mistral
$ollama pull codellama

您可以從 Ollama 的模型庫 (https://ollama.ai/library) 找到更多模型。

5. 運行模型

在 Ollama 容器內,使用 ollama run 指令運行模型:

Bash:
$ollama run llama2

現在您可以開始與模型互動。

6. 使用 Ollama API

您可以使用 curl 或其他 HTTP 客戶端與 Ollama API 互動。例如:

Bash:
$curl http://localhost:11434/api/generate -d '{ "model": "llama2", "prompt": "Hello, how are you?" }'


7. 使用 Open WebUI (可選)

如果您想要使用網頁介面與 Ollama 互動,可以參考我先前提供的 Open WebUI 安裝指南。請確保 Open WebUI 正確連接到 Ollama API (http://host.docker.internal:11434http://ollama:11434,取決於您的網路設定)。

總結

透過以上步驟,您就可以在 Docker 中安裝並使用 Ollama,並啟用 GPU 加速。透過選擇不同大小的模型,您可以根據您的需求和硬體資源選擇合適的 "Lite" 或完整版本。使用 Docker Volume 可以方便地管理模型檔案,而 Open WebUI 則提供了一個更友好的使用者介面。









沒有留言: