廖德 Handel Working Spece: 安裝 Ollama Lite for GPU 的 docker 安裝啟動流程

安裝 Ollama Lite for GPU 的 docker 安裝啟動流程

使用 Docker 安裝啟動 Ollama 並啟用 GPU 的詳細流程，包含 Ollama Lite 的概念說明：

Ollama 與 Ollama Lite 的概念

Ollama: Ollama 是一個用於運行大型語言模型 (LLM) 的工具，它簡化了模型的下載、管理和執行。Ollama 本身並不區分 "Lite" 版本，而是透過不同的模型檔案來達到類似 "Lite" 的效果。
Ollama Lite (廣義概念): 指的是使用較小、參數較少的模型，這些模型通常檔案較小、運行速度較快，但可能在某些任務上的表現不如大型模型。在 Ollama 中，您可以選擇下載不同大小的模型，例如 Llama 2 有 7B、13B、70B 等不同版本，7B 版本相對來說就是一種 "Lite" 的選擇。因此，並不存在一個官方的 "Ollama Lite" 版本，而是透過選擇較小的模型來達到輕量化的目的。

使用 Docker 安裝啟動 Ollama (包含 GPU 支援)

以下步驟假設您已安裝 Docker Desktop 或 Docker Engine，並且您的系統具備 NVIDIA GPU 以及正確安裝 NVIDIA Driver 和 NVIDIA Container Toolkit。

1. 安裝 NVIDIA Container Toolkit

這是啟用 Docker 使用 GPU 的關鍵步驟。

Ubuntu/Debian：

Bash:
$curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg $curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring..list $sudo nvidia-ctk runtime configure --runtime=docker $sudo systemctl restart docker

其他 Linux 發行版或 Windows (WSL2)： 請參考 NVIDIA 官方文件：https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html

2. 建立 Docker Volume (可選但建議)

建立一個 Docker Volume 來持久化儲存 Ollama 的模型檔案，避免每次重啟容器都需要重新下載。

Bash:
$docker volume create ollama_models

3. 運行 Ollama Docker 容器 (GPU 支援)

使用以下指令運行 Ollama 容器，並啟用 GPU 支援：

Bash:
$docker run -d --gpus all -p 11434:11434 -v ollama_models:/root/.ollama --name ollama ollama/ollama

各參數說明：

-d：在後台運行容器。

--gpus all：允許容器使用所有可用的 GPU。

-p 11434:11434：將主機的 11434 端口映射到容器的 11434 端口，這是 Ollama API 的預設端口。

-v ollama_models:/root/.ollama：將先前建立的 ollama_models volume 掛載到容器內的 /root/.ollama 目錄，用於儲存模型檔案。

--name ollama：為容器命名為 ollama。

ollama/ollama：Ollama 的 Docker 映像檔。

4. 下載模型

進入 Ollama 容器：

Bash:
$docker exec -it ollama bash

然後使用 ollama pull 指令下載模型。例如，下載 Llama 2 7B 模型 (相對 "Lite" 的選擇)：

Bash:
$ollama pull llama2

或者下載其他模型，例如：

Bash:
$ollama pull mistral
$ollama pull codellama

您可以從 Ollama 的模型庫 (https://ollama.ai/library) 找到更多模型。

5. 運行模型

在 Ollama 容器內，使用 ollama run 指令運行模型：

Bash:
$ollama run llama2

現在您可以開始與模型互動。

6. 使用 Ollama API

您可以使用 curl 或其他 HTTP 客戶端與 Ollama API 互動。例如：

Bash:
$curl http://localhost:11434/api/generate -d '{ "model": "llama2", "prompt": "Hello, how are you?" }'

7. 使用 Open WebUI (可選)

如果您想要使用網頁介面與 Ollama 互動，可以參考我先前提供的 Open WebUI 安裝指南。請確保 Open WebUI 正確連接到 Ollama API (http://host.docker.internal:11434 或 http://ollama:11434，取決於您的網路設定)。

總結

透過以上步驟，您就可以在 Docker 中安裝並使用 Ollama，並啟用 GPU 加速。透過選擇不同大小的模型，您可以根據您的需求和硬體資源選擇合適的 "Lite" 或完整版本。使用 Docker Volume 可以方便地管理模型檔案，而 Open WebUI 則提供了一個更友好的使用者介面。

廖德 Handel Working Spece

welcom ! Handel home

2025年1月22日星期三

安裝 Ollama Lite for GPU 的 docker 安裝啟動流程

沒有留言:

welcom ! Handel home

2025年1月22日 星期三

安裝 Ollama Lite for GPU 的 docker 安裝啟動流程

沒有留言:

2025年1月22日星期三