安裝 Ollama Lite for GPU 的 docker 安裝啟動流程
使用 Docker 安裝啟動 Ollama 並啟用 GPU 的詳細流程,包含 Ollama Lite 的概念說明:
Ollama 與 Ollama Lite 的概念
- Ollama: Ollama 是一個用於運行大型語言模型 (LLM) 的工具,它簡化了模型的下載、管理和執行。Ollama 本身並不區分 "Lite" 版本,而是透過不同的模型檔案來達到類似 "Lite" 的效果。
- Ollama Lite (廣義概念): 指的是使用較小、參數較少的模型,這些模型通常檔案較小、運行速度較快,但可能在某些任務上的表現不如大型模型。在 Ollama 中,您可以選擇下載不同大小的模型,例如 Llama 2 有 7B、13B、70B 等不同版本,7B 版本相對來說就是一種 "Lite" 的選擇。因此,並不存在一個官方的 "Ollama Lite" 版本,而是透過選擇較小的模型來達到輕量化的目的。
使用 Docker 安裝啟動 Ollama (包含 GPU 支援)
以下步驟假設您已安裝 Docker Desktop 或 Docker Engine,並且您的系統具備 NVIDIA GPU 以及正確安裝 NVIDIA Driver 和 NVIDIA Container Toolkit。
1. 安裝 NVIDIA Container Toolkit
這是啟用 Docker 使用 GPU 的關鍵步驟。
- Ubuntu/Debian:
<!-- end list -->
Bash:$curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg $curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring..list $sudo nvidia-ctk runtime configure --runtime=docker $sudo systemctl restart docker
其他 Linux 發行版或 Windows (WSL2): 請參考 NVIDIA 官方文件:
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/install-guide.html
2. 建立 Docker Volume (可選但建議)
建立一個 Docker Volume 來持久化儲存 Ollama 的模型檔案,避免每次重啟容器都需要重新下載。
$docker volume create ollama_models
3. 運行 Ollama Docker 容器 (GPU 支援)
使用以下指令運行 Ollama 容器,並啟用 GPU 支援:
$docker run -d --gpus all -p 11434:11434 -v ollama_models:/root/.ollama --name ollama ollama/ollama
各參數說明:
-d
:在後台運行容器。--gpus all
:允許容器使用所有可用的 GPU。-p 11434:11434
:將主機的 11434 端口映射到容器的 11434 端口,這是 Ollama API 的預設端口。-v ollama_models:/root/.ollama
:將先前建立的ollama_models
volume 掛載到容器內的/root/.ollama
目錄,用於儲存模型檔案。--name ollama
:為容器命名為ollama
。ollama/ollama
:Ollama 的 Docker 映像檔。
4. 下載模型
進入 Ollama 容器:
$docker exec -it ollama bash
然後使用 ollama pull
指令下載模型。例如,下載 Llama 2 7B 模型 (相對 "Lite" 的選擇):
$ollama pull llama2
或者下載其他模型,例如:
$ollama pull mistral
$ollama pull codellama
您可以從 Ollama 的模型庫 (
5. 運行模型
在 Ollama 容器內,使用 ollama run
指令運行模型:
$ollama run llama2
現在您可以開始與模型互動。
6. 使用 Ollama API
您可以使用 curl
或其他 HTTP 客戶端與 Ollama API 互動。例如:
$curl http://localhost:11434/api/generate -d '{ "model": "llama2", "prompt": "Hello, how are you?" }'
7. 使用 Open WebUI (可選)
如果您想要使用網頁介面與 Ollama 互動,可以參考我先前提供的 Open WebUI 安裝指南。請確保 Open WebUI 正確連接到 Ollama API (http://host.docker.internal:11434
或 http://ollama:11434
,取決於您的網路設定)。
總結
透過以上步驟,您就可以在 Docker 中安裝並使用 Ollama,並啟用 GPU 加速。透過選擇不同大小的模型,您可以根據您的需求和硬體資源選擇合適的 "Lite" 或完整版本。使用 Docker Volume 可以方便地管理模型檔案,而 Open WebUI 則提供了一個更友好的使用者介面。
沒有留言:
張貼留言