AI Wiki

Ollama

Запуск AI-моделей локально через Ollama — встановлення, бібліотека моделей, API та інтеграції з IDE

ollamalocal-modelscliapillama

📎ОФІЦІЙНА ДОКУМЕНТАЦІЯ

Що таке Ollama?

Ollama — це CLI-інструмент для запуску великих мовних моделей локально. Ollama автоматизує завантаження, конфігурацію та запуск моделей, надаючи простий інтерфейс та OpenAI-сумісний API.

ℹ️Інформація

Ollama підтримує macOS, Linux та Windows. Моделі завантажуються автоматично при першому використанні та зберігаються локально.

Встановлення

macOS

bash
brew install ollama

Або завантажте з ollama.com

Linux

bash
curl -fsSL https://ollama.com/install.sh | sh

Windows

Завантажте інсталятор з ollama.com або використайте winget:

bash
winget install Ollama.Ollama

Docker

bash
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Для GPU (NVIDIA):

bash
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Основні команди

Запуск моделі

bash
# Запустити модель (завантажить при першому запуску) ollama run llama3.3 # Запустити конкретну версію ollama run llama3.3:70b # Запустити з конкретною квантизацією ollama run qwen2.5-coder:7b-q5_K_M

Управління моделями

bash
# Список встановлених моделей ollama list # Завантажити модель без запуску ollama pull mistral # Видалити модель ollama rm llama3.3 # Показати інформацію про модель ollama show llama3.3

Запуск сервера

bash
# Запустити API-сервер (зазвичай автоматично) ollama serve # Сервер доступний на http://localhost:11434

Бібліотека моделей

Моделі для кодування

МодельРозмірRAMОпис
qwen2.5-coder:7b4.7 ГБ8 ГБСпеціалізована для коду, дуже якісна
qwen2.5-coder:32b20 ГБ32 ГБНайкраща для складних задач кодування
deepseek-coder-v2:16b9 ГБ16 ГБСильна у генерації та розумінні коду
codellama:13b7.4 ГБ16 ГБВід Meta, підтримує infill
starcoder2:7b4 ГБ8 ГБДля autocomplete у IDE

Загальні моделі

МодельРозмірRAMОпис
llama3.3:70b40 ГБ64 ГБНайкраща відкрита модель від Meta
llama3.1:8b4.7 ГБ8 ГББаланс якості та швидкості
mistral:7b4.1 ГБ8 ГБШвидка та ефективна
gemma2:9b5.4 ГБ10 ГБВід Google, добра якість
phi-4:14b9 ГБ16 ГБВід Microsoft, компактна та розумна

API

Ollama надає REST API, сумісний з форматом OpenAI:

Chat Completion

bash
curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "qwen2.5-coder:7b", "messages": [ {"role": "user", "content": "Напиши функцію для бінарного пошуку на TypeScript"} ] }'

Generate (Ollama native API)

bash
curl http://localhost:11434/api/generate \ -H "Content-Type: application/json" \ -d '{ "model": "llama3.1:8b", "prompt": "Поясни різницю між let та const у JavaScript", "stream": false }'

Використання з Python

python
import requests response = requests.post("http://localhost:11434/api/chat", json={ "model": "qwen2.5-coder:7b", "messages": [ {"role": "user", "content": "Напиши unit тест для функції add(a, b)"} ], "stream": False, }) print(response.json()["message"]["content"])

Використання з JavaScript

typescript
const response = await fetch("http://localhost:11434/v1/chat/completions", { method: "POST", headers: { "Content-Type": "application/json" }, body: JSON.stringify({ model: "qwen2.5-coder:7b", messages: [ { role: "user", content: "Напиши React hook для debounce" } ], }), }); const data = await response.json(); console.log(data.choices[0].message.content);

Кастомні моделі (Modelfile)

Створіть власну конфігурацію моделі:

dockerfile
# Modelfile FROM qwen2.5-coder:7b # Системний промпт SYSTEM """ Ти — senior TypeScript розробник. Відповідай українською мовою. Завжди пиши типізований код з обробкою помилок. """ # Параметри PARAMETER temperature 0.3 PARAMETER top_p 0.9 PARAMETER num_ctx 8192

Збірка та використання:

bash
ollama create my-coder -f Modelfile ollama run my-coder

Інтеграції з IDE

Ollama працює як бекенд для багатьох IDE-плагінів через OpenAI-сумісний API:

Ollama API (localhost:11434) ├── Continue.dev (VS Code / JetBrains) ├── Cody (VS Code) ├── Cursor (OpenAI-compatible) └── Будь-який OpenAI-compatible клієнт
💡Порада

Найпопулярніша зв'язка — Ollama + Continue.dev. Continue підтримує autocomplete та chat з локальними моделями через Ollama.

Корисні налаштування

Змінні середовища

bash
# Змінити порт export OLLAMA_HOST=0.0.0.0:11434 # Змінити директорію моделей export OLLAMA_MODELS=/path/to/models # Кількість паралельних запитів export OLLAMA_NUM_PARALLEL=2 # Максимальний розмір контексту export OLLAMA_MAX_LOADED_MODELS=3

Наступні кроки

LM Studio

GUI-альтернатива для тих, хто віддає перевагу графічному інтерфейсу

Інтеграція з IDE

Підключіть Ollama до VS Code або JetBrains