Ollama
Запуск AI-моделей локально через Ollama — встановлення, бібліотека моделей, API та інтеграції з IDE
📎ОФІЦІЙНА ДОКУМЕНТАЦІЯ
Що таке Ollama?
Ollama — це CLI-інструмент для запуску великих мовних моделей локально. Ollama автоматизує завантаження, конфігурацію та запуск моделей, надаючи простий інтерфейс та OpenAI-сумісний API.
Ollama підтримує macOS, Linux та Windows. Моделі завантажуються автоматично при першому використанні та зберігаються локально.
Встановлення
macOS
brew install ollama
Або завантажте з ollama.com
Linux
curl -fsSL https://ollama.com/install.sh | sh
Windows
Завантажте інсталятор з ollama.com або використайте winget:
winget install Ollama.Ollama
Docker
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Для GPU (NVIDIA):
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
Основні команди
Запуск моделі
# Запустити модель (завантажить при першому запуску)
ollama run llama3.3
# Запустити конкретну версію
ollama run llama3.3:70b
# Запустити з конкретною квантизацією
ollama run qwen2.5-coder:7b-q5_K_M
Управління моделями
# Список встановлених моделей
ollama list
# Завантажити модель без запуску
ollama pull mistral
# Видалити модель
ollama rm llama3.3
# Показати інформацію про модель
ollama show llama3.3
Запуск сервера
# Запустити API-сервер (зазвичай автоматично)
ollama serve
# Сервер доступний на http://localhost:11434
Бібліотека моделей
Моделі для кодування
| Модель | Розмір | RAM | Опис |
|---|---|---|---|
qwen2.5-coder:7b | 4.7 ГБ | 8 ГБ | Спеціалізована для коду, дуже якісна |
qwen2.5-coder:32b | 20 ГБ | 32 ГБ | Найкраща для складних задач кодування |
deepseek-coder-v2:16b | 9 ГБ | 16 ГБ | Сильна у генерації та розумінні коду |
codellama:13b | 7.4 ГБ | 16 ГБ | Від Meta, підтримує infill |
starcoder2:7b | 4 ГБ | 8 ГБ | Для autocomplete у IDE |
Загальні моделі
| Модель | Розмір | RAM | Опис |
|---|---|---|---|
llama3.3:70b | 40 ГБ | 64 ГБ | Найкраща відкрита модель від Meta |
llama3.1:8b | 4.7 ГБ | 8 ГБ | Баланс якості та швидкості |
mistral:7b | 4.1 ГБ | 8 ГБ | Швидка та ефективна |
gemma2:9b | 5.4 ГБ | 10 ГБ | Від Google, добра якість |
phi-4:14b | 9 ГБ | 16 ГБ | Від Microsoft, компактна та розумна |
API
Ollama надає REST API, сумісний з форматом OpenAI:
Chat Completion
curl http://localhost:11434/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "qwen2.5-coder:7b",
"messages": [
{"role": "user", "content": "Напиши функцію для бінарного пошуку на TypeScript"}
]
}'
Generate (Ollama native API)
curl http://localhost:11434/api/generate \
-H "Content-Type: application/json" \
-d '{
"model": "llama3.1:8b",
"prompt": "Поясни різницю між let та const у JavaScript",
"stream": false
}'
Використання з Python
import requests
response = requests.post("http://localhost:11434/api/chat", json={
"model": "qwen2.5-coder:7b",
"messages": [
{"role": "user", "content": "Напиши unit тест для функції add(a, b)"}
],
"stream": False,
})
print(response.json()["message"]["content"])
Використання з JavaScript
const response = await fetch("http://localhost:11434/v1/chat/completions", {
method: "POST",
headers: { "Content-Type": "application/json" },
body: JSON.stringify({
model: "qwen2.5-coder:7b",
messages: [
{ role: "user", content: "Напиши React hook для debounce" }
],
}),
});
const data = await response.json();
console.log(data.choices[0].message.content);
Кастомні моделі (Modelfile)
Створіть власну конфігурацію моделі:
# Modelfile
FROM qwen2.5-coder:7b
# Системний промпт
SYSTEM """
Ти — senior TypeScript розробник. Відповідай українською мовою.
Завжди пиши типізований код з обробкою помилок.
"""
# Параметри
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192
Збірка та використання:
ollama create my-coder -f Modelfile
ollama run my-coder
Інтеграції з IDE
Ollama працює як бекенд для багатьох IDE-плагінів через OpenAI-сумісний API:
Ollama API (localhost:11434)
├── Continue.dev (VS Code / JetBrains)
├── Cody (VS Code)
├── Cursor (OpenAI-compatible)
└── Будь-який OpenAI-compatible клієнт
Найпопулярніша зв'язка — Ollama + Continue.dev. Continue підтримує autocomplete та chat з локальними моделями через Ollama.
Корисні налаштування
Змінні середовища
# Змінити порт
export OLLAMA_HOST=0.0.0.0:11434
# Змінити директорію моделей
export OLLAMA_MODELS=/path/to/models
# Кількість паралельних запитів
export OLLAMA_NUM_PARALLEL=2
# Максимальний розмір контексту
export OLLAMA_MAX_LOADED_MODELS=3
Наступні кроки
GUI-альтернатива для тих, хто віддає перевагу графічному інтерфейсу
Підключіть Ollama до VS Code або JetBrains