Ollama

Запуск AI-моделей локально через Ollama — встановлення, бібліотека моделей, API та інтеграції з IDE

ollamalocal-modelscliapillama

📎ОФІЦІЙНА ДОКУМЕНТАЦІЯ

Що таке Ollama?

Ollama — це CLI-інструмент для запуску великих мовних моделей локально. Ollama автоматизує завантаження, конфігурацію та запуск моделей, надаючи простий інтерфейс та OpenAI-сумісний API.

ℹ️Інформація

Ollama підтримує macOS, Linux та Windows. Моделі завантажуються автоматично при першому використанні та зберігаються локально.

Встановлення

macOS

bash

brew install ollama

Або завантажте з ollama.com

Linux

bash

curl -fsSL https://ollama.com/install.sh | sh

Windows

Завантажте інсталятор з ollama.com або використайте winget:

bash

winget install Ollama.Ollama

Docker

bash

docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Для GPU (NVIDIA):

bash

docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Основні команди

Запуск моделі

bash

# Запустити модель (завантажить при першому запуску)
ollama run llama3.3

# Запустити конкретну версію
ollama run llama3.3:70b

# Запустити з конкретною квантизацією
ollama run qwen2.5-coder:7b-q5_K_M

Управління моделями

bash

# Список встановлених моделей
ollama list

# Завантажити модель без запуску
ollama pull mistral

# Видалити модель
ollama rm llama3.3

# Показати інформацію про модель
ollama show llama3.3

Запуск сервера

bash

# Запустити API-сервер (зазвичай автоматично)
ollama serve

# Сервер доступний на http://localhost:11434

Бібліотека моделей

Моделі для кодування

Модель	Розмір	RAM	Опис
`qwen2.5-coder:7b`	4.7 ГБ	8 ГБ	Спеціалізована для коду, дуже якісна
`qwen2.5-coder:32b`	20 ГБ	32 ГБ	Найкраща для складних задач кодування
`deepseek-coder-v2:16b`	9 ГБ	16 ГБ	Сильна у генерації та розумінні коду
`codellama:13b`	7.4 ГБ	16 ГБ	Від Meta, підтримує infill
`starcoder2:7b`	4 ГБ	8 ГБ	Для autocomplete у IDE

Загальні моделі

Модель	Розмір	RAM	Опис
`llama3.3:70b`	40 ГБ	64 ГБ	Найкраща відкрита модель від Meta
`llama3.1:8b`	4.7 ГБ	8 ГБ	Баланс якості та швидкості
`mistral:7b`	4.1 ГБ	8 ГБ	Швидка та ефективна
`gemma2:9b`	5.4 ГБ	10 ГБ	Від Google, добра якість
`phi-4:14b`	9 ГБ	16 ГБ	Від Microsoft, компактна та розумна

API

Ollama надає REST API, сумісний з форматом OpenAI:

Chat Completion

bash

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "qwen2.5-coder:7b",
    "messages": [
      {"role": "user", "content": "Напиши функцію для бінарного пошуку на TypeScript"}
    ]
  }'

Generate (Ollama native API)

bash

curl http://localhost:11434/api/generate \
  -H "Content-Type: application/json" \
  -d '{
    "model": "llama3.1:8b",
    "prompt": "Поясни різницю між let та const у JavaScript",
    "stream": false
  }'

Використання з Python

python

import requests

response = requests.post("http://localhost:11434/api/chat", json={
    "model": "qwen2.5-coder:7b",
    "messages": [
        {"role": "user", "content": "Напиши unit тест для функції add(a, b)"}
    ],
    "stream": False,
})

print(response.json()["message"]["content"])

Використання з JavaScript

typescript

const response = await fetch("http://localhost:11434/v1/chat/completions", {
  method: "POST",
  headers: { "Content-Type": "application/json" },
  body: JSON.stringify({
    model: "qwen2.5-coder:7b",
    messages: [
      { role: "user", content: "Напиши React hook для debounce" }
    ],
  }),
});

const data = await response.json();
console.log(data.choices[0].message.content);

Кастомні моделі (Modelfile)

Створіть власну конфігурацію моделі:

dockerfile

# Modelfile
FROM qwen2.5-coder:7b

# Системний промпт
SYSTEM """
Ти — senior TypeScript розробник. Відповідай українською мовою.
Завжди пиши типізований код з обробкою помилок.
"""

# Параметри
PARAMETER temperature 0.3
PARAMETER top_p 0.9
PARAMETER num_ctx 8192

Збірка та використання:

bash

ollama create my-coder -f Modelfile
ollama run my-coder

Інтеграції з IDE

Ollama працює як бекенд для багатьох IDE-плагінів через OpenAI-сумісний API:

Ollama API (localhost:11434)
    ├── Continue.dev (VS Code / JetBrains)
    ├── Cody (VS Code)
    ├── Cursor (OpenAI-compatible)
    └── Будь-який OpenAI-compatible клієнт

💡Порада

Найпопулярніша зв'язка — Ollama + Continue.dev. Continue підтримує autocomplete та chat з локальними моделями через Ollama.

Корисні налаштування

Змінні середовища

bash

# Змінити порт
export OLLAMA_HOST=0.0.0.0:11434

# Змінити директорію моделей
export OLLAMA_MODELS=/path/to/models

# Кількість паралельних запитів
export OLLAMA_NUM_PARALLEL=2

# Максимальний розмір контексту
export OLLAMA_MAX_LOADED_MODELS=3

Наступні кроки

LM Studio

GUI-альтернатива для тих, хто віддає перевагу графічному інтерфейсу

Інтеграція з IDE

Підключіть Ollama до VS Code або JetBrains

Пов'язані

Ollama

📎ОФІЦІЙНА ДОКУМЕНТАЦІЯ

Що таке Ollama?

Встановлення

macOS

Linux

Windows

Docker

Основні команди

Запуск моделі

Управління моделями

Запуск сервера

Бібліотека моделей

Моделі для кодування

Загальні моделі

API

Chat Completion

Generate (Ollama native API)

Використання з Python

Використання з JavaScript

Кастомні моделі (Modelfile)

Інтеграції з IDE

Корисні налаштування

Змінні середовища

Наступні кроки