Вибір моделі
Як обрати локальну AI-модель — розмір vs якість, вимоги до RAM, огляд популярних моделей та бенчмарки
📎ОФІЦІЙНА ДОКУМЕНТАЦІЯ
Розмір vs якість
Основний компроміс при виборі локальної моделі — між якістю відповідей та вимогами до апаратного забезпечення.
Якість ↑
│
│ ████ 70B+ (Llama 3.3 70B)
│ ████
│ ████ 32-34B (Qwen 2.5 32B)
│ ███
│ ███ 13-14B (Qwen 2.5 14B)
│ ██
│ ██ 7-8B (Llama 3.1 8B, Mistral 7B)
│ █
│ █ 1-3B (Phi-4-mini, Qwen 2.5 1.5B)
└──────────────────────────→ Ресурси
Для більшості задач розробки (autocomplete, пояснення коду, прості рефакторинги) моделі 7-14B достатньо. 70B+ потрібні для складних задач планування та архітектури.
Вимоги до RAM
Залежність від квантизації
| Квантизація | Розмір vs FP16 | Якість | Використання |
|---|---|---|---|
| Q2_K | ~25% | Значна деградація | Не рекомендовано |
| Q3_K_M | ~35% | Помітна деградація | Обмежені ресурси |
| Q4_K_M | ~45% | Мінімальна деградація | Рекомендовано |
| Q5_K_M | ~55% | Майже без деградації | Оптимально за якістю |
| Q6_K | ~65% | Практично без деградації | Якщо є RAM |
| Q8_0 | ~80% | Без помітної деградації | Багато RAM |
| FP16 | 100% | Оригінальна якість | Потребує найбільше RAM |
Таблиця вимог (Q4_K_M)
| Модель | Параметри | RAM (CPU) | VRAM (GPU) |
|---|---|---|---|
| Phi-4-mini | 3.8B | 4 ГБ | 3 ГБ |
| Llama 3.1 | 8B | 8 ГБ | 6 ГБ |
| Qwen 2.5 Coder | 7B | 8 ГБ | 5 ГБ |
| Mistral | 7B | 8 ГБ | 5 ГБ |
| Gemma 2 | 9B | 10 ГБ | 7 ГБ |
| Qwen 2.5 | 14B | 12 ГБ | 10 ГБ |
| Qwen 2.5 | 32B | 24 ГБ | 20 ГБ |
| Llama 3.3 | 70B | 48 ГБ | 40 ГБ |
| DeepSeek V3 | 671B (MoE) | 400+ ГБ | Спеціальне |
При inference на CPU модель працює значно повільніше, ніж на GPU. Для комфортної роботи рекомендується GPU з достатньою VRAM.
Популярні моделі
Llama (Meta)
Llama 3.3 70B — найпотужніша відкрита модель від Meta.
- Сильна у загальних задачах та кодуванні
- Великий контекст (128K)
- Хороша підтримка багатьох мов
- Llama 3.1 8B — відмінний вибір для початку
ollama run llama3.3:70b # Потужна версія
ollama run llama3.1:8b # Компактна версія
Qwen (Alibaba)
Qwen 2.5 Coder — одна з найкращих моделей для кодування.
- Спеціалізована версія для розробки
- Доступна у розмірах від 1.5B до 32B
- Відмінне розуміння коду та генерація
- Підтримка 90+ мов програмування
ollama run qwen2.5-coder:7b # Для повсякденного використання
ollama run qwen2.5-coder:32b # Для складних задач
Mistral / Mixtral (Mistral AI)
Mistral 7B — ефективна модель з хорошим балансом якості та швидкості.
- Швидший inference порівняно з аналогами
- Mixtral 8x7B використовує Mixture of Experts (MoE)
- Хороша для загальних задач
ollama run mistral:7b
Gemma (Google)
Gemma 2 — відкрита модель від Google.
- Доступна у розмірах 2B та 9B
- Хороша якість для свого розміру
- Оптимізована для швидкого inference
ollama run gemma2:9b
DeepSeek (DeepSeek AI)
DeepSeek Coder V2 — потужна модель для кодування.
- Mixture of Experts архітектура
- Сильна у складних задачах програмування
- Великий контекст
ollama run deepseek-coder-v2:16b
Phi (Microsoft)
Phi-4 — компактна, але розумна модель від Microsoft.
- Дуже маленький розмір (3.8B параметрів)
- Вражаюча якість для свого розміру
- Ідеальна для обмежених ресурсів
ollama run phi4-mini
Рекомендації за сценарієм
Autocomplete у IDE
| Вимога | Рекомендація |
|---|---|
| Швидкість критична | Qwen 2.5 Coder 1.5B або Phi-4-mini |
| Баланс | Qwen 2.5 Coder 7B |
| Якість важливіша | Qwen 2.5 Coder 14B-32B |
Chat та пояснення коду
| RAM | Рекомендація |
|---|---|
| 8 ГБ | Llama 3.1 8B або Mistral 7B |
| 16 ГБ | Qwen 2.5 14B |
| 32+ ГБ | Qwen 2.5 32B |
Code review та рефакторинг
Для цих задач рекомендуються моделі 14B+:
ollama run qwen2.5-coder:32b
Як тестувати модель
Використовуйте стандартний набір задач для порівняння:
# 1. Генерація функції
ollama run qwen2.5-coder:7b "Напиши TypeScript функцію для
deep merge двох об'єктів з рекурсивним злиттям масивів"
# 2. Пояснення коду
ollama run qwen2.5-coder:7b "Поясни що робить цей regex:
/^(?=.*[A-Z])(?=.*[a-z])(?=.*\d)[A-Za-z\d@$!%*?&]{8,}$/"
# 3. Знаходження багів
ollama run qwen2.5-coder:7b "Знайди баг у цьому коді:
function sum(arr) { let s = 0; for(let i = 1; i <= arr.length; i++) s += arr[i]; return s; }"
# 4. Рефакторинг
ollama run qwen2.5-coder:7b "Рефакторинг: замінити callback hell на async/await"
Спробуйте кілька моделей на одних і тих же задачах та оберіть ту, яка найкраще відповідає вашим потребам за якістю та швидкістю.
Наступні кроки
Запуск обраної моделі через Ollama
Підключіть модель до вашого редактора