Вибір моделі

Як обрати локальну AI-модель — розмір vs якість, вимоги до RAM, огляд популярних моделей та бенчмарки

local-modelsmodel-selectionllamaqwenmistraldeepseekbenchmarks

📎ОФІЦІЙНА ДОКУМЕНТАЦІЯ

Розмір vs якість

Основний компроміс при виборі локальної моделі — між якістю відповідей та вимогами до апаратного забезпечення.

Якість ↑
  │
  │   ████ 70B+ (Llama 3.3 70B)
  │   ████
  │  ████ 32-34B (Qwen 2.5 32B)
  │  ███
  │ ███ 13-14B (Qwen 2.5 14B)
  │ ██
  │ ██ 7-8B (Llama 3.1 8B, Mistral 7B)
  │ █
  │ █ 1-3B (Phi-4-mini, Qwen 2.5 1.5B)
  └──────────────────────────→ Ресурси

ℹ️Інформація

Для більшості задач розробки (autocomplete, пояснення коду, прості рефакторинги) моделі 7-14B достатньо. 70B+ потрібні для складних задач планування та архітектури.

Вимоги до RAM

Залежність від квантизації

Квантизація	Розмір vs FP16	Якість	Використання
Q2_K	~25%	Значна деградація	Не рекомендовано
Q3_K_M	~35%	Помітна деградація	Обмежені ресурси
Q4_K_M	~45%	Мінімальна деградація	Рекомендовано
Q5_K_M	~55%	Майже без деградації	Оптимально за якістю
Q6_K	~65%	Практично без деградації	Якщо є RAM
Q8_0	~80%	Без помітної деградації	Багато RAM
FP16	100%	Оригінальна якість	Потребує найбільше RAM

Таблиця вимог (Q4_K_M)

Модель	Параметри	RAM (CPU)	VRAM (GPU)
Phi-4-mini	3.8B	4 ГБ	3 ГБ
Llama 3.1	8B	8 ГБ	6 ГБ
Qwen 2.5 Coder	7B	8 ГБ	5 ГБ
Mistral	7B	8 ГБ	5 ГБ
Gemma 2	9B	10 ГБ	7 ГБ
Qwen 2.5	14B	12 ГБ	10 ГБ
Qwen 2.5	32B	24 ГБ	20 ГБ
Llama 3.3	70B	48 ГБ	40 ГБ
DeepSeek V3	671B (MoE)	400+ ГБ	Спеціальне

⚠️Увага

При inference на CPU модель працює значно повільніше, ніж на GPU. Для комфортної роботи рекомендується GPU з достатньою VRAM.

Популярні моделі

Llama (Meta)

Llama 3.3 70B — найпотужніша відкрита модель від Meta.

Сильна у загальних задачах та кодуванні
Великий контекст (128K)
Хороша підтримка багатьох мов
Llama 3.1 8B — відмінний вибір для початку

bash

ollama run llama3.3:70b      # Потужна версія
ollama run llama3.1:8b       # Компактна версія

Qwen (Alibaba)

Qwen 2.5 Coder — одна з найкращих моделей для кодування.

Спеціалізована версія для розробки
Доступна у розмірах від 1.5B до 32B
Відмінне розуміння коду та генерація
Підтримка 90+ мов програмування

bash

ollama run qwen2.5-coder:7b   # Для повсякденного використання
ollama run qwen2.5-coder:32b  # Для складних задач

Mistral / Mixtral (Mistral AI)

Mistral 7B — ефективна модель з хорошим балансом якості та швидкості.

Швидший inference порівняно з аналогами
Mixtral 8x7B використовує Mixture of Experts (MoE)
Хороша для загальних задач

bash

ollama run mistral:7b

Gemma (Google)

Gemma 2 — відкрита модель від Google.

Доступна у розмірах 2B та 9B
Хороша якість для свого розміру
Оптимізована для швидкого inference

bash

ollama run gemma2:9b

DeepSeek (DeepSeek AI)

DeepSeek Coder V2 — потужна модель для кодування.

Mixture of Experts архітектура
Сильна у складних задачах програмування
Великий контекст

bash

ollama run deepseek-coder-v2:16b

Phi (Microsoft)

Phi-4 — компактна, але розумна модель від Microsoft.

Дуже маленький розмір (3.8B параметрів)
Вражаюча якість для свого розміру
Ідеальна для обмежених ресурсів

bash

ollama run phi4-mini

Вимога	Рекомендація
Швидкість критична	Qwen 2.5 Coder 1.5B або Phi-4-mini
Баланс	Qwen 2.5 Coder 7B
Якість важливіша	Qwen 2.5 Coder 14B-32B

RAM	Рекомендація
8 ГБ	Llama 3.1 8B або Mistral 7B
16 ГБ	Qwen 2.5 14B
32+ ГБ	Qwen 2.5 32B

Як тестувати модель

Використовуйте стандартний набір задач для порівняння:

bash

# 1. Генерація функції
ollama run qwen2.5-coder:7b "Напиши TypeScript функцію для 
  deep merge двох об'єктів з рекурсивним злиттям масивів"

# 2. Пояснення коду
ollama run qwen2.5-coder:7b "Поясни що робить цей regex: 
  /^(?=.*[A-Z])(?=.*[a-z])(?=.*\d)[A-Za-z\d@$!%*?&]{8,}$/"

# 3. Знаходження багів
ollama run qwen2.5-coder:7b "Знайди баг у цьому коді:
  function sum(arr) { let s = 0; for(let i = 1; i <= arr.length; i++) s += arr[i]; return s; }"

# 4. Рефакторинг
ollama run qwen2.5-coder:7b "Рефакторинг: замінити callback hell на async/await"

💡Порада

Спробуйте кілька моделей на одних і тих же задачах та оберіть ту, яка найкраще відповідає вашим потребам за якістю та швидкістю.

Наступні кроки

Ollama

Запуск обраної моделі через Ollama

Інтеграція з IDE

Підключіть модель до вашого редактора

Пов'язані

Вибір моделі

📎ОФІЦІЙНА ДОКУМЕНТАЦІЯ

Розмір vs якість

Вимоги до RAM

Залежність від квантизації

Таблиця вимог (Q4_K_M)

Популярні моделі

Llama (Meta)

Qwen (Alibaba)

Mistral / Mixtral (Mistral AI)

Gemma (Google)

DeepSeek (DeepSeek AI)

Phi (Microsoft)

Рекомендації за сценарієм

Autocomplete у IDE

Chat та пояснення коду

Code review та рефакторинг

Як тестувати модель

Наступні кроки