AI Wiki

Вибір моделі

Як обрати локальну AI-модель — розмір vs якість, вимоги до RAM, огляд популярних моделей та бенчмарки

local-modelsmodel-selectionllamaqwenmistraldeepseekbenchmarks

📎ОФІЦІЙНА ДОКУМЕНТАЦІЯ

Розмір vs якість

Основний компроміс при виборі локальної моделі — між якістю відповідей та вимогами до апаратного забезпечення.

Якість ↑ │ │ ████ 70B+ (Llama 3.3 70B) │ ████ │ ████ 32-34B (Qwen 2.5 32B) │ ███ │ ███ 13-14B (Qwen 2.5 14B) │ ██ │ ██ 7-8B (Llama 3.1 8B, Mistral 7B) │ █ │ █ 1-3B (Phi-4-mini, Qwen 2.5 1.5B) └──────────────────────────→ Ресурси
ℹ️Інформація

Для більшості задач розробки (autocomplete, пояснення коду, прості рефакторинги) моделі 7-14B достатньо. 70B+ потрібні для складних задач планування та архітектури.

Вимоги до RAM

Залежність від квантизації

КвантизаціяРозмір vs FP16ЯкістьВикористання
Q2_K~25%Значна деградаціяНе рекомендовано
Q3_K_M~35%Помітна деградаціяОбмежені ресурси
Q4_K_M~45%Мінімальна деградаціяРекомендовано
Q5_K_M~55%Майже без деградаціїОптимально за якістю
Q6_K~65%Практично без деградаціїЯкщо є RAM
Q8_0~80%Без помітної деградаціїБагато RAM
FP16100%Оригінальна якістьПотребує найбільше RAM

Таблиця вимог (Q4_K_M)

МодельПараметриRAM (CPU)VRAM (GPU)
Phi-4-mini3.8B4 ГБ3 ГБ
Llama 3.18B8 ГБ6 ГБ
Qwen 2.5 Coder7B8 ГБ5 ГБ
Mistral7B8 ГБ5 ГБ
Gemma 29B10 ГБ7 ГБ
Qwen 2.514B12 ГБ10 ГБ
Qwen 2.532B24 ГБ20 ГБ
Llama 3.370B48 ГБ40 ГБ
DeepSeek V3671B (MoE)400+ ГБСпеціальне
⚠️Увага

При inference на CPU модель працює значно повільніше, ніж на GPU. Для комфортної роботи рекомендується GPU з достатньою VRAM.

Популярні моделі

Llama (Meta)

Llama 3.3 70B — найпотужніша відкрита модель від Meta.

  • Сильна у загальних задачах та кодуванні
  • Великий контекст (128K)
  • Хороша підтримка багатьох мов
  • Llama 3.1 8B — відмінний вибір для початку
bash
ollama run llama3.3:70b # Потужна версія ollama run llama3.1:8b # Компактна версія

Qwen (Alibaba)

Qwen 2.5 Coder — одна з найкращих моделей для кодування.

  • Спеціалізована версія для розробки
  • Доступна у розмірах від 1.5B до 32B
  • Відмінне розуміння коду та генерація
  • Підтримка 90+ мов програмування
bash
ollama run qwen2.5-coder:7b # Для повсякденного використання ollama run qwen2.5-coder:32b # Для складних задач

Mistral / Mixtral (Mistral AI)

Mistral 7B — ефективна модель з хорошим балансом якості та швидкості.

  • Швидший inference порівняно з аналогами
  • Mixtral 8x7B використовує Mixture of Experts (MoE)
  • Хороша для загальних задач
bash
ollama run mistral:7b

Gemma (Google)

Gemma 2 — відкрита модель від Google.

  • Доступна у розмірах 2B та 9B
  • Хороша якість для свого розміру
  • Оптимізована для швидкого inference
bash
ollama run gemma2:9b

DeepSeek (DeepSeek AI)

DeepSeek Coder V2 — потужна модель для кодування.

  • Mixture of Experts архітектура
  • Сильна у складних задачах програмування
  • Великий контекст
bash
ollama run deepseek-coder-v2:16b

Phi (Microsoft)

Phi-4 — компактна, але розумна модель від Microsoft.

  • Дуже маленький розмір (3.8B параметрів)
  • Вражаюча якість для свого розміру
  • Ідеальна для обмежених ресурсів
bash
ollama run phi4-mini

Рекомендації за сценарієм

Autocomplete у IDE

ВимогаРекомендація
Швидкість критичнаQwen 2.5 Coder 1.5B або Phi-4-mini
БалансQwen 2.5 Coder 7B
Якість важливішаQwen 2.5 Coder 14B-32B

Chat та пояснення коду

RAMРекомендація
8 ГБLlama 3.1 8B або Mistral 7B
16 ГБQwen 2.5 14B
32+ ГБQwen 2.5 32B

Code review та рефакторинг

Для цих задач рекомендуються моделі 14B+:

bash
ollama run qwen2.5-coder:32b

Як тестувати модель

Використовуйте стандартний набір задач для порівняння:

bash
# 1. Генерація функції ollama run qwen2.5-coder:7b "Напиши TypeScript функцію для deep merge двох об'єктів з рекурсивним злиттям масивів" # 2. Пояснення коду ollama run qwen2.5-coder:7b "Поясни що робить цей regex: /^(?=.*[A-Z])(?=.*[a-z])(?=.*\d)[A-Za-z\d@$!%*?&]{8,}$/" # 3. Знаходження багів ollama run qwen2.5-coder:7b "Знайди баг у цьому коді: function sum(arr) { let s = 0; for(let i = 1; i <= arr.length; i++) s += arr[i]; return s; }" # 4. Рефакторинг ollama run qwen2.5-coder:7b "Рефакторинг: замінити callback hell на async/await"
💡Порада

Спробуйте кілька моделей на одних і тих же задачах та оберіть ту, яка найкраще відповідає вашим потребам за якістю та швидкістю.

Наступні кроки

Ollama

Запуск обраної моделі через Ollama

Інтеграція з IDE

Підключіть модель до вашого редактора