RAG (Retrieval Augmented Generation)
Підхід, що поєднує пошук інформації у зовнішніх базах та генерацію відповідей LLM
RAGretrievalembeddingsвекторний пошукконтекст
📎ОФІЦІЙНА ДОКУМЕНТАЦІЯ
RAG (Retrieval Augmented Generation)
RAG -- підхід, що поєднує пошук інформації у зовнішніх базах та генерацію відповідей LLM.
Повний процес RAG (5 кроків)
- Отримання запиту від користувача
- Векторний пошук релевантної інформації
- Формування контексту з знайдених фрагментів
- Генерація відповіді LLM
- Видача відповіді з посиланнями на джерела
File-first vs RAG
| Критерій | File-first | RAG |
|---|---|---|
| Обсяг даних | Сотні/тисячі файлів | Мільйони документів |
| Тип пошуку | За ключовими словами | Семантичний |
| Latency | Будь-яка | < 100ms |
| Складність | Проста | Потрібна інфраструктура |
Long-Context LLMs vs RAG
| Аспект | Long-Context | RAG |
|---|---|---|
| Якість | Вища | Нижча |
| Вартість | Вища | Нижча |
| Швидкість | Нижча | Вища |
Складнощі RAG
⚠️Увага
Якість RAG упирається у якість пошуку. Поганий retrieval = погана генерація.
- Якість упирається у пошук
- Затримка (Latency)
- Конфлікти даних між джерелами