AI Wiki

RAG (Retrieval Augmented Generation)

Підхід, що поєднує пошук інформації у зовнішніх базах та генерацію відповідей LLM

RAGretrievalembeddingsвекторний пошукконтекст

📎ОФІЦІЙНА ДОКУМЕНТАЦІЯ

RAG (Retrieval Augmented Generation)

RAG -- підхід, що поєднує пошук інформації у зовнішніх базах та генерацію відповідей LLM.

Повний процес RAG (5 кроків)

  1. Отримання запиту від користувача
  2. Векторний пошук релевантної інформації
  3. Формування контексту з знайдених фрагментів
  4. Генерація відповіді LLM
  5. Видача відповіді з посиланнями на джерела

File-first vs RAG

КритерійFile-firstRAG
Обсяг данихСотні/тисячі файлівМільйони документів
Тип пошукуЗа ключовими словамиСемантичний
LatencyБудь-яка< 100ms
СкладністьПростаПотрібна інфраструктура

Long-Context LLMs vs RAG

АспектLong-ContextRAG
ЯкістьВищаНижча
ВартістьВищаНижча
ШвидкістьНижчаВища

Складнощі RAG

⚠️Увага

Якість RAG упирається у якість пошуку. Поганий retrieval = погана генерація.

  • Якість упирається у пошук
  • Затримка (Latency)
  • Конфлікти даних між джерелами