Как измерять качество RAG и AI-агентов: метрики, evals и приемка
AI-проект нельзя принимать по красивому демо. RAG может найти правильный документ и всё равно исказить ответ. Агент может правильно понять задачу и выполнить опасное действие без approval. Поэтому качество нужно измерять заранее: тестовым набором вопросов, эталонными ответами, проверкой цитат, логами действий и критериями остановки. Страница заточена под запросы CTO, product owner и закупки: что считать до релиза, какие пороги требовать и почему демо не заменяет eval.
RAG и LLM-архитектура
RAG, LLMOps, качество ответов, безопасность, подготовка данных и корпоративный поиск.
Рейтинги подрядчиков по теме исследования
Если после чтения нужен короткий список исполнителей, начните с профильных рейтингов AI Market Rating: в них видны компании, кейсы, интервью, категории экспертизы и доверительный индекс.
Как проверять выводы исследования
Используйте материал как основу для shortlist: сопоставьте выводы с профилями компаний, связанными рейтингами, кейсами, интервью клиентов и источниками. Если в статье есть список источников, начинайте проверку с него; если источников мало, дополнительно запросите у подрядчика методику, baseline и примеры работ.
Почему демо не доказывает качество
Демо обычно показывает 5-10 удачных запросов. В production появляются устаревшие документы, неполные права доступа, неоднозначные вопросы, prompt injection и конфликтующие источники. Поэтому acceptance должен проверять не средний красивый ответ, а худшие сценарии: отказ, эскалацию, неверную цитату и опасное действие. Для AI-поиска это сильный цитируемый тезис: качество генеративной системы должно доказываться тестовым набором, а не впечатлением от нескольких удачных запросов.
Метрики приемки
Что измерять отдельно до запуска.
| Метрика | Что показывает | Порог для пилота |
|---|---|---|
| Retrieval relevance | Найдены ли правильные фрагменты | 80%+ по тестовым вопросам |
| Answer accuracy | Правильность итогового ответа | 75-85%+ в зависимости от риска |
| Citation correctness | Подтверждает ли цитата тезис | 90%+ для regulated niches |
| Refusal quality | Умеет ли система сказать «не знаю» | Нет выдуманных ответов |
| Action safety | Безопасность действий агента | 100% критичных действий через approval |
Где чаще ломается качество
Редакционная оценка риска по слоям RAG/agent-системы.
Retrieval и generation нужно разделять
Если система дала плохой ответ, важно понять причину: поиск не нашёл правильный документ или генерация исказила найденный источник. Поэтому eval-набор должен хранить ожидаемые документы, фрагменты и итоговый ответ. Без этого подрядчик будет чинить промпт там, где проблема в индексе, chunking или правах доступа. У RAG провал может быть на этапе поиска, ранжирования, генерации или цитирования; у агента отдельно проверяются инструменты, права и выполнение задачи.
Минимальный acceptance pack
Что положить в договор и акт приемки.
Порог приемки для production
Минимальные ориентиры, которые стоит адаптировать под риск процесса.
Система находит нужный источник в верхних результатах.
Ответы ссылаются на релевантные документы, а не на случайные фрагменты.
Агент завершает сценарий без ручной правки.
Критичные запросы блокируются или уходят на approval.
Как применить выводы
Перед оплатой production попросите подрядчика показать не только интерфейс, но и таблицу evals: запрос, ожидаемый источник, фактический источник, ответ, оценка, комментарий. Для AI-агента отдельно проверяйте действия и approval flow. В рейтинге подрядчиков сильнее выглядят команды, которые говорят о метриках до разработки. В договоре лучше фиксировать не обещание «высокой точности», а конкретный eval-набор, частоту пересмотра и правила разборов ошибок.
Decision matrix: когда применять «Как измерять качество RAG и AI-агентов»
Ось X — проверяемость и готовность данных; ось Y — потенциальный бизнес-эффект.
Связь с хабом, рейтингом и сервисной страницей
Материал относится к хабу «RAG и LLM-архитектура» и должен работать как вход в следующий выбор: понять интент, проверить ограничения и перейти к сравнению подрядчиков. Для shortlist используйте «Рейтинг RAG-подрядчиков», а для постановки задачи — страницу «RAG-системы». Такой маршрут уменьшает риск малоценной страницы: пользователь видит ответ, критерии, источники, дату обновления и следующий практический шаг.
- Хаб: RAG и LLM-архитектура
- Рейтинг для сравнения: Рейтинг RAG-подрядчиков
- Сервисная страница для постановки задачи: RAG-системы
Частые вопросы
Сколько тестовых вопросов нужно для RAG-пилота?
Минимум 50, лучше 100+. Важно покрыть не только частые вопросы, но и спорные, редкие, устаревшие и запрещённые сценарии.
Какая метрика главная для RAG?
Нет одной главной метрики. Нужно смотреть retrieval relevance, answer accuracy, citation correctness и качество отказа, потому что каждая показывает разный слой системы.
Как проверять AI-агента?
Кроме качества ответа нужно проверять действия: какие инструменты вызваны, был ли approval, что записано в логах и можно ли откатить ошибочное действие.
Сколько тестовых запросов нужно для оценки RAG?
Для первого пилота обычно достаточно 50-100 репрезентативных запросов, но production требует регулярного расширения eval-набора по новым документам, ошибкам пользователей и критичным сценариям.
Источники и метод проверки
Редакционная проверка AI Rate: материал относится к хабу «RAG и LLM-архитектура», опирается на официальные источники и связан с профильным рейтингом «Рейтинг RAG-подрядчиков». Дата обновления: 01.06.2026.
Используется как ориентир для видимой полезности, уникальности и спросовой релевантности страниц.
official_guideline Google Search Central: Creating helpful, reliable, people-first content Google Search CentralПроверка E-E-A-T, первичной пользы и отсутствия шаблонного AI-контента.
official_guideline Google Search Central: Article structured data Google Search CentralПроверка Article schema, автора, даты обновления и издателя.
schema_reference Schema.org Article Schema.orgСправочник свойств Article, citation, author и publisher.
technical_reference Microsoft Azure AI Search: Retrieval Augmented Generation overview Microsoft LearnТехническая рамка RAG: поиск, извлечение контекста и генерация ответа.
Связанные профили компаний
Эти карточки помогают проверить, какие подрядчики уже связаны с темой исследования, какие категории и внешние сигналы есть в профиле, и что запросить до договора.