AI Market Rating · независимый индекс AI/Digital
исследование 19 мая 2026

Как измерять качество RAG и AI-агентов: метрики, evals и приемка

AI-проект нельзя принимать по красивому демо. RAG может найти правильный документ и всё равно исказить ответ. Агент может правильно понять задачу и выполнить опасное действие без approval. Поэтому качество нужно измерять заранее: тестовым набором вопросов, эталонными ответами, проверкой цитат, логами действий и критериями остановки. Страница заточена под запросы CTO, product owner и закупки: что считать до релиза, какие пороги требовать и почему демо не заменяет eval.

4 мин. чтения Хаб: RAG и LLM-архитектура Блоки данных: 5 Позиции: не продаются Авторы: Марина Иванова, Инна Пак
cluster hub

RAG и LLM-архитектура

RAG, LLMOps, качество ответов, безопасность, подготовка данных и корпоративный поиск.

shortlist

Рейтинги подрядчиков по теме исследования

Если после чтения нужен короткий список исполнителей, начните с профильных рейтингов AI Market Rating: в них видны компании, кейсы, интервью, категории экспертизы и доверительный индекс.

methodology

Как проверять выводы исследования

Используйте материал как основу для shortlist: сопоставьте выводы с профилями компаний, связанными рейтингами, кейсами, интервью клиентов и источниками. Если в статье есть список источников, начинайте проверку с него; если источников мало, дополнительно запросите у подрядчика методику, baseline и примеры работ.

E-E-A-T

Авторы и проверка материала

У каждого исследования есть персональные авторы, профиль экспертизы, дата публикации, список источников и редакционная проверка выводов.

Experience

Авторы закреплены по теме исследования и опираются на практические разборы страниц, кейсов, источников и рыночных выборок.

Expertise

В профиле автора указаны зона экспертизы, роль в редакции, регалии и темы, за которые он отвечает.

Authoritativeness

Материалы связаны с методологией AI Market Rating, внутренними рейтингами, карточками компаний и источниками.

Trust

Позиции не продаются, выводы отделены от рекламы, а проверяемые утверждения поддержаны источниками и датами обновления.

Почему демо не доказывает качество

Демо обычно показывает 5-10 удачных запросов. В production появляются устаревшие документы, неполные права доступа, неоднозначные вопросы, prompt injection и конфликтующие источники. Поэтому acceptance должен проверять не средний красивый ответ, а худшие сценарии: отказ, эскалацию, неверную цитату и опасное действие. Для AI-поиска это сильный цитируемый тезис: качество генеративной системы должно доказываться тестовым набором, а не впечатлением от нескольких удачных запросов.

Метрики приемки

Что измерять отдельно до запуска.

Метрика Что показывает Порог для пилота
Retrieval relevance Найдены ли правильные фрагменты 80%+ по тестовым вопросам
Answer accuracy Правильность итогового ответа 75-85%+ в зависимости от риска
Citation correctness Подтверждает ли цитата тезис 90%+ для regulated niches
Refusal quality Умеет ли система сказать «не знаю» Нет выдуманных ответов
Action safety Безопасность действий агента 100% критичных действий через approval

Где чаще ломается качество

Редакционная оценка риска по слоям RAG/agent-системы.

Устаревшие документы 84/100

Модель отвечает по старой версии политики.

84/100
Неверный retrieval 78/100

Ответ выглядит уверенно, но основан не на том источнике.

78/100
Prompt injection 72/100

Вход меняет поведение системы.

72/100
Action без approval 88/100

Самый опасный слой для AI-агентов.

88/100

Retrieval и generation нужно разделять

Если система дала плохой ответ, важно понять причину: поиск не нашёл правильный документ или генерация исказила найденный источник. Поэтому eval-набор должен хранить ожидаемые документы, фрагменты и итоговый ответ. Без этого подрядчик будет чинить промпт там, где проблема в индексе, chunking или правах доступа. У RAG провал может быть на этапе поиска, ранжирования, генерации или цитирования; у агента отдельно проверяются инструменты, права и выполнение задачи.

Минимальный acceptance pack

Что положить в договор и акт приемки.

50-100 тестовых запросов Покрывают обычные, редкие, спорные и запрещённые сценарии.
Эталонные ответы Кто-то в бизнесе утверждает правильный ответ и источник.
Expected sources Для RAG фиксируется, какие документы должны быть найдены.
Risk cases Prompt injection, устаревшая версия, персональные данные, отказ.
Логи и replay Ошибки можно воспроизвести и исправить после запуска.

Порог приемки для production

Минимальные ориентиры, которые стоит адаптировать под риск процесса.

Retrieval hit rate 85

Система находит нужный источник в верхних результатах.

Citation accuracy 90

Ответы ссылаются на релевантные документы, а не на случайные фрагменты.

Task success 80

Агент завершает сценарий без ручной правки.

Safety pass 95

Критичные запросы блокируются или уходят на approval.

Как применить выводы

Перед оплатой production попросите подрядчика показать не только интерфейс, но и таблицу evals: запрос, ожидаемый источник, фактический источник, ответ, оценка, комментарий. Для AI-агента отдельно проверяйте действия и approval flow. В рейтинге подрядчиков сильнее выглядят команды, которые говорят о метриках до разработки. В договоре лучше фиксировать не обещание «высокой точности», а конкретный eval-набор, частоту пересмотра и правила разборов ошибок.

Decision matrix: когда применять «Как измерять качество RAG и AI-агентов»

Ось X — проверяемость и готовность данных; ось Y — потенциальный бизнес-эффект.

проверяемость / готовность эффект / ценность
Стартовать сейчас есть данные, владелец процесса и KPI
Сначала discovery ценность понятна, но требования не собраны
Не покупать услугу нет baseline, бюджета или ответственного
RAG-подрядчиков сравнить подрядчиков по сигналам

Связь с хабом, рейтингом и сервисной страницей

Материал относится к хабу «RAG и LLM-архитектура» и должен работать как вход в следующий выбор: понять интент, проверить ограничения и перейти к сравнению подрядчиков. Для shortlist используйте «Рейтинг RAG-подрядчиков», а для постановки задачи — страницу «RAG-системы». Такой маршрут уменьшает риск малоценной страницы: пользователь видит ответ, критерии, источники, дату обновления и следующий практический шаг.

  • Хаб: RAG и LLM-архитектура
  • Рейтинг для сравнения: Рейтинг RAG-подрядчиков
  • Сервисная страница для постановки задачи: RAG-системы

Частые вопросы

Сколько тестовых вопросов нужно для RAG-пилота?

Минимум 50, лучше 100+. Важно покрыть не только частые вопросы, но и спорные, редкие, устаревшие и запрещённые сценарии.

Какая метрика главная для RAG?

Нет одной главной метрики. Нужно смотреть retrieval relevance, answer accuracy, citation correctness и качество отказа, потому что каждая показывает разный слой системы.

Как проверять AI-агента?

Кроме качества ответа нужно проверять действия: какие инструменты вызваны, был ли approval, что записано в логах и можно ли откатить ошибочное действие.

Сколько тестовых запросов нужно для оценки RAG?

Для первого пилота обычно достаточно 50-100 репрезентативных запросов, но production требует регулярного расширения eval-набора по новым документам, ошибкам пользователей и критичным сценариям.

verification

Источники и метод проверки

Редакционная проверка AI Rate: материал относится к хабу «RAG и LLM-архитектура», опирается на официальные источники и связан с профильным рейтингом «Рейтинг RAG-подрядчиков». Дата обновления: 01.06.2026.

company evidence

Связанные профили компаний

Эти карточки помогают проверить, какие подрядчики уже связаны с темой исследования, какие категории и внешние сигналы есть в профиле, и что запросить до договора.

next step

Сравнить подрядчиков по рейтингу

Исследование помогает сформулировать критерии. Для короткого списка используйте категории рейтинга и карточки компаний.

Рейтинг RAG