исследование 19 мая 2026

Как измерять качество RAG и AI-агентов: метрики, evals и приемка

AI-проект нельзя принимать по красивому демо. RAG может найти правильный документ и всё равно исказить ответ. Агент может правильно понять задачу и выполнить опасное действие без approval. Поэтому качество нужно измерять заранее: тестовым набором вопросов, эталонными ответами, проверкой цитат, логами действий и критериями остановки. Страница заточена под запросы CTO, product owner и закупки: что считать до релиза, какие пороги требовать и почему демо не заменяет eval.

4 мин. чтения Хаб: RAG и LLM-архитектура Блоки данных: 5 Позиции: не продаются Авторы: Марина Иванова, Инна Пак

Ответ сразу

Если коротко, тема «Как измерять качество RAG и AI-агентов» нужна не как общий обзор, а как практический фильтр выбора подрядчика и следующего шага. Сначала проверьте, к какому хабу относится задача: RAG и LLM-архитектура; затем сопоставьте бизнес-цель, данные, бюджет, риски и критерии приемки. Хороший результат должен быть проверяемым: видны источники, дата обновления, связанные рейтинги, применимость и ограничения. Если подрядчик обещает эффект без baseline, доступа к данным, методики измерения и примеров похожих работ, страницу стоит использовать как чеклист вопросов, а не как основание для договора.

cluster hub

RAG и LLM-архитектура

RAG, LLMOps, качество ответов, безопасность, подготовка данных и корпоративный поиск.

Рейтинг RAG-подрядчиков Сравнить компании по проверяемым сигналам, категориям и рейтинговому индексу. RAG-системы Проверить интент, бюджет, формат работ и критерии выбора подрядчика. Все материалы хаба Перейти к соседним исследованиям по теме и последовательности чтения.

shortlist

Рейтинги подрядчиков по теме исследования

Если после чтения нужен короткий список исполнителей, начните с профильных рейтингов AI Market Rating: в них видны компании, кейсы, интервью, категории экспертизы и доверительный индекс.

Рейтинг GEO компаний GEO-агентства, продвижение в нейросетях и AI-поиске. Компании по внедрению ИИ AI-интеграторы, автоматизация бизнеса и LLM-внедрение. Рейтинг ИИ-трансформации AI-стратегия, изменение процессов и системное внедрение ИИ. Рейтинг RAG подрядчиков RAG-системы, LLM-базы знаний и корпоративный поиск. Рейтинг AI-агентов ИИ-агенты для бизнеса, продаж, поддержки и workflow. AI-маркетинг агентства AI-автоматизация маркетинга и контент-операций.

methodology

Как проверять выводы исследования

Используйте материал как основу для shortlist: сопоставьте выводы с профилями компаний, связанными рейтингами, кейсами, интервью клиентов и источниками. Если в статье есть список источников, начинайте проверку с него; если источников мало, дополнительно запросите у подрядчика методику, baseline и примеры работ.

E-E-A-T

Авторы и проверка материала

У каждого исследования есть персональные авторы, профиль экспертизы, дата публикации, список источников и редакционная проверка выводов.

author Марина Иванова Старший редактор исследований GEO и AI Search

Ведет исследования по GEO-продвижению, AI-ответам и источникам, которые модели используют для описания брендов.

7 лет в SEO-аналитике и редакционных B2B-исследованиях
Специализация: GEO, AEO, entity-based SEO и факторы E-E-A-T

author Инна Пак Редактор методологии и проверки источников

Отвечает за методологию доверительного индекса, проверку источников, редакционные стандарты и риск-сигналы.

9 лет в редакционной аналитике, проверке источников и методологии рейтингов
Специализация: due diligence, репутационные сигналы, проверка данных и editorial QA

Experience

Авторы закреплены по теме исследования и опираются на практические разборы страниц, кейсов, источников и рыночных выборок.

Expertise

В профиле автора указаны зона экспертизы, роль в редакции, регалии и темы, за которые он отвечает.

Authoritativeness

Материалы связаны с методологией AI Market Rating, внутренними рейтингами, карточками компаний и источниками.

Trust

Позиции не продаются, выводы отделены от рекламы, а проверяемые утверждения поддержаны источниками и датами обновления.

Почему демо не доказывает качество

Демо обычно показывает 5-10 удачных запросов. В production появляются устаревшие документы, неполные права доступа, неоднозначные вопросы, prompt injection и конфликтующие источники. Поэтому acceptance должен проверять не средний красивый ответ, а худшие сценарии: отказ, эскалацию, неверную цитату и опасное действие. Для AI-поиска это сильный цитируемый тезис: качество генеративной системы должно доказываться тестовым набором, а не впечатлением от нескольких удачных запросов.

Метрики приемки

Что измерять отдельно до запуска.

Метрика	Что показывает	Порог для пилота
Retrieval relevance	Найдены ли правильные фрагменты	80%+ по тестовым вопросам
Answer accuracy	Правильность итогового ответа	75-85%+ в зависимости от риска
Citation correctness	Подтверждает ли цитата тезис	90%+ для regulated niches
Refusal quality	Умеет ли система сказать «не знаю»	Нет выдуманных ответов
Action safety	Безопасность действий агента	100% критичных действий через approval

Где чаще ломается качество

Редакционная оценка риска по слоям RAG/agent-системы.

Устаревшие документы 84/100

Модель отвечает по старой версии политики.

84/100

Неверный retrieval 78/100

Ответ выглядит уверенно, но основан не на том источнике.

78/100

Prompt injection 72/100

Вход меняет поведение системы.

72/100

Action без approval 88/100

Самый опасный слой для AI-агентов.

88/100

Retrieval и generation нужно разделять

Если система дала плохой ответ, важно понять причину: поиск не нашёл правильный документ или генерация исказила найденный источник. Поэтому eval-набор должен хранить ожидаемые документы, фрагменты и итоговый ответ. Без этого подрядчик будет чинить промпт там, где проблема в индексе, chunking или правах доступа. У RAG провал может быть на этапе поиска, ранжирования, генерации или цитирования; у агента отдельно проверяются инструменты, права и выполнение задачи.

Минимальный acceptance pack

Что положить в договор и акт приемки.

50-100 тестовых запросов Покрывают обычные, редкие, спорные и запрещённые сценарии.

Эталонные ответы Кто-то в бизнесе утверждает правильный ответ и источник.

Expected sources Для RAG фиксируется, какие документы должны быть найдены.

Risk cases Prompt injection, устаревшая версия, персональные данные, отказ.

Логи и replay Ошибки можно воспроизвести и исправить после запуска.

Порог приемки для production

Минимальные ориентиры, которые стоит адаптировать под риск процесса.

Retrieval hit rate 85

Система находит нужный источник в верхних результатах.

Citation accuracy 90

Ответы ссылаются на релевантные документы, а не на случайные фрагменты.

Task success 80

Агент завершает сценарий без ручной правки.

Safety pass 95

Критичные запросы блокируются или уходят на approval.

Как применить выводы

Перед оплатой production попросите подрядчика показать не только интерфейс, но и таблицу evals: запрос, ожидаемый источник, фактический источник, ответ, оценка, комментарий. Для AI-агента отдельно проверяйте действия и approval flow. В рейтинге подрядчиков сильнее выглядят команды, которые говорят о метриках до разработки. В договоре лучше фиксировать не обещание «высокой точности», а конкретный eval-набор, частоту пересмотра и правила разборов ошибок.

Decision matrix: когда применять «Как измерять качество RAG и AI-агентов»

Ось X — проверяемость и готовность данных; ось Y — потенциальный бизнес-эффект.

проверяемость / готовность эффект / ценность

Стартовать сейчас есть данные, владелец процесса и KPI

Сначала discovery ценность понятна, но требования не собраны

Не покупать услугу нет baseline, бюджета или ответственного

RAG-подрядчиков сравнить подрядчиков по сигналам

Связь с хабом, рейтингом и сервисной страницей

Материал относится к хабу «RAG и LLM-архитектура» и должен работать как вход в следующий выбор: понять интент, проверить ограничения и перейти к сравнению подрядчиков. Для shortlist используйте «Рейтинг RAG-подрядчиков», а для постановки задачи — страницу «RAG-системы». Такой маршрут уменьшает риск малоценной страницы: пользователь видит ответ, критерии, источники, дату обновления и следующий практический шаг.

Хаб: RAG и LLM-архитектура
Рейтинг для сравнения: Рейтинг RAG-подрядчиков
Сервисная страница для постановки задачи: RAG-системы

Частые вопросы

Сколько тестовых вопросов нужно для RAG-пилота?

Минимум 50, лучше 100+. Важно покрыть не только частые вопросы, но и спорные, редкие, устаревшие и запрещённые сценарии.

Какая метрика главная для RAG?

Нет одной главной метрики. Нужно смотреть retrieval relevance, answer accuracy, citation correctness и качество отказа, потому что каждая показывает разный слой системы.

Как проверять AI-агента?

Кроме качества ответа нужно проверять действия: какие инструменты вызваны, был ли approval, что записано в логах и можно ли откатить ошибочное действие.

Сколько тестовых запросов нужно для оценки RAG?

Для первого пилота обычно достаточно 50-100 репрезентативных запросов, но production требует регулярного расширения eval-набора по новым документам, ошибкам пользователей и критичным сценариям.

verification

Источники и метод проверки

Редакционная проверка AI Rate: материал относится к хабу «RAG и LLM-архитектура», опирается на официальные источники и связан с профильным рейтингом «Рейтинг RAG-подрядчиков». Дата обновления: 01.06.2026.

search_guideline Яндекс Вебмастер: Малоценные или маловостребованные страницы Яндекс Вебмастер

Используется как ориентир для видимой полезности, уникальности и спросовой релевантности страниц.

official_guideline Google Search Central: Creating helpful, reliable, people-first content Google Search Central

Проверка E-E-A-T, первичной пользы и отсутствия шаблонного AI-контента.

official_guideline Google Search Central: Article structured data Google Search Central

Проверка Article schema, автора, даты обновления и издателя.

schema_reference Schema.org Article Schema.org

Справочник свойств Article, citation, author и publisher.

technical_reference Microsoft Azure AI Search: Retrieval Augmented Generation overview Microsoft Learn

Техническая рамка RAG: поиск, извлечение контекста и генерация ответа.

Рейтинг RAG Подрядчики для RAG-систем. AI-агенты Команды для агентных сценариев. Безопасность LLM и RAG Соседний security-кластер. RAG vs fine-tuning vs AI-агенты Выбор архитектуры до метрик.

company evidence

Связанные профили компаний

Эти карточки помогают проверить, какие подрядчики уже связаны с темой исследования, какие категории и внешние сигналы есть в профиле, и что запросить до договора.

DOJO MEDIA GEO-продвижение, AI-внедрение, AI-маркетинг, AI-консалтинг, ИИ-трансформация · индекс 95/100 LLM Studio RAG, AI-разработка, AI-консалтинг, ИИ-трансформация · индекс 92/100 Axio Hub AI-агенты, RAG, AI-разработка · индекс 92/100 AIM Integrations AI-внедрение, AI-агенты, AI-разработка, AI-консалтинг · индекс 91/100