Российские ученые разработали методологию DRAGOn для тестирования RAG-систем

Ученые из Сбера, MWS AI, ИТМО, МИСИС и НИУ ВШЭ разработали открытую методологию DRAGOn для тестирования RAG-систем. Эта методология впервые позволяет оценивать точность ИИ-ассистентов на динамически обновляемых корпоративных данных. Исследование было принято на крупнейшую международную конференцию по компьютерной лингвистике EACL 2026.

RAG-системы объединяют большие языковые модели с корпоративными базами знаний, что позволяет нейросетям работать на актуальной информации и снижает риск ошибок. В отличие от существующих тестов, которые часто используют статичные наборы данных или не учитывают реальные базы знаний компаний, DRAGOn предполагает постоянное обновление корпуса данных.

Система автоматически вычленяет новые факты из свежих новостных лент, формируя «карту знаний». На основе этой карты создаются многоуровневые логические задачи, требующие от ИИ сопоставления нескольких источников информации. Проверкой ответов занимается нейросеть-судья, которая анализирует фактическую точность и полноту.

Соавтор исследования, руководитель центра разработки больших языковых моделей MWS AI Валентин Малых отметил, что конкуренция в сфере ИИ смещается от гонки параметров к эффективности прикладного контура. Предложенная методология универсальна и легко адаптируется к любым языкам и сценариям — от анализа научных публикаций до работы с судебными документами.

В рамках исследования запущен первый публичный лидерборд RAG-систем на русском языке. Текущие результаты показывают, что комбинация нескольких моделей с продвинутыми методами поиска демонстрирует лучшие показатели точности. Однако даже такие решения сталкиваются с трудностями при обработке сложных логических связей в динамичном потоке данных.

Для бизнеса практическая ценность методологии DRAGOn заключается в возможности развертывания собственного контура тестирования на внутренних данных. Это позволяет оценить, насколько точно ИИ-система работает в конкретной инфраструктуре, сравнивать разные модели по единым критериям и снижать риски ошибок в ответах.

В исследовании приняли участие специалисты Сбера (команда SberAI), Университета искусственного интеллекта имени Мохаммеда бин Заида (MBZUAI), ИТМО, МИСИС, НИУ ВШЭ, MWS AI, Международного университета информационных технологий (IITU) и Школы анализа данных Яндекса.

Российские ученые разработали методологию DRAGOn для тестирования RAG-систем

Алексей Воронов

Екатерина Морозова

Российские ученые разработали методологию DRAGOn для тестирования RAG-систем

Алексей Воронов

Екатерина Морозова

Похожие материалы

Mistral представила Leanstral — лучше Claude Sonnet в доказательствах Lean 4

75% малого бизнеса используют ИИ, но только 14% интегрировали его стратегически

Чип Dojo 3 Tesla интегрируют в ИИ-спутники SpaceX

Токены ИИ включают в компенсацию разработчиков: бонус или бизнес-расход