← Все новости

Российские ученые разработали методологию DRAGOn для тестирования RAG-систем

• Категория: RAG / AI-агенты / автоматизация • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 24.03.2026 11:42

Ученые из Сбера, MWS AI, ИТМО, МИСИС и НИУ ВШЭ разработали открытую методологию DRAGOn для тестирования RAG-систем. Эта методология впервые позволяет оценивать точность ИИ-ассистентов на динамически обновляемых корпоративных данных. Исследование было принято на крупнейшую международную конференцию по компьютерной лингвистике EACL 2026.

RAG-системы объединяют большие языковые модели с корпоративными базами знаний, что позволяет нейросетям работать на актуальной информации и снижает риск ошибок. В отличие от существующих тестов, которые часто используют статичные наборы данных или не учитывают реальные базы знаний компаний, DRAGOn предполагает постоянное обновление корпуса данных.

Система автоматически вычленяет новые факты из свежих новостных лент, формируя «карту знаний». На основе этой карты создаются многоуровневые логические задачи, требующие от ИИ сопоставления нескольких источников информации. Проверкой ответов занимается нейросеть-судья, которая анализирует фактическую точность и полноту.

Соавтор исследования, руководитель центра разработки больших языковых моделей MWS AI Валентин Малых отметил, что конкуренция в сфере ИИ смещается от гонки параметров к эффективности прикладного контура. Предложенная методология универсальна и легко адаптируется к любым языкам и сценариям — от анализа научных публикаций до работы с судебными документами.

В рамках исследования запущен первый публичный лидерборд RAG-систем на русском языке. Текущие результаты показывают, что комбинация нескольких моделей с продвинутыми методами поиска демонстрирует лучшие показатели точности. Однако даже такие решения сталкиваются с трудностями при обработке сложных логических связей в динамичном потоке данных.

Для бизнеса практическая ценность методологии DRAGOn заключается в возможности развертывания собственного контура тестирования на внутренних данных. Это позволяет оценить, насколько точно ИИ-система работает в конкретной инфраструктуре, сравнивать разные модели по единым критериям и снижать риски ошибок в ответах.

В исследовании приняли участие специалисты Сбера (команда SberAI), Университета искусственного интеллекта имени Мохаммеда бин Заида (MBZUAI), ИТМО, МИСИС, НИУ ВШЭ, MWS AI, Международного университета информационных технологий (IITU) и Школы анализа данных Яндекса.

Автор

Алексей Воронов

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервисной архитектуры и SaaS-решений. Основная...

Проверил

Екатерина Морозова

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрении AI-технологий в веб-приложения. Основ...

Теги: #ИИ, #российские ученые, #RAG-системы, #тестирование ИИ, #DRAGOn, #SberAI, #EACL 2026