Метод AIRI ускоряет адаптацию ИИ-агентов к новым условиям почти вдвое

Исследователи из института AIRI представили метод адаптации ИИ-агентов к динамически изменяющимся условиям среды без необходимости проведения дополнительного дообучения (fine-tuning). Предложенное решение позволяет модели автономно идентифицировать параметры окружения в режиме реального времени и оперативно переключаться на релевантную стратегию поведения.

Проблема адаптивности в embodied AI

Современные фундаментальные модели поведения демонстрируют высокую эффективность в мультизадачных сценариях, однако их устойчивость к изменению внешних факторов остается ограниченной. В физическом ИИ это создает разрыв между симуляцией и реальностью: при смене физических параметров — таких как сила трения, гравитация или конфигурация пространства — продуктивность стандартных алгоритмов падает.Применение метода Forward-Backward, который предполагает прогнозирование будущих состояний системы и траекторий достижения целей, сталкивается с эффектом усреднения. В нестабильной среде алгоритм пытается нивелировать неопределенность путем усреднения различных вариантов развития событий, что приводит к росту ошибок в принятии решений. Проще говоря, модель пытается свести разные сценарии к некому «среднему арифметическому», которое не подходит ни для одного из них.

Техническая реализация Belief-FB и Rotation-FB

Для устранения этой проблемы архитектура была дополнена двумя компонентами: Belief-FB и Rotation-FB. Модуль Belief-FB анализирует последовательность входящих наблюдений, что позволяет агенту классифицировать текущую конфигурацию среды. В свою очередь, Rotation-FB отвечает за организацию внутренних представлений (эмбеддингов) стратегий. Это предотвращает смешивание паттернов поведения: на практике это значит, что модель жестко разграничивает «знания» о разных физических условиях, обеспечивая корректный перенос навыков на ситуации, не заложенные в обучающую выборку.

Результаты тестирования

Метод прошел проверку в дискретных и непрерывных средах, включая задачи навигации и управления объектами с изменяемыми физическими характеристиками. Сравнение с существующими базовыми подходами проводилось как в контролируемых условиях, знакомых агенту, так и в принципиально новых конфигурациях.По данным исследования, эффективность выполнения задач возросла почти вдвое. Визуализация внутренних представлений подтвердила, что модель действительно сегрегирует типы динамики среды, выделяя их в отдельные кластеры, вместо того чтобы полагаться на усредненные механизмы.Дальнейшее развитие проекта предполагает исследование непрерывной адаптации, при которой агент будет накапливать опыт взаимодействия с новыми мирами, сохраняя при этом предыдущие знания. Особый интерес представляет сценарий взаимодействия ИИ-агентов с другими субъектами, включая людей и другие роботизированные системы, в режиме реального времени, что актуально для задач логистики и беспилотного транспорта. Об этом сообщил Владислав Куренков, руководитель группы «Адаптивные агенты» института AIRI. Затраты времени на реализацию концепции составили три месяца, после чего потребовался дополнительный месяц на верификацию результатов и подготовку технической документации.