Команда исследователя Yann LeCun представила новый подход под названием LeWorldModel (LeWM), направленный на решение проблемы JEPA-коллапса в прогнозных моделях мира. LEPA-коллапс — это явление, при котором модель генерирует избыточные эмбеддинги для простого удовлетворения целей предсказания. Это часто происходит при обучении моделей напрямую на основе пиксельных данных.
LeWM использует гибридную архитектуру, объединяющую в себе трансформер для обработки изображений и рекуррентную нейронную сеть (RNN) для временного моделирования. Такое сочетание позволяет более эффективно управлять временной зависимостью данных и снижать потери информации.
По сравнению с существующими методами, LeWM показывает лучшие результаты в задачах визуального прогнозирования, особенно при работе с долгосрочными зависимостями и сложной динамикой сцен. Проще говоря, модель лучше справляется с предсказанием будущих состояний мира на основе текущих изображений, что важно для создания агентов, способных к планированию и рассуждению в компактном латентном пространстве.