Команда исследователей из Meta FAIR и Нью-Йоркского университета провела эксперимент, в ходе которого была создана мультимодальная модель искусственного интеллекта с нуля. Это исследование позволило опровергнуть несколько распространённых предположений о том, как должны строиться такие модели.
Исследование, в котором участвовал Ян Ле Кун перед его уходом из компании, заключалось в обучении единой модели на основе текста и видео. Модель использовала стандартный метод предсказания слов для языка и метод сопоставления потока (flow matching) для визуальных данных. Обучение проводилось на тексте, видео, парах изображение-текст и видеороликах, связанных с действиями. Отсутствие использования предварительно обученной модели позволило избежать загрязнения результатов уже усвоенными знаниями.
Единый визуальный энкодер оказался способным эффективно выполнять как понимание, так и генерацию изображений. Ранее такие задачи выполнялись с помощью отдельных энкодеров, например, в моделях Janus или BAGEL. Исследователи построили представительный автоэнкодер (RAE) на основе модели SigLIP 2, который превосходил традиционные VAE-энкодеры как в генерации изображений, так и в их понимании. При этом производительность языковой части осталась на уровне текстовой модели.
Модель способна предсказывать визуальные состояния без специального обучения. Исследователи проверили, может ли модель научиться предсказывать следующее визуальное состояние по текущему изображению и навигационной инструкции. Действия кодировались напрямую как текст, что не требовало архитектурных изменений. Модель продемонстрировала сильные результаты, используя всего один процент специфических данных для задачи навигации. Она даже могла следовать естественным языковым инструкциям, таким как "Выходи из тени!", и генерировать соответствующие изображения, несмотря на отсутствие подобных входных данных во время обучения.
Архитектура Mixture-of-Experts (MoE) позволяет эффективно распределять вычислительные ресурсы. В этой архитектуре каждый входной токен направляется только к части специализированных модулей сети, а не активирует всю модель целиком. Это снижает вычислительные затраты и повышает общую ёмкость модели. Суммарная емкость модели составляет 13,5 миллиарда параметров, но только 1,5 миллиарда активируются на каждый токен. MoE превосходит как плотные модели, так и ручные стратегии разделения. Модель сама определяет специализацию, выделяя больше экспертов для обработки языка по сравнению с визуальными данными.
Визуальные данные требуют гораздо больше данных для эффективного масштабирования. Обучение модели всегда предполагает компромисс между размером модели и количеством данных. Чинчилла законы масштабирования показали, что для чистых языковых моделей размер модели и количество данных должны расти примерно одинаково. Исследователи вычислили эти законы для совместной модели визуально-языкового анализа и обнаружили значительную асимметрию. Для языка сохраняется знакомое равновесие, но для визуальных данных оптимальный баланс смещается в сторону данных.
По мере увеличения размера модели, разрыв в требованиях к данным становится всё больше. Начиная с базовой модели объёмом 1 миллиард параметров, потребность в визуальных данных по сравнению с языковыми данными возрастает в 14 раз при 100 миллиардах параметров и в 51 раз при 1 триллионе параметров. Язык масштабируется более скромно на этом диапазоне. В традиционных плотных моделях, где каждый параметр активен на каждом шаге, это дисбаланс практически невозможно устранить. Архитектура MoE помогает сократить разрыв в два раза, так как только часть экспертов активируется для каждого токена.
Исследователи подчёркивают, что их работа охватывает только предобучение и не затрагивает файнтюнинг или обучение с подкреплением. Однако они считают, что результаты свидетельствуют о том, что граница между мультимодальными моделями и мировыми моделями постепенно стирается. Огромные объёмы неотмеченного видео остаются практически неразработанными, и это исследование показывает, как их можно использовать без ущерба для языковой производительности.
*Компания Meta Признана экстремистской организацией и запрещена в РФ