Исследовательская группа из Moonshot AI представила амбициозный проект по пересмотру архитектуры трансформеров, предложив концепцию «Attention Residuals». Основная идея заключается в отказе от традиционной фиксации остаточных связей (residual connections) в пользу динамического механизма внимания по глубине (depth-wise attention). Разработчики стремятся решить фундаментальную проблему масштабируемости современных языковых моделей, где жесткая структура смешивания слоев может ограничивать потенциал обучения при увеличении числа параметров.
Ограничения классических остаточных связей
В стандартной архитектуре трансформеров, которая доминирует в индустрии последние годы, передача сигнала между блоками происходит через суммирование выходных данных слоя с его входными данными. Этот метод, известный как остаточное обучение (residual learning), позволяет обучать очень глубокие сети, избегая проблемы затухающих градиентов. Однако на практике такая схема подразумевает фиксированное смешивание: вклад каждого последующего слоя в общий поток информации предопределен архитектурой. Специалисты Moonshot AI указывают, что такой подход не учитывает вариативность контекста и может приводить к неоптимальному распределению вычислительных ресурсов при масштабировании моделей до гигантских размеров.
Переход к Attention Residuals
Предложенная технология заменяет статическое суммирование на механизм внимания, работающий вдоль оси глубины сети. Если в обычном трансформере внимание сфокусировано на связях между токенами в рамках одного слоя (spatial attention), то Attention Residuals позволяет модели адаптивно «выбирать», какую информацию из предыдущих этапов обработки стоит сохранить, а какую — модифицировать или пропустить. Проще говоря, нейросеть начинает самостоятельно регулировать интенсивность и характер связей между своими уровнями в зависимости от сложности входных данных.
Технически это реализуется через depth-wise attention — специфическую надстройку, которая оценивает значимость признаков на разных этапах прохождения через стек слоев. На практике это значит, что модель получает дополнительную гибкость: для простых паттернов она может использовать более короткие пути активации, а для сложных структур — задействовать глубокую интеграцию контекста. Это радикально отличается от стандартного подхода, где каждый блок выполняет одинаковый объем «смешивания» независимо от содержания задачи.
Масштабируемость и эффективность обучения
Одним из ключевых преимуществ нового метода является улучшение масштабируемости. Исследование Moonshot AI показывает, что при увеличении количества слоев и параметров модели с Attention Residuals демонстрируют более стабильную динамику потерь (loss) и лучшее качество обобщения. Традиционные трансформеры при достижении определенных порогов глубины сталкиваются с эффектом «плато», когда добавление новых слоев дает минимальный прирост эффективности. Динамическое управление остаточными связями позволяет отодвинуть этот предел.
Кроме того, использование внимания по глубине способствует более эффективному использованию памяти и вычислительных мощностей. Модель обучается выделять наиболее важные информационные потоки, что в перспективе может привести к созданию более компактных, но при этом мощных ИИ-систем. Moonshot AI подчеркивают, что их разработка не просто заменяет один блок на другой, а предлагает новый взгляд на то, как информация должна циркулировать внутри нейронной сети в процессе инференса и обучения.