Команда Moonshot AI опубликовала технический отчет под названием «Attention Residuals», предлагающий пересмотреть один из фундаментальных архитектурных компонентов нейросетей — остаточные связи (residual connections), которые используются в глубоком обучении с 2015 года. Исследование показывает, что изменение механики передачи данных между слоями позволяет модели достигать производительности, эквивалентной стандартным архитектурам, при экономии вычислительных ресурсов на 20% (использование 0,8 мощности от объема, необходимого для baseline-модели).
Концептуальный кризис традиционных связей
Традиционные архитектуры, основанные на прямой передаче сигнала, полагаются на суммирование выходных данных предыдущих слоев с текущим результатом. Эта схема, хотя и решила проблему затухания градиентов в глубоких сетях, обладает критическим недостатком: по мере наращивания глубины «свежая» информация от конкретного слоя теряется в накопленном массиве данных. Проще говоря, промежуточные слои модели начинают работать вхолостую, становясь «неэффективными звеньями», которые потребляют вычислительную мощность, но слабо влияют на итоговый результат.
Механизм Attention Residuals
Авторы исследования провели интересную параллель между деградацией информации в глубине сети и процессами «забывания» в рекуррентных нейронных сетях (RNN). Решение заключается в смене вектора работы механизма внимания: вместо обработки горизонтальных текстовых последовательностей исследователи «развернули» его на 90 градусов, направив вдоль вертикальной оси глубины нейросети.
На практике это значит, что каждый слой перестает пассивно принимать сумму накопленных данных. Вместо этого он использует специализированный «вектор запроса» (query vector), чтобы активно выбирать, какой именно объем данных из предыдущих слоев необходимо извлечь. Для оптимизации обучения при работе с большими объемами весов команда предложила метод Block AttnRes. Он подразумевает разделение нейросети на отдельные блоки, что позволяет контролировать рост задержек при инференсе, удерживая этот показатель в пределах 2%.
Результаты и влияние на индустрию
Экспериментальные данные подтверждают эффективность подхода: в задаче научного рассуждения GPQA-Diamond архитектура показала прирост в 7,5%, а в математических вычислениях и генерации кода — улучшение на 3,6% и 3,1% соответственно. Использование этого метода позволяет повысить общую эффективность обучения без наращивания количества параметров.
Подход привлек внимание экспертов индустрии: Джерри Творек, один из создателей OpenAI o1, охарактеризовал его как потенциальный переход к эпохе «Deep Learning 2.0», а Андрей Карпатый отметил, что текущие основы архитектуры «Attention is All You Need» еще далеки от исчерпания своего потенциала. Текущие разработки указывают на то, что возможности классического масштабирования (scaling) постепенно подходят к пределу, и дальнейший прогресс в области развития ИИ потребует фундаментальных изменений в базовых алгоритмах, включая оптимизаторы и способы соединения слоев.