Немецкие ученые разработали Transformer с адаптивными циклами и памятью для математики

Группа исследователей из Lamarr Institute, Fraunhofer IAIS и Боннского университета представила архитектуру, которая позволяет трансформерам динамически определять количество циклов обработки одной задачи. В отличие от стандартного chain-of-thought (CoT) промптинга, где модель выводит промежуточные рассуждения в виде текста, потребляя лишние токены, новая система выполняет вычисления внутри модели, повторяя блоки без генерации внешних данных.

Механика адаптивного зацикливания и внешняя память

Исследователи объединили два программных решения: адаптивное зацикливание и блоки внешней памяти. В первом случае каждый слой трансформера оснащен механизмом «остановки» (halt mechanism), который определяет, сколько раз необходимо прогнать данные через конкретный вычислительный блок. Внешняя память, в свою очередь, компенсирует нехватку емкости весов, характерную для компактных нейросетей.За основу была взята decoder-only архитектура с 12 слоями и 200 миллионами параметров, обученная на 14 миллиардах токенов из датасета FineWeb Edu. В экспериментальных вариантах каждый слой мог совершать до 3, 5 или 7 итераций. Память была реализована в виде 1024 локальных и 512 глобальных слотов на слой, что увеличило количество параметров всего на 10 миллионов.

Влияние итераций на логические операции

Практика показывает, что ограничение в три повторных цикла дает прирост точности в математических задачах на 22% по сравнению с базовой конфигурацией без «петель». Наиболее заметный прогресс наблюдается в сложных категориях: прекалькулюс показал рост на 31%, промежуточная алгебра — на 26%. В задачах, требующих «житейских» знаний или бытовой физической интуиции, циклы практически не дают улучшения, а их дальнейшее увеличение даже приводит к небольшой деградации результатов.В сравнении с архитектурой, использующей 36 стандартных слоев (у которой вычислительная стоимость идентична модели с 12 слоями и тройным циклом), «петлевая» модель работает на 6,4% эффективнее в математических тестах. Это подтверждает, что при регенерации логических рассуждений повторные вычисления оказываются продуктивнее, чем простое наращивание глубины сети. Внедрение памяти дополнительно увеличило показатели: еще на 4,2% в математике и на 2% в задачах на общие знания.

Специализация слоев и порог обучения

В процессе тренировки модель самостоятельно распределила нагрузку. Начальные слои, отвечающие за первичную синтаксическую обработку, практически не используют циклы и память. Напротив, глубокие слои задействуют итерации и внешние слоты интенсивнее, так как именно на них ложится основная задача манипуляции семантикой и сложной логикой.Замечена интересная закономерность: модель начинает активно применять зацикливание только после достижения определенного уровня «зрелости» в понимании языка. Если коротко, нейросети сначала нужно выучить базовые паттерны, прежде чем она сможет эффективно распределять дополнительные вычислительные ресурсы на решение конкретной проблемы.Авторы работы приходят к выводу, что внутри трансформеров существует четкое разделение труда: feed-forward слои (полносвязные слои) отвечают за хранение фактологических данных, а слои внимания — за их обработку. Итеративное повторение улучшает работу механизмов внимания, но не способно заменить нехватку памяти. Проще говоря, для выполнения более сложных вычислений («интенсивного мышления») модели требуется пропорционально больше фактических данных, которые и берутся из добавленных слотов памяти. На текущем этапе разработки эксперименты ограничены моделью в 200 миллионов параметров, поэтому вопрос масштабируемости такого подхода на LLM с миллиардами параметров остается открытым для дальнейших исследований.

Немецкие ученые разработали Transformer с адаптивными циклами и памятью для математики

Механика адаптивного зацикливания и внешняя память

Влияние итераций на логические операции

Специализация слоев и порог обучения

Екатерина Морозова

Алексей Воронов

Немецкие ученые разработали Transformer с адаптивными циклами и памятью для математики

Механика адаптивного зацикливания и внешняя память

Влияние итераций на логические операции

Специализация слоев и порог обучения

Екатерина Морозова

Алексей Воронов

Похожие материалы

Российские ученые разработали методологию DRAGOn для тестирования RAG-систем

Mistral представила Leanstral — лучше Claude Sonnet в доказательствах Lean 4

75% малого бизнеса используют ИИ, но только 14% интегрировали его стратегически

Чип Dojo 3 Tesla интегрируют в ИИ-спутники SpaceX