← Все новости

Немецкие ученые разработали Transformer с адаптивными циклами и памятью для математики

• Категория: LLM / ChatGPT / Claude / Qwen • Автор: Екатерина Морозова • Проверил: Алексей Воронов • 24.03.2026 11:11

Группа исследователей из Lamarr Institute, Fraunhofer IAIS и Боннского университета представила архитектуру, которая позволяет трансформерам динамически определять количество циклов обработки одной задачи. В отличие от стандартного chain-of-thought (CoT) промптинга, где модель выводит промежуточные рассуждения в виде текста, потребляя лишние токены, новая система выполняет вычисления внутри модели, повторяя блоки без генерации внешних данных.

Механика адаптивного зацикливания и внешняя память

Исследователи объединили два программных решения: адаптивное зацикливание и блоки внешней памяти. В первом случае каждый слой трансформера оснащен механизмом «остановки» (halt mechanism), который определяет, сколько раз необходимо прогнать данные через конкретный вычислительный блок. Внешняя память, в свою очередь, компенсирует нехватку емкости весов, характерную для компактных нейросетей.За основу была взята decoder-only архитектура с 12 слоями и 200 миллионами параметров, обученная на 14 миллиардах токенов из датасета FineWeb Edu. В экспериментальных вариантах каждый слой мог совершать до 3, 5 или 7 итераций. Память была реализована в виде 1024 локальных и 512 глобальных слотов на слой, что увеличило количество параметров всего на 10 миллионов.

Влияние итераций на логические операции

Практика показывает, что ограничение в три повторных цикла дает прирост точности в математических задачах на 22% по сравнению с базовой конфигурацией без «петель». Наиболее заметный прогресс наблюдается в сложных категориях: прекалькулюс показал рост на 31%, промежуточная алгебра — на 26%. В задачах, требующих «житейских» знаний или бытовой физической интуиции, циклы практически не дают улучшения, а их дальнейшее увеличение даже приводит к небольшой деградации результатов.В сравнении с архитектурой, использующей 36 стандартных слоев (у которой вычислительная стоимость идентична модели с 12 слоями и тройным циклом), «петлевая» модель работает на 6,4% эффективнее в математических тестах. Это подтверждает, что при регенерации логических рассуждений повторные вычисления оказываются продуктивнее, чем простое наращивание глубины сети. Внедрение памяти дополнительно увеличило показатели: еще на 4,2% в математике и на 2% в задачах на общие знания.

Специализация слоев и порог обучения

В процессе тренировки модель самостоятельно распределила нагрузку. Начальные слои, отвечающие за первичную синтаксическую обработку, практически не используют циклы и память. Напротив, глубокие слои задействуют итерации и внешние слоты интенсивнее, так как именно на них ложится основная задача манипуляции семантикой и сложной логикой.Замечена интересная закономерность: модель начинает активно применять зацикливание только после достижения определенного уровня «зрелости» в понимании языка. Если коротко, нейросети сначала нужно выучить базовые паттерны, прежде чем она сможет эффективно распределять дополнительные вычислительные ресурсы на решение конкретной проблемы.Авторы работы приходят к выводу, что внутри трансформеров существует четкое разделение труда: feed-forward слои (полносвязные слои) отвечают за хранение фактологических данных, а слои внимания — за их обработку. Итеративное повторение улучшает работу механизмов внимания, но не способно заменить нехватку памяти. Проще говоря, для выполнения более сложных вычислений («интенсивного мышления») модели требуется пропорционально больше фактических данных, которые и берутся из добавленных слотов памяти. На текущем этапе разработки эксперименты ограничены моделью в 200 миллионов параметров, поэтому вопрос масштабируемости такого подхода на LLM с миллиардами параметров остается открытым для дальнейших исследований.

Автор

Екатерина Морозова

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрении AI-технологий в веб-приложения. Основ...

Проверил

Алексей Воронов

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервисной архитектуры и SaaS-решений. Основная...

Теги: #нейросети, #ИИ, #машинное обучение, #трансформеры, #математика ИИ, #адаптивное зацикливание, #память трансформеров