Группа исследователей из Lamarr Institute, Fraunhofer IAIS и Боннского университета представила архитектуру, которая позволяет трансформерам динамически определять количество циклов обработки одной задачи. В отличие от стандартного chain-of-thought (CoT) промптинга, где модель выводит промежуточные рассуждения в виде текста, потребляя лишние токены, новая система выполняет вычисления внутри модели, повторяя блоки без генерации внешних данных.
Механика адаптивного зацикливания и внешняя память
Исследователи объединили два программных решения: адаптивное зацикливание и блоки внешней памяти. В первом случае каждый слой трансформера оснащен механизмом «остановки» (halt mechanism), который определяет, сколько раз необходимо прогнать данные через конкретный вычислительный блок. Внешняя память, в свою очередь, компенсирует нехватку емкости весов, характерную для компактных нейросетей.За основу была взята decoder-only архитектура с 12 слоями и 200 миллионами параметров, обученная на 14 миллиардах токенов из датасета FineWeb Edu. В экспериментальных вариантах каждый слой мог совершать до 3, 5 или 7 итераций. Память была реализована в виде 1024 локальных и 512 глобальных слотов на слой, что увеличило количество параметров всего на 10 миллионов.
Влияние итераций на логические операции
Практика показывает, что ограничение в три повторных цикла дает прирост точности в математических задачах на 22% по сравнению с базовой конфигурацией без «петель». Наиболее заметный прогресс наблюдается в сложных категориях: прекалькулюс показал рост на 31%, промежуточная алгебра — на 26%. В задачах, требующих «житейских» знаний или бытовой физической интуиции, циклы практически не дают улучшения, а их дальнейшее увеличение даже приводит к небольшой деградации результатов.В сравнении с архитектурой, использующей 36 стандартных слоев (у которой вычислительная стоимость идентична модели с 12 слоями и тройным циклом), «петлевая» модель работает на 6,4% эффективнее в математических тестах. Это подтверждает, что при регенерации логических рассуждений повторные вычисления оказываются продуктивнее, чем простое наращивание глубины сети. Внедрение памяти дополнительно увеличило показатели: еще на 4,2% в математике и на 2% в задачах на общие знания.
Специализация слоев и порог обучения
В процессе тренировки модель самостоятельно распределила нагрузку. Начальные слои, отвечающие за первичную синтаксическую обработку, практически не используют циклы и память. Напротив, глубокие слои задействуют итерации и внешние слоты интенсивнее, так как именно на них ложится основная задача манипуляции семантикой и сложной логикой.Замечена интересная закономерность: модель начинает активно применять зацикливание только после достижения определенного уровня «зрелости» в понимании языка. Если коротко, нейросети сначала нужно выучить базовые паттерны, прежде чем она сможет эффективно распределять дополнительные вычислительные ресурсы на решение конкретной проблемы.Авторы работы приходят к выводу, что внутри трансформеров существует четкое разделение труда: feed-forward слои (полносвязные слои) отвечают за хранение фактологических данных, а слои внимания — за их обработку. Итеративное повторение улучшает работу механизмов внимания, но не способно заменить нехватку памяти. Проще говоря, для выполнения более сложных вычислений («интенсивного мышления») модели требуется пропорционально больше фактических данных, которые и берутся из добавленных слотов памяти. На текущем этапе разработки эксперименты ограничены моделью в 200 миллионов параметров, поэтому вопрос масштабируемости такого подхода на LLM с миллиардами параметров остается открытым для дальнейших исследований.
AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru
Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки.
Имеет более 8 лет опыта в разработке программного обеспечения и внедрении AI-технологий в веб-приложения. Основ...
Senior PHP Developer / AI Engineer • 10+ • AInDev.ru
Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций.
Более 10 лет занимается разработкой серверных приложений, REST API, микросервисной архитектуры и SaaS-решений. Основная...
Специалисты Сбера, MWS AI, ИТМО, МИСИС и ВШЭ создали открытый фреймворк, который генерирует тесты из свежих новостей, проверяя ИИ на логические связи в динамичных данных. Исследование принято на EACL 2026.
Модель sparse MoE с 120B параметров (6B активных на токен) обучена на реальных PR проекта FLT Имперского колледжа. Обходит Claude Sonnet 4.6 на 2,6 балла в FLTEval при стоимости в 15 раз ниже. Поддержка MCP для обратной связи от Lean LSP.
Исследование Goldman Sachs показывает: более 90% предпринимателей отмечают положительный эффект от ИИ, а 70% ожидают роста выручки. Однако дефицит экспертизы и безопасность данных тормозят полноценное внедрение в ключевые процессы.
Спутники с ИИ на базе Dojo 3 сформируют орбитальные дата-центры на солнечной энергии. Сеть Starlink обеспечит передачу данных, а чип оптимизируют для вакуума и энергоэффективности, минимизируя связь с Землёй.
Этот сайт использует cookies и Яндекс.Метрику для улучшения работы.
Подробнее