Немецкие ученые разработали Transformer с адаптивными циклами и памятью для математики
Модель на 200 млн параметров с механизмами halt и внешними слотами памяти превосходит базовую версию на 22% в математических тестах и опережает 36-слойные аналоги по эффективности.