Moonshot AI представила Attention Residuals: эффективность моделей выросла на 25%
Команда Kimi переосмыслила residual connections, повернув механизм внимания на 90 градусов. Это позволило слоям активно выбирать информацию из предыдущих, экономя вычисления без потери производительности. Эксперты OpenAI называют прорывом.