Маск похвалил исследование Kimi по Attention Residuals для больших моделей
Стартап Moonshot AI предложил гибкий механизм depth-wise aggregation, заменяющий рекурсивные residual connections. Это突破ает ограничения в обработке сложного контекста и длинных последовательностей, повышая точность и скорость.