Пагинированное внимание оптимизирует LLMs для длинных последовательностей
Новая техника решает проблему квадратичного роста памяти в трансформерах, позволяя моделям обрабатывать тексты в 10–100 раз длиннее без переполнения GPU. Снижает использование памяти до 50% и повышает пропускную способность.