Google представила TurboQuant — алгоритм, который ускоряет LLM до 8 раз без потери точности
Новый фреймворк TurboQuant от Google решает проблему 'стены памяти' в больших языковых моделях, снижая использование GPU на 40-60% и позволяя запускать модели с 100B+ параметров на потребительских видеокартах. Подробности о квантизации и sparse attention.