Исследовательское подразделение Google анонсировало TurboQuant — новый алгоритм сжатия, ориентированный на одну из ключевых проблем современных LLM: огромный объём памяти, занимаемый key-value (KV) cache во время инференса.
По заявлениям разработчиков, технология позволяет:
сократить объём KV-кеша минимум в 6 раз
ускорить вычисления до 8 раз
сохранить точность модели на уровне full precision
Это делает TurboQuant одним из самых значимых прорывов в оптимизации inference-пайплайна больших языковых моделей.
Почему KV cache — главный bottleneck LLM
Во время генерации текста LLM используют механизм attention, который опирается на так называемый KV cache — хранилище промежуточных представлений (ключей и значений) для каждого токена.
Проблема в том, что:
KV cache растёт линейно с длиной контекста
он может занимать больше памяти, чем сами веса модели
доступ к памяти становится узким местом при инференсе
В результате именно KV cache часто ограничивает:
максимальную длину контекста
количество параллельных запросов
скорость генерации
TurboQuant направлен именно на решение этой проблемы.
Как работает TurboQuant
В основе алгоритма лежит новый подход к векторной квантизации, который сочетает несколько идей:
Переход к полярным координатам
TurboQuant использует технику, аналогичную PolarQuant:
векторы преобразуются из декартовой системы в полярную
данные представляются через радиус и углы
структура данных становится более предсказуемой
Это позволяет избавиться от дорогостоящих операций нормализации и снизить избыточность хранения.
Data-oblivious квантизация
Алгоритм не требует обучения или подстройки под конкретный датасет:
отсутствует этап k-means или clustering
квантизация применяется «на лету»
минимальная задержка при внедрении
Такой подход делает TurboQuant удобным для production-сценариев и масштабируемых систем.
Random rotation и распределение данных
Перед сжатием применяется случайное вращение векторов:
координаты приводятся к более равномерному распределению
формируется компактное представление (похоже на Beta-распределение)
снижается ошибка квантования
Это ключевой шаг, позволяющий достигать высокой точности даже при экстремально низкой битности.
Устранение bias через QJL
Одна из проблем низкобитной квантизации — искажение скалярных произведений (dot product).
TurboQuant решает это с помощью Quantized Johnson–Lindenstrauss (QJL):
устраняется систематическая ошибка
сохраняется корректность attention-вычислений
повышается стабильность inference
3 бита вместо 32: радикальное сжатие без потерь
Один из самых впечатляющих результатов — возможность сжимать KV cache до 3 бит на значение:
стандарт: 16–32 бит
TurboQuant: ~3–4 бита
при этом точность остаётся неизменной
В тестах на моделях вроде Gemma и Mistral алгоритм показал идентичные результаты на задачах:
QA
генерация кода
суммаризация
long-context тесты
включая сложные сценарии типа “needle in a haystack”.
До 8x ускорения инференса
Сжатие напрямую влияет на скорость вычислений.
По данным Google:
4-битный TurboQuant даёт до 8× ускорения attention-операций
уменьшается нагрузка на память
снижается latency при генерации
Особенно заметен эффект на GPU (например, H100), где memory bandwidth часто является ограничением.
Влияние на vector search и RAG
TurboQuant также применим за пределами классического inference:
Ускорение vector search
быстрее строятся индексы
уменьшается объём хранения
повышается скорость nearest neighbor поиска
Алгоритм показывает лучшие показатели recall по сравнению с традиционными методами вроде Product Quantization.
Оптимизация RAG-систем
Для retrieval-augmented generation это означает:
больше документов в памяти
быстрее обработка контекста
снижение стоимости инфраструктуры
Практическое значение для индустрии
TurboQuant меняет экономику LLM-инференса:
Снижение стоимости
меньше GPU-памяти
выше плотность запросов на одном сервере
Масштабируемость
длинные контексты становятся дешевле
проще запускать модели локально
Edge и on-device AI
появляется возможность запускать LLM на ограниченных устройствах
снижается зависимость от облака
Почему это важно именно сейчас
С ростом контекста (100k+ токенов) проблема KV cache становится критической.
Современные модели уже упираются не в compute, а в:
память
bandwidth
latency
TurboQuant решает именно этот класс ограничений, а значит — влияет на весь стек LLM-инфраструктуры.
Итог
TurboQuant — это не просто очередная оптимизация, а фундаментальное улучшение работы LLM:
6× меньше памяти для KV cache
до 8× быстрее inference
нулевая потеря точности
Технология показывает, что будущее оптимизации AI — не только в новых моделях, но и в алгоритмах, которые делают существующие модели значительно эффективнее.
Если подход получит широкое внедрение, это может радикально снизить стоимость AI-сервисов и ускорить развитие локального и edge-инференса.