Google представила TurboQuant — алгоритм, который ускоряет LLM до 8 раз без потери точности

Исследовательское подразделение Google анонсировало TurboQuant — новый алгоритм сжатия, ориентированный на одну из ключевых проблем современных LLM: огромный объём памяти, занимаемый key-value (KV) cache во время инференса.

По заявлениям разработчиков, технология позволяет:

сократить объём KV-кеша минимум в 6 раз
ускорить вычисления до 8 раз
сохранить точность модели на уровне full precision

Это делает TurboQuant одним из самых значимых прорывов в оптимизации inference-пайплайна больших языковых моделей.

Почему KV cache — главный bottleneck LLM

Во время генерации текста LLM используют механизм attention, который опирается на так называемый KV cache — хранилище промежуточных представлений (ключей и значений) для каждого токена.

Проблема в том, что:

KV cache растёт линейно с длиной контекста
он может занимать больше памяти, чем сами веса модели
доступ к памяти становится узким местом при инференсе

В результате именно KV cache часто ограничивает:

максимальную длину контекста
количество параллельных запросов
скорость генерации

TurboQuant направлен именно на решение этой проблемы.

Как работает TurboQuant

В основе алгоритма лежит новый подход к векторной квантизации, который сочетает несколько идей:

Переход к полярным координатам

TurboQuant использует технику, аналогичную PolarQuant:

векторы преобразуются из декартовой системы в полярную
данные представляются через радиус и углы
структура данных становится более предсказуемой

Это позволяет избавиться от дорогостоящих операций нормализации и снизить избыточность хранения.

Data-oblivious квантизация

Алгоритм не требует обучения или подстройки под конкретный датасет:

отсутствует этап k-means или clustering
квантизация применяется «на лету»
минимальная задержка при внедрении

Такой подход делает TurboQuant удобным для production-сценариев и масштабируемых систем.

Random rotation и распределение данных

Перед сжатием применяется случайное вращение векторов:

координаты приводятся к более равномерному распределению
формируется компактное представление (похоже на Beta-распределение)
снижается ошибка квантования

Это ключевой шаг, позволяющий достигать высокой точности даже при экстремально низкой битности.

Устранение bias через QJL

Одна из проблем низкобитной квантизации — искажение скалярных произведений (dot product).

TurboQuant решает это с помощью Quantized Johnson–Lindenstrauss (QJL):

устраняется систематическая ошибка
сохраняется корректность attention-вычислений
повышается стабильность inference

3 бита вместо 32: радикальное сжатие без потерь

Один из самых впечатляющих результатов — возможность сжимать KV cache до 3 бит на значение:

стандарт: 16–32 бит
TurboQuant: ~3–4 бита
при этом точность остаётся неизменной

В тестах на моделях вроде Gemma и Mistral алгоритм показал идентичные результаты на задачах:

QA
генерация кода
суммаризация
long-context тесты

включая сложные сценарии типа “needle in a haystack”.

До 8x ускорения инференса

Сжатие напрямую влияет на скорость вычислений.

По данным Google:

4-битный TurboQuant даёт до 8× ускорения attention-операций
уменьшается нагрузка на память
снижается latency при генерации

Особенно заметен эффект на GPU (например, H100), где memory bandwidth часто является ограничением.

Влияние на vector search и RAG

TurboQuant также применим за пределами классического inference:

Ускорение vector search

быстрее строятся индексы
уменьшается объём хранения
повышается скорость nearest neighbor поиска

Алгоритм показывает лучшие показатели recall по сравнению с традиционными методами вроде Product Quantization.

Оптимизация RAG-систем

Для retrieval-augmented generation это означает:

больше документов в памяти
быстрее обработка контекста
снижение стоимости инфраструктуры

Практическое значение для индустрии

TurboQuant меняет экономику LLM-инференса:

Снижение стоимости

меньше GPU-памяти
выше плотность запросов на одном сервере

Масштабируемость

длинные контексты становятся дешевле
проще запускать модели локально

Edge и on-device AI

появляется возможность запускать LLM на ограниченных устройствах
снижается зависимость от облака

Почему это важно именно сейчас

С ростом контекста (100k+ токенов) проблема KV cache становится критической.

Современные модели уже упираются не в compute, а в:

память
bandwidth
latency

TurboQuant решает именно этот класс ограничений, а значит — влияет на весь стек LLM-инфраструктуры.

Итог

TurboQuant — это не просто очередная оптимизация, а фундаментальное улучшение работы LLM:

6× меньше памяти для KV cache
до 8× быстрее inference
нулевая потеря точности

Технология показывает, что будущее оптимизации AI — не только в новых моделях, но и в алгоритмах, которые делают существующие модели значительно эффективнее.

Если подход получит широкое внедрение, это может радикально снизить стоимость AI-сервисов и ускорить развитие локального и edge-инференса.

Google представила TurboQuant — алгоритм, который ускоряет LLM до 8 раз без потери точности

Почему KV cache — главный bottleneck LLM

Как работает TurboQuant

Переход к полярным координатам

Data-oblivious квантизация

Random rotation и распределение данных

Устранение bias через QJL

3 бита вместо 32: радикальное сжатие без потерь

До 8x ускорения инференса

Влияние на vector search и RAG

Ускорение vector search

Оптимизация RAG-систем

Практическое значение для индустрии

Снижение стоимости

Масштабируемость

Edge и on-device AI

Почему это важно именно сейчас

Итог

Алексей Воронов

Екатерина Морозова

Google представила TurboQuant — алгоритм, который ускоряет LLM до 8 раз без потери точности

Почему KV cache — главный bottleneck LLM

Как работает TurboQuant

Переход к полярным координатам

Data-oblivious квантизация

Random rotation и распределение данных

Устранение bias через QJL

3 бита вместо 32: радикальное сжатие без потерь

До 8x ускорения инференса

Влияние на vector search и RAG

Ускорение vector search

Оптимизация RAG-систем

Практическое значение для индустрии

Снижение стоимости

Масштабируемость

Edge и on-device AI

Почему это важно именно сейчас

Итог

Алексей Воронов

Екатерина Морозова

Похожие материалы

Пагинированное внимание оптимизирует LLMs для длинных последовательностей

Google DeepMind: Gemini 3.1 Flash-Lite генерирует сайты почти в реальном времени

Mistral представила Leanstral — лучше Claude Sonnet в доказательствах Lean 4

ИИ меняет роль программистов в Google: от кодирования к архитектуре