Дефицит контекстного окна стал одной из главных проблем при разработке ИИ-агентов. Даже если аппаратное обеспечение позволяет запускать тяжелые модели, сами LLM имеют жесткие лимиты на объем входных данных. Cloudflare представила Agent Memory — управляемый сервис, который позволяет выносить «воспоминания» агентов во внешнее хранилище и возвращать их только при необходимости.
Как ограничено контекстное окно
Понятие контекста измеряется в токенах, и у каждой модели свой предел. Например, модели Claude 3.5 Opus и Sonnet от Anthropic поддерживают до 1 млн токенов. Однако из-за различий в токенизаторах фактический лимит слов сильно варьируется: от 555 000 до 750 000 слов соответственно. Семейство Google Gemma 4 ограничено 128 000 или 256 000 токенов в зависимости от версии.На первый взгляд, это внушительные цифры, но на практике доступное пространство сокращается на 10–20 %. Значительную часть контекста занимают системные промпты, описания инструментов (tools), настройки кастомных агентов и автоматические буферы сжатия. В итоге для полезной нагрузки остается значительно меньше места, чем заявлено в спецификациях.
Почему простое увеличение окна не всегда эффективно
Разработчики Cloudflare Тайсон Траутманн и Роб Саттер отмечают, что агент, который работает с кодовыми базами в течение недель или месяцев, нуждается в структурированной памяти, а не просто в «бесконечном» окне. Проще говоря, модели иногда демонстрируют более качественный результат, если не перегружены избыточным контекстом. Сервис позволяет выгружать данные, которые не требуются для каждого конкретного этапа диалога, отправляя их в «архив» и извлекая только при необходимости.
Техническая реализация
По своей сути Agent Memory представляет собой асинхронную CRUD-систему (создание, чтение, обновление, удаление данных). Разработчик может сохранить предпочтения пользователя, например, выбор пакетного менеджера, а затем извлечь эту информацию в ходе сессии.На практике это выглядит так:
`const results = await profile.recall("What package manager does the user prefer?");`
`console.log(results.result); // "The user prefers pnpm over npm."`Система спроектирована как управляемый сервис, чтобы минимизировать задержки при поиске и оптимизировать стоимость каждого запроса. Сейчас Agent Memory доступен через Cloudflare Workers (используя соответствующие привязки), но сервис также предлагает REST API для интеграции с проектами вне экосистемы Cloudflare. На текущий момент продукт находится в стадии закрытого бета-тестирования.
Вопрос владения данными
Важный аспект сервиса — права на накопленные знания. По словам разработчиков, все данные, загруженные в Agent Memory, принадлежат клиенту. Для обеспечения мобильности решений предусмотрена возможность экспорта памяти: пользователь может выгрузить накопленный ИИ опыт в текстовом виде. Стоит учитывать, что при смене платформы потребуется дополнительная работа по адаптации этих выгрузок для корректной работы в новом окружении.