RAG / AI-агенты / автоматизация 18.04.2026 23:35

Cloudflare представила Agent Memory для хранения памяти ИИ-агентов

Дефицит контекстного окна стал одной из главных проблем при разработке ИИ-агентов. Даже если аппаратное обеспечение позволяет запускать тяжелые модели, сами LLM имеют жесткие лимиты на объем входных данных. Cloudflare представила Agent Memory — управляемый сервис, который позволяет выносить «воспоминания» агентов во внешнее хранилище и возвращать их только при необходимости.

Как ограничено контекстное окно

Понятие контекста измеряется в токенах, и у каждой модели свой предел. Например, модели Claude 3.5 Opus и Sonnet от Anthropic поддерживают до 1 млн токенов. Однако из-за различий в токенизаторах фактический лимит слов сильно варьируется: от 555 000 до 750 000 слов соответственно. Семейство Google Gemma 4 ограничено 128 000 или 256 000 токенов в зависимости от версии.На первый взгляд, это внушительные цифры, но на практике доступное пространство сокращается на 10–20 %. Значительную часть контекста занимают системные промпты, описания инструментов (tools), настройки кастомных агентов и автоматические буферы сжатия. В итоге для полезной нагрузки остается значительно меньше места, чем заявлено в спецификациях.

Почему простое увеличение окна не всегда эффективно

Разработчики Cloudflare Тайсон Траутманн и Роб Саттер отмечают, что агент, который работает с кодовыми базами в течение недель или месяцев, нуждается в структурированной памяти, а не просто в «бесконечном» окне. Проще говоря, модели иногда демонстрируют более качественный результат, если не перегружены избыточным контекстом. Сервис позволяет выгружать данные, которые не требуются для каждого конкретного этапа диалога, отправляя их в «архив» и извлекая только при необходимости.

Техническая реализация

По своей сути Agent Memory представляет собой асинхронную CRUD-систему (создание, чтение, обновление, удаление данных). Разработчик может сохранить предпочтения пользователя, например, выбор пакетного менеджера, а затем извлечь эту информацию в ходе сессии.На практике это выглядит так: `const results = await profile.recall("What package manager does the user prefer?");` `console.log(results.result); // "The user prefers pnpm over npm."`Система спроектирована как управляемый сервис, чтобы минимизировать задержки при поиске и оптимизировать стоимость каждого запроса. Сейчас Agent Memory доступен через Cloudflare Workers (используя соответствующие привязки), но сервис также предлагает REST API для интеграции с проектами вне экосистемы Cloudflare. На текущий момент продукт находится в стадии закрытого бета-тестирования.

Вопрос владения данными

Важный аспект сервиса — права на накопленные знания. По словам разработчиков, все данные, загруженные в Agent Memory, принадлежат клиенту. Для обеспечения мобильности решений предусмотрена возможность экспорта памяти: пользователь может выгрузить накопленный ИИ опыт в текстовом виде. Стоит учитывать, что при смене платформы потребуется дополнительная работа по адаптации этих выгрузок для корректной работы в новом окружении.

#ИИ #Cloudflare #Agent Memory #контекстное окно #LLM #память агентов #ИИ разработка

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...