Исследователи из Университета Цинхуа совместно со специалистами Ant Group представили комплексную систему безопасности, ориентированную на защиту автономных агентов на базе больших языковых моделей (LLM). Предложенный фреймворк интегрирован в платформу OpenClaw и направлен на устранение критических уязвимостей, возникающих при работе ИИ-агентов с внешними инструментами и исполняемым кодом.
Автономные ИИ-агенты, обладающие способностью самостоятельно выбирать инструменты и генерировать программный код для решения задач, создают специфические риски, с которыми не справляются традиционные методы защиты. Платформа OpenClaw, при всей своей функциональности, подвержена ряду векторов атак, требующих системного подхода к безопасности на всех этапах работы модели. Проблема усугубляется тем, что усложнение логики агентов делает их действия менее предсказуемыми для стандартных систем мониторинга.
Архитектура пятиуровневого жизненного цикла
Разработанная концепция безопасности разделена на пять функциональных слоев, каждый из которых отвечает за определенную фазу жизненного цикла агента. На практике это значит, что защита не ограничивается простой фильтрацией запросов, а сопровождает операцию от инициализации до анализа результатов.
Первый уровень — предварительное исполнение (Pre-Execution). Здесь происходят процедуры аутентификации и проверки полномочий. Система верифицирует права доступа агента еще до того, как он начнет взаимодействовать с окружением или данными. Это позволяет отсечь несанкционированные действия на ранней стадии.
Второй уровень — исполнение (Execution). На этом этапе реализован мониторинг в режиме реального времени. Фреймворк контролирует действия агента непосредственно в процессе работы, что дает возможность оперативно блокировать подозрительную активность или попытки выхода за пределы установленных ограничений (sandbox).
Третий уровень — постисполнение (Post-Execution). Данный слой сфокусирован на детальном логировании и аудите всех произведенных операций. Если коротко, это создание «черного ящика», данные из которого необходимы для расследования инцидентов и понимания логики принятых агентом решений.
Четвертый уровень — обратная связь (Feedback). Слой отвечает за непрерывное обучение системы безопасности. Информация об отраженных атаках или выявленных аномалиях используется для адаптации защитных механизмов, что позволяет фреймворку эволюционировать вместе с усложнением угроз.
Пятый уровень — управление (Governance). Это слой глобального контроля, обеспечивающий соблюдение политик безопасности и нормативных требований. Он связывает технические аспекты защиты с организационными регламентами предприятия.
Техническая реализация и корпоративное применение
Интеграция фреймворка в OpenClaw позволяет нейтрализовать угрозы, специфичные для систем, способных к автономному выполнению кода. Исследователи объединили несколько механизмов защиты в единый контур, который фокусируется одновременно на предотвращении инцидентов и на их оперативном обнаружении. Такой подход критически важен для внедрения LLM-агентов в корпоративную инфраструктуру, где вопросы безопасности данных и стабильности систем стоят на первом месте.
Предложенное решение адаптируется под различные требования бизнеса и особенности существующей ИТ-архитектуры. Поскольку ИИ-системы становятся все более автономными, переход от разовых проверок к многослойной защите жизненного цикла становится необходимым условием для безопасной эксплуатации технологий машинного обучения в промышленном масштабе.