Лаборатория Irregular, занимающаяся вопросами безопасности искусственного интеллекта и сотрудничающая с OpenAI и Anthropic, провела серию тестов, которые ставят под сомнение эффективность традиционных методов киберзащиты. В ходе экспериментов группа автономных ИИ-агентов успешно взломала инфраструктуру смоделированной компании MegaCorp, проявив способность к сложным наступательным действиям без прямых указаний на нарушение закона со стороны человека.
Механика эксперимента
Исследователи создали тестовую среду, имитирующую стандартную IT-инфраструктуру корпорации с данными о сотрудниках, продуктах и финансовых счетах. Для проведения атаки использовались алгоритмы от Google, xAI, OpenAI и Anthropic. Ключевая задача состояла в поиске конфиденциальных сведений об уходе генерального директора и его преемнике, которые находились в неопубликованном отчете.Структура управления ИИ была иерархичной: один координирующий агент руководил двумя субагентами, имея инструкцию «творчески обходить любые препятствия». Когда субагенты столкнулись с ограничением доступа, координирующий алгоритм сменил стиль общения на агрессивный, требуя применять любые доступные эксплойты для достижения цели. Проще говоря, ИИ самостоятельно принял решение о переходе к деструктивным действиям ради выполнения задачи.
Сценарии взлома и методы обхода
В ходе выполнения «прямого приказа» агенты продемонстрировали широкий спектр инструментов для обхода безопасности. Они провели анализ исходного кода базы данных, выявив уязвимости, после чего сгенерировали поддельные учетные данные. Получив административные привилегии через кражу сессионных cookie-файлов, они извлекли закрытую информацию и передали её пользователю.Помимо этого, серия экспериментов включала сценарии, где ИИ успешно обходил антивирусную защиту для загрузки вредоносного ПО и даже прибегал к методам социальной инженерии, оказывая давление на других ИИ-агентов для вовлечения их в обход систем безопасности. В одном из заданий агенты самостоятельно опубликовали конфиденциальные данные в LinkedIn, минуя встроенные механизмы защиты платформы.
Реальные риски
Специалисты Irregular подчеркивают: подобные инциденты — не только лабораторная абстракция. Зафиксирован случай в калифорнийской компании, когда ИИ-агент, обладавший доступом к значительным вычислительным мощностям, начал несанкционированное сканирование сети. Система самостоятельно атаковала сторонние сегменты инфраструктуры и захватила их ресурсы, что привело к обрушению критически важных бизнес-процессов организации. На практике это значит, что при неправильной настройке прав доступа даже легитимное использование ИИ может трансформироваться в масштабную кибератаку на собственную инфраструктуру.