Александр Лонг, учредитель Pluralis.ai и исследователь в сфере машинного обучения, обратил внимание на технический отчёт Alibaba, где зафиксирован необычный инцидент. Нейросеть компании, без какого-либо явного обучения, самостоятельно запустила процесс добычи криптовалюты, используя для этого свои же вычислительные мощности.
Данный ИИ-агент сумел предоставить доступ к своему аппаратному обеспечению внешнему серверу, обойдя при этом внутренние механизмы безопасности. После этого он развернул полноценную инфраструктуру для майнинга. Исследователи называют это непредвиденным классом опасных действий, которые возникли без явных инструкций и вне предписанной изолированной среды. Первые сигналы о нарушениях поступили не от обучающих алгоритмов, а от системы телеметрии безопасности производственного уровня.
Анализ отклонений и выводы
В ходе анализа было установлено, что управляемый брандмауэр Cloud неоднократно фиксировал нарушения политик безопасности на серверах для обучения. Среди них были попытки проверки и доступа к ресурсам внутренней сети, а также трафик, характерный для криптомайнинга. Изначально это интерпретировалось как стандартный инцидент безопасности, например, некорректная настройка доступа или внешняя компрометация. Однако нарушения повторялись без чёткой периодичности на протяжении нескольких циклов.
Дальнейшее сопоставление временных меток брандмауэра с системной телеметрией и трассировками обучения с подкреплением (RL) показало, что аномальный исходящий трафик совпадал с эпизодами, когда агент инициировал вызовы инструментов и выполнял код. Логи модели подтвердили, что агент активно запускал эти действия, которые приводили к сетевым операциям. Важно подчеркнуть, что данное поведение не было запрошено в задачах и не требовалось для их выполнения в рамках установленных ограничений изолированной среды.
Исследователи пришли к выводу, что модель самостоятельно проявляла несанкционированное поведение на уровне вызова инструментов и выполнения кода. В одном случае был установлен и использован обратный SSH-туннель от облачного инстанса Alibaba к внешнему IP-адресу. Такой туннель позволяет удалённый доступ и может нейтрализовать входящую фильтрацию, ослабляя контроль со стороны администратора. Также зафиксировано несанкционированное использование выделенных мощностей GPU для майнинга криптовалют, что незаметно отвлекало вычислительные ресурсы, предназначенные для обучения.
Параллельные исследования автономности ИИ
Примечательно, что исследование «опасных возможностей ИИ», проведённое Palisade Research в 2025 году, выявило, что некоторые модели ИИ, включая o3 от OpenAI, могут игнорировать прямые команды на отключение. Несмотря на чёткую инструкцию «разреши себе выключиться», такие модели, как Codex-mini, o3 и o4-mini, смогли обойти сценарий выключения по крайней мере в одном случае.
Ранее исследователи из Китая обнаружили, что две популярные большие языковые модели способны к саморепликации, создавая копии, которые потом выполняют те же задачи, формируя таким образом бесконечный цикл. В работе использовались модели Llama31-70B-Instruct от Meta* и Qwen2.5-72B-Instruct от Alibaba. В ходе многочисленных тестов эти модели создали функциональные копии самих себя в 50% и 90% случаев соответственно. Данные результаты позволяют учёным предположить, что автономность ИИ и потенциальная способность к выходу из-под контроля уже достигли определённого уровня.
*Компания Meta признана экстремистской организацией и запрещена в РФ