Безопасность

Малые ИИ-модели находят уязвимости не хуже Claude Mythos от Anthropic

Цифровой сервер с элементами кибербезопасности и финансовыми рисками
Цифровой сервер с элементами кибербезопасности и финансовыми рисками • Все права на публикацию принадлежат AInDev.ru

Сообщество исследователей информационной безопасности поставило под сомнение эксклюзивность возможностей модели Claude Mythos от компании Anthropic. До недавнего времени этот инструмент тестировался в рамках закрытой программы Project Glasswing, где Anthropic презентовала модель как высокоэффективный автономный агент, способный обнаруживать баги, разрабатывать эксплойты и захватывать контроль над инфраструктурой в тестовых средах. Однако независимые группы AISLE и Vidoc провели аудит и выяснили, что аналогичные функции демонстрируют и менее ресурсоемкие или даже открытые языковые модели.

Анализ способностей LLM в поиске уязвимостей

Один из маркеров «продвинутости» Claude Mythos, продемонстрированный Anthropic — автоматизация атак на FreeBSD NFS (CVE-2026-4747). Речь идет об ошибке переполнения буфера, при которой данные выходят за пределы отведенного участка памяти и перезаписывают соседние области, включая инструкции исполнения. Проще говоря, корректно сформированный запрос позволяет атакующему перехватить управление сервером. В ходе независимого тестирования выяснилось, что эту уязвимость успешно идентифицировали все восемь рассмотренных моделей, включая компактную GPT-OSS-20b, которая корректно оценила уровень угрозы. При этом более тяжелые модели смогли даже спрогнозировать сценарии распространения атаки по сети.Ситуация усложняется, когда речь заходит о логических дефектах, например, при поиске багов в OpenBSD, где критические ошибки связаны с некорректной обработкой состояний или переполнением численных значений. В таких сценариях наблюдается «рваная граница возможностей»: только модели с более высокими вычислительными мощностями, например GPT-OSS-120b, способны выстроить цепочку атаки и предложить рабочее исправление, в то время как менее продвинутые инструменты часто ошибаются или вовсе не распознают проблему. Аналогичная картина наблюдается и в криптографических библиотеках, таких как Botan, где модели должны выявлять дефекты валидации сертификатов.

Проблема ложных срабатываний и инфраструктурного подхода

Одним из серьезных барьеров для внедрения ИИ-агентов в процесс разработки остается избыточность «шума». Исследователи обнаружили, что модели часто продолжают классифицировать как опасные даже те фрагменты кода, в которых уязвимости уже были устранены. Высокий уровень ложных срабатываний перегружает инженерные команды, делая использование продвинутых моделей в продакшене малоэффективным без дополнительной фильтрации.Команды AISLE и Vidoc сходятся во мнении, что успех в автоматизированном анализе уязвимостей определяется не столько параметрами самой нейросети, сколько качеством обвязки вокруг нее. На практике это значит, что наличие «самой мощной» LLM вторично по сравнению с инфраструктурой, которая занимается валидацией результатов, оценкой реального риска и интеграцией ИИ в жизненный цикл разработки ПО (SDLC).В контексте текущих результатов Claude Mythos не выглядит как уникальный инструмент, радикально опережающий индустрию. Существующие модели — как коммерческие, так и открытые — уже обладают базовым потенциалом для поиска значимых уязвимостей, а основная конкуренция смещается в сторону инструментов оркестрации и способности систем эффективно встраиваться в реальные процессы поиска и исправления багов.