Три новые работы на arXiv: трансформеры как байесовские сети, сбои памяти и уязвимости агентов

Сегодня на arXiv появилось три новых исследования, которые на первый взгляд не имеют ничего общего. Одно из них посвящено чистой теории, а два других рассматривают практические проблемы, с которыми сталкиваются специалисты в реальных условиях. Однако все три работы выявили конкретные механизмы, по которым машинное обучение (ML) начинает давать сбои при переходе из лабораторных условий в производственную среду.

Почему трансформеры работают и что это значит для галлюцинации

Грегори Коппола, независимый исследователь, предложил формальное доказательство того, что сигмоидные трансформеры являются байесовскими сетями. Это не просто сходство, а прямая эквивалентность. Основной результат работы заключается в том, что каждая слой трансформера соответствует одному раунду вероятностного распространения на графах факторов (loopy belief propagation).

Архитектурно, операции внимания реализуют часть алгоритма сбора/обновления Пирла (AND), а линейные преобразования — его ор-часть (OR). Коппола также доказал, что трансформеры могут выполнять точное вероятностное распространение на любой декларированной базе знаний, обеспечивая корректные вероятностные оценки. Экспериментальные результаты подтверждают эти формальные выводы.

Особое внимание стоит уделить вопросу галлюцинации моделей. По мнению автора, эта проблема не связана с недостаточным объёмом данных или масштабом модели. Галлюцинация возникает из-за структурных особенностей: модели, работающие на основе неопределённых концептуальных пространств, не могут производить проверяемые выводы по определению. Для корректной работы необходима явная декларация концептосфер.

Хотя это предварительное исследование одного независимого автора требует дальнейшего рецензирования, формальные доказательства достаточно детализированы для проверки. Если они подтвердятся, это изменит подход к решению проблемы галлюцинации с "нужно больше данных" на "нужна другая архитектура".

Когда контекстная память не работает в больших масштабах

Оливер Цан и Симран Чана провели исследование, посвящённое надёжности хранения фактов в контекстном окне моделей на основе языковых моделей (LLM). Их выводы не оставляют сомнений: этот подход не работает в производственных условиях при значительных объёмах данных.

Авторы выделили три основных режима отказов. Во-первых, это ограниченная ёмкость контекстного окна. Например, модель Claude Sonnet 4.5 достигает точности 100% на совпадениях до 7000 фактов в пределах своего 200K контекстного окна, но переполняется приблизительно на 8000 фактах. Во-вторых, это потеря информации при компактификации. Когда контекст становится длинным, системы начинают его суммировать для уменьшения числа токенов, что ведёт к потере 60% хранящихся фактов. Это явление наблюдается во всех протестированных передовых моделях и является архитектурной особенностью.

Третий режим отказа наиболее опасен: последовательные компактификации разрушают 54% проектных ограничений, при этом модель продолжает работать с полной уверенностью, не замечая потерь. Отсутствует любой сигнал о том, что произошла ошибка.

В качестве альтернативы авторы предлагают использовать Knowledge Objects (KO) — дискретные кортежи, адресуемые по хешу с постоянной сложностью O(1). KO обеспечивают 100% точность при всех протестированных объёмах данных и обходятся в 252 раза дешевле, чем контекстное хранение. Для задач, требующих многоступенчатого вывода (multi-hop reasoning), KO достигают 78.9% точности против 31.6% у контекстных подходов.

Исследование также тестировало ретриев на основе эмбеддингов, которые часто используются как компромисс между полным контекстом и структурированным хранением. На враждебных фактах этот метод показал точность 20% при ранге 1 — значительно ниже ожидаемого уровня. Авторы предлагают адаптивную плотностную ретриев как гибридный механизм и публикуют полный набор бенчмарков.

Для разработчиков AI-агентов, которые зависят от постоянного хранения знаний, эти данные не оставляют места для сомнений. Значительное снижение стоимости (252x) делает аргументы против контекстного хранения ещё более убедительными.

VeriGrey: серое тестирование выявляет то, что пропускает чёрное

Стандартные методы тестирования безопасности AI-агентов основаны на чёрном ящике: отправляются запросы, и анализируются ответы. Однако команда исследователей во главе с Юнтунгом Чжаном утверждает, что этот подход не выявляет значительный класс уязвимостей.

Ключевой элемент — последовательности вызовов внешних инструментов. Когда AI-агент обращается к внешним сервисам (поиск в интернете, файловые операции, выполнение кода), эти последовательности содержат информацию, недоступную простому анализу выходных данных. VeriGrey использует эти последовательности для навигации по опасным путям использования. После идентификации опасного пути система генерирует инъекционные запросы, которые делают вредоносное действие необходимым для легитимной работы, эксплуатируя разницу между записями логов инструментов и утверждениями агента.

На стандартном бенчмарке AgentDojo VeriGrey обнаруживает на 33% больше уязвимостей по сравнению с чёрным ящиком при тестировании GPT-4.1. Однако реальные результаты ещё более значительны.

Прямое тестирование Gemini CLI выявило сценарии атак, которые были структурно невидимы для чёрного ящика. В случае OpenClaw — платформы AI-агентов с уже документированными проблемами безопасности — VeriGrey достигла 100% успеха при инъекции вредоносных навыков против агентов, работающих на Kimi-K2.5, и 90% (9 из 10) против Opus 4.6.

Методология исследования — основной вклад. Предыдущие работы по тестированию безопасности агентов были преимущественно описательными: категории атак, примеры. VeriGrey превращает процесс в систематический поиск с обратной связью по последовательностям вызовов инструментов. Любой системе, предоставляющей структурированные логи инструментов, можно применить этот метод.

Таким образом, давно известное в области безопасности утверждение — что чёрное тестирование недооценивает атакующую поверхность — теперь подтверждено эмпирически для LLM-агентов.

Общий вывод

Все три исследования указывают на одну и ту же основную проблему: системы, которые кажутся надёжными в контролируемых условиях, начинают давать сбои при реальных эксплуатационных нагрузках. Результат Копполы говорит о структурной природе галлюцинации — её решение требует пересмотра представлений, а не увеличения вычислительных мощностей. Цан и Чана обнаружили потерю информации при компактификации в каждой из протестированных передовых моделей, что указывает на общую проблему, а не особенность конкретного поставщика. Наконец, исследование Zhang et al. эмпирически доказало, что чёрное тестирование безопасности LLM-агентов даёт ложное чувство уверенности — для выявления реальных угроз необходим доступ к логам инструментов.

Каждое из этих исследований не просто описывает наблюдаемые явления, но и предлагает конкретные механизмы, которые необходимо учитывать при разработке систем ИИ.

Три новые работы на arXiv: трансформеры как байесовские сети, сбои памяти и уязвимости агентов

Почему трансформеры работают и что это значит для галлюцинации

Когда контекстная память не работает в больших масштабах

VeriGrey: серое тестирование выявляет то, что пропускает чёрное

Общий вывод

Екатерина Морозова

Алексей Воронов

Три новые работы на arXiv: трансформеры как байесовские сети, сбои памяти и уязвимости агентов

Почему трансформеры работают и что это значит для галлюцинации

Когда контекстная память не работает в больших масштабах

VeriGrey: серое тестирование выявляет то, что пропускает чёрное

Общий вывод

Екатерина Морозова

Алексей Воронов

Похожие материалы

Arena: бенчмарк для LLM от проекта Беркли до $1,7 млрд

World запускает бета-тест AgentKit для привязки ИИ-агентов к скану радужки

Sequen привлекла $16 млн на TikTok-подобную персонализацию для брендов

Стартап Eragon привлек $12 млн на AI-ОС для бизнеса с интерфейсом промптов