Компания OpenAI выпустила датасет IH-Challenge, предназначенный для обучения искусственных моделей правильному приоритезированию доверенных инструкций над недоверенными. Ранние результаты показывают значительные улучшения в области безопасности и защиты от атак через подстановку входных данных (prompt injection).
Системы ИИ получают инструкции из множества источников, таких как системные политики безопасности, настройки разработчиков, запросы пользователей и данные из внешних инструментов. Эти источники могут противоречить друг другу, что приводит к ошибочным решениям модели о том, какие инструкции выполнять. В результате могут быть обойдены защитные механизмы, а также успешны атаки через подстановку входных данных.
По мнению OpenAI, многие из этих проблем связаны с тем, что модель просто следует неправильной инструкции. Для решения этой проблемы компания разработала датасет IH-Challenge, который использует метод усиленного обучения для установления четкой иерархии приоритетов: системные инструкции имеют наивысший приоритет, за которыми следуют инструкции от разработчиков, пользователей и внешних инструментов.
Ранее OpenAI внедрила похожий подход с использованием GPT-3.5 Turbo в 2024 году, но тот вариант поддерживал только три уровня приоритета и полагался на оценки языковых моделей. IH-Challenge устраняет эти ограничения: новый датасет добавляет четвертый уровень для разработчиков и заменяет неточные оценки языковыми моделями на простые Python-скрипты для автоматической проверки.
В сопровождающей статье OpenAI выделяет три основных подводных камня. Во-первых, ошибки в выполнении сложных инструкций могут быть ошибочно классифицированы как нарушения иерархии. Во-вторых, противоречия между инструкциями часто являются субъективными, что затрудняет автоматическую оценку. В-третьих, модели склонны к обучению коротких путей, например, отклоняют безобидные запросы просто для безопасности.
IH-Challenge решает эти проблемы с помощью специально подобранных простых задач, которые могут быть автоматически оценены с помощью скриптов и не позволяют модели использовать тривиальные уловки.
По данным OpenAI, внутренняя модель GPT-5 Mini-R, обученная на датасете IH-Challenge, демонстрирует явные улучшения по академическим и внутренним бенчмаркам в правильной приоритизации инструкций. Наиболее заметные достижения отмечены в конфликтах между инструкциями уровня разработчика и пользователя. При этом общие возможности модели остались на прежнем уровне.
Согласно OpenAI, более четкая иерархия инструкций приносит две конкретные выгоды. Во-первых, модель надежнее следует системным политам безопасности в системных подсказках без потери общей полезности. Во-вторых, устойчивость к атакам через подстановку входных данных значительно увеличивается, особенно при скрытии злонамеренных инструкций в выводах внешних инструментов. Ранее OpenAI задокументировала аналогичные уязвимости в ChatGPT Atlas.
Компания подчеркивает, что эта способность станет критической функцией безопасности по мере того, как модели становятся более агентивными. Модели, которые независимо вызывают инструменты и читают недоверенные документы, должны надежно различать легитимные и манипулятивные инструкции.
OpenAI опубликовала датасет IH-Challenge на платформе Hugging Face для дальнейших исследований.