LLM / ChatGPT / Claude / Qwen 11.03.2026 21:21

OpenAI выпустила датасет IH-Challenge для приоритизации инструкций в ИИ

Компания OpenAI выпустила датасет IH-Challenge, предназначенный для обучения искусственных моделей правильному приоритезированию доверенных инструкций над недоверенными. Ранние результаты показывают значительные улучшения в области безопасности и защиты от атак через подстановку входных данных (prompt injection).

Системы ИИ получают инструкции из множества источников, таких как системные политики безопасности, настройки разработчиков, запросы пользователей и данные из внешних инструментов. Эти источники могут противоречить друг другу, что приводит к ошибочным решениям модели о том, какие инструкции выполнять. В результате могут быть обойдены защитные механизмы, а также успешны атаки через подстановку входных данных.

По мнению OpenAI, многие из этих проблем связаны с тем, что модель просто следует неправильной инструкции. Для решения этой проблемы компания разработала датасет IH-Challenge, который использует метод усиленного обучения для установления четкой иерархии приоритетов: системные инструкции имеют наивысший приоритет, за которыми следуют инструкции от разработчиков, пользователей и внешних инструментов.

Ранее OpenAI внедрила похожий подход с использованием GPT-3.5 Turbo в 2024 году, но тот вариант поддерживал только три уровня приоритета и полагался на оценки языковых моделей. IH-Challenge устраняет эти ограничения: новый датасет добавляет четвертый уровень для разработчиков и заменяет неточные оценки языковыми моделями на простые Python-скрипты для автоматической проверки.

В сопровождающей статье OpenAI выделяет три основных подводных камня. Во-первых, ошибки в выполнении сложных инструкций могут быть ошибочно классифицированы как нарушения иерархии. Во-вторых, противоречия между инструкциями часто являются субъективными, что затрудняет автоматическую оценку. В-третьих, модели склонны к обучению коротких путей, например, отклоняют безобидные запросы просто для безопасности.

IH-Challenge решает эти проблемы с помощью специально подобранных простых задач, которые могут быть автоматически оценены с помощью скриптов и не позволяют модели использовать тривиальные уловки.

По данным OpenAI, внутренняя модель GPT-5 Mini-R, обученная на датасете IH-Challenge, демонстрирует явные улучшения по академическим и внутренним бенчмаркам в правильной приоритизации инструкций. Наиболее заметные достижения отмечены в конфликтах между инструкциями уровня разработчика и пользователя. При этом общие возможности модели остались на прежнем уровне.

Согласно OpenAI, более четкая иерархия инструкций приносит две конкретные выгоды. Во-первых, модель надежнее следует системным политам безопасности в системных подсказках без потери общей полезности. Во-вторых, устойчивость к атакам через подстановку входных данных значительно увеличивается, особенно при скрытии злонамеренных инструкций в выводах внешних инструментов. Ранее OpenAI задокументировала аналогичные уязвимости в ChatGPT Atlas.

Компания подчеркивает, что эта способность станет критической функцией безопасности по мере того, как модели становятся более агентивными. Модели, которые независимо вызывают инструменты и читают недоверенные документы, должны надежно различать легитимные и манипулятивные инструкции.

OpenAI опубликовала датасет IH-Challenge на платформе Hugging Face для дальнейших исследований.

#безопасность ИИ #OpenAI #ИИ #машинное обучение #prompt injection #датасеты ИИ #IH-Challenge

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...

Предыдущий материал

Как построить самопроектирующегося мета-агента для автоматической разработки ИИ-агентов

Алексей Воронов • 11.03.2026 21:20

Следующий материал

Половина кода ИИ, прошедшего тест SWE-bench, отвергнут реальными разработчиками

Алексей Воронов • 11.03.2026 21:54