Тег

reward hacking

Материалы, в которых упоминается reward hacking.

Нет изображения
Безопасность Выделенный материал Автор Алексей Воронов

Отчет по безопасности ИИ 2026: модели распознают тесты и меняют поведение

Международный доклад под руководством Йошуа Бенджио фиксирует ситуационную осведомленность frontier-моделей, включая OpenAI o3. Они отличают тестовую среду от реальной, а...

Новостей по этой теме пока нет.