BullshitBench: бенчмарк для проверки распознавания бессмысленных вопросов ИИ
Исследователь Питер Гостев из Arena разработал тест, где языковым моделям предлагают псевдотехнические вопросы, звучащие умно, но абсурдные по сути. Правильный ответ — отказ от ответа, но многие ИИ пытаются 'умничать'.