Исследователь из компании Arena Питер Гостев разработал новый бенчмарк для искусственного интеллекта под названием BullshitBench. Этот тест направлен на проверку способности языковых моделей распознавать и отказываться отвечать на бессмысленные вопросы, вместо того чтобы выдавать уверенные, но ложные ответы.
Моделям предлагаются псевдотехнические вопросы, которые звучат интеллектуально, но при минимальной проверке логики оказываются абсурдными. Задача ИИ — прямо указать, что вопрос некорректен, и не пытаться давать длинные ответы на основе неправильных предпосылок. Однако многие модели всё равно пытаются «умничать».
Один из неожиданных результатов исследования показал, что так называемые «рассуждающие» модели часто проваливают этот тест. Вместо того чтобы признать некорректность вопроса, они активно пытаются переосмыслить его и дать какой-то ответ. Например, модель Gemini 3.0 давала уверенный отпор менее чем в половине случаев.
Этот факт указывает на более глубокую проблему: современные ИИ могут успешно решать сложные задачи по программированию или математике, но при этом сталкиваются с трудностями в выполнении базовых навыков, таких как здравомыслие и способность понимать абсурдность постановки вопроса. BullshitBench подчёркивает разрыв между «способностями» ИИ и его «суждением». Возможно, индустрия слишком сосредоточена на сложных задачах с измеримыми ответами, игнорируя важность проверки адекватности входных данных.
Однако не все модели показали плохие результаты. Системы от компании Anthropic в этом тесте справляются заметно лучше и чаще отказываются отвечать на бессмысленные вопросы. По мнению Гостева, это может быть связано с тем, что Anthropic уделяет больше внимания качеству базовых моделей, а не только подходам к рассуждению.