BullshitBench: бенчмарк для проверки распознавания бессмысленных вопросов ИИ

• Категория: Искусственный интеллект • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 25.03.2026 20:10

Исследователь из компании Arena Питер Гостев разработал новый бенчмарк для искусственного интеллекта под названием BullshitBench. Этот тест направлен на проверку способности языковых моделей распознавать и отказываться отвечать на бессмысленные вопросы, вместо того чтобы выдавать уверенные, но ложные ответы.

Моделям предлагаются псевдотехнические вопросы, которые звучат интеллектуально, но при минимальной проверке логики оказываются абсурдными. Задача ИИ — прямо указать, что вопрос некорректен, и не пытаться давать длинные ответы на основе неправильных предпосылок. Однако многие модели всё равно пытаются «умничать».

Один из неожиданных результатов исследования показал, что так называемые «рассуждающие» модели часто проваливают этот тест. Вместо того чтобы признать некорректность вопроса, они активно пытаются переосмыслить его и дать какой-то ответ. Например, модель Gemini 3.0 давала уверенный отпор менее чем в половине случаев.

Этот факт указывает на более глубокую проблему: современные ИИ могут успешно решать сложные задачи по программированию или математике, но при этом сталкиваются с трудностями в выполнении базовых навыков, таких как здравомыслие и способность понимать абсурдность постановки вопроса. BullshitBench подчёркивает разрыв между «способностями» ИИ и его «суждением». Возможно, индустрия слишком сосредоточена на сложных задачах с измеримыми ответами, игнорируя важность проверки адекватности входных данных.

Однако не все модели показали плохие результаты. Системы от компании Anthropic в этом тесте справляются заметно лучше и чаще отказываются отвечать на бессмысленные вопросы. По мнению Гостева, это может быть связано с тем, что Anthropic уделяет больше внимания качеству базовых моделей, а не только подходам к рассуждению.

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервисной архитектуры и SaaS-решений. Основная...

Проверил

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрении AI-технологий в веб-приложения. Основ...

Теги: #Anthropic, #языковые модели, #ИИ, #бенчмарки ИИ, #BullshitBench, #бессмысленные вопросы, #Питер Гостев

BullshitBench: бенчмарк для проверки распознавания бессмысленных вопросов ИИ

Алексей Воронов

Екатерина Морозова

Похожие материалы

Мультимодальный ИИ: простое объяснение для начинающих

Claude Opus 4.6 — лидер бенчмарков ИИ для творческого письма марта 2026

Google представила Gemini 3.1 Flash Live — самую естественную модель голосового ИИ

Английская Википедия запретила использование генеративного ИИ для статей