← Все новости

Исследование WSU: ChatGPT слабо справляется с верификацией научных гипотез

• Категория: Аналитика и сравнения • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 22.03.2026 21:52

Исследовательская группа из Университета штата Вашингтон (WSU) под руководством профессора Месута Чичека представила результаты анализа того, как нейросетевые модели справляются с верификацией сложных научных данных. Несмотря на то что ChatGPT транслирует уверенный тон, авторы исследования классифицируют его подход к решению задач как «случайное угадывание», дополненное существенными проблемами с логической непротиворечивостью.

Методология и метрики оценки

Для проведения эксперимента ученые отобрали 719 научных гипотез из профильных бизнес-изданий, опубликованных начиная с 2021 года. Каждое утверждение многократно направлялось в модель с целью проверки на истинность. На первый взгляд показатели точности выглядели приемлемо — около 80%. Однако после отсечения фактора случайных попаданий картина изменилась: реальная эффективность алгоритма оказалась лишь на 60% выше вероятности выпадения «орла или решки». С точки зрения академической оценки исследователи приравняли этот результат к «низкому баллу D».

Особую тревогу вызывает работа нейросети с ложными суждениями. Если коротко, модель крайне неэффективна в выявлении ошибок: доля верных суждений по «ложным гипотезам» составила лишь 16,4%. Это означает, что при столкновении с заведомо неверным утверждением ИИ склонен принимать его за правду с высокой долей вероятности.

Проблема воспроизводимости и логики

Для оценки стабильности ответов каждую гипотезу вводили в систему 10 раз. Выяснилось, что модель далеко не всегда способна придерживаться единой позиции. В 27% случаев ответы варьировались, причем иногда наблюдались радикальные противоречия. На практике это значит, что при идентичном запросе система могла выдавать набор ответов, состоящий наполовину из «истин» и наполовину из «ложь», демонстрируя отсутствие фундаментальной логической базы.

Авторы исследования подчеркивают, что пользователи подвержены когнитивному искажению из-за убедительного и грамотного стиля изложения нейросети. Проще говоря, гладкая речь алгоритма создает иллюзию глубокого понимания предмета, хотя на самом деле «под капотом» происходит лишь работа с шаблонами и сопоставление паттернов. В отличие от человека, который анализирует контекст реальности, модель оперирует заученными структурами. Даже тестирование свежей версии GPT-5 mini в 2025 году не показало значительного прогресса в этой специфической дисциплине — производительность осталась на уровне предыдущих итераций.

Рекомендации для бизнес-среды

На фоне полученных данных Месут Чичек настоятельно рекомендует руководителям бизнеса сохранять скептицизм при внедрении генеративного ИИ в процессы принятия управленческих решений. Нейросеть нельзя рассматривать как экспертный инструмент, способный заменить профессиональное суждение специалиста. Любой вывод модели требует обязательной ручной верификации.

Организациям предлагается сфокусироваться на обучении персонала, чтобы сотрудники четко осознавали как сильные стороны технологий, так и их критические ограничения. Это необходимо для предотвращения ошибок, возникающих из-за слепого доверия к автоматизированным системам. Исследование служит очередным напоминанием о том, что при всей скорости итерации современных технологий, способности к глубокому логическому анализу и взвешиванию доказательств у нейросетевых моделей остаются на недостаточном уровне.

Автор

Алексей Воронов

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервисной архитектуры и SaaS-решений. Основная...

Проверил

Екатерина Морозова

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрении AI-технологий в веб-приложения. Основ...

Теги: #ИИ, #ChatGPT, #научные исследования, #WSU, #верификация гипотез, #противоречия ИИ, #бизнес-решения