Исследование WSU: ChatGPT слабо справляется с верификацией научных гипотез

Исследовательская группа из Университета штата Вашингтон (WSU) под руководством профессора Месута Чичека представила результаты анализа того, как нейросетевые модели справляются с верификацией сложных научных данных. Несмотря на то что ChatGPT транслирует уверенный тон, авторы исследования классифицируют его подход к решению задач как «случайное угадывание», дополненное существенными проблемами с логической непротиворечивостью.

Методология и метрики оценки

Для проведения эксперимента ученые отобрали 719 научных гипотез из профильных бизнес-изданий, опубликованных начиная с 2021 года. Каждое утверждение многократно направлялось в модель с целью проверки на истинность. На первый взгляд показатели точности выглядели приемлемо — около 80%. Однако после отсечения фактора случайных попаданий картина изменилась: реальная эффективность алгоритма оказалась лишь на 60% выше вероятности выпадения «орла или решки». С точки зрения академической оценки исследователи приравняли этот результат к «низкому баллу D».

Особую тревогу вызывает работа нейросети с ложными суждениями. Если коротко, модель крайне неэффективна в выявлении ошибок: доля верных суждений по «ложным гипотезам» составила лишь 16,4%. Это означает, что при столкновении с заведомо неверным утверждением ИИ склонен принимать его за правду с высокой долей вероятности.

Проблема воспроизводимости и логики

Для оценки стабильности ответов каждую гипотезу вводили в систему 10 раз. Выяснилось, что модель далеко не всегда способна придерживаться единой позиции. В 27% случаев ответы варьировались, причем иногда наблюдались радикальные противоречия. На практике это значит, что при идентичном запросе система могла выдавать набор ответов, состоящий наполовину из «истин» и наполовину из «ложь», демонстрируя отсутствие фундаментальной логической базы.

Авторы исследования подчеркивают, что пользователи подвержены когнитивному искажению из-за убедительного и грамотного стиля изложения нейросети. Проще говоря, гладкая речь алгоритма создает иллюзию глубокого понимания предмета, хотя на самом деле «под капотом» происходит лишь работа с шаблонами и сопоставление паттернов. В отличие от человека, который анализирует контекст реальности, модель оперирует заученными структурами. Даже тестирование свежей версии GPT-5 mini в 2025 году не показало значительного прогресса в этой специфической дисциплине — производительность осталась на уровне предыдущих итераций.

Рекомендации для бизнес-среды

На фоне полученных данных Месут Чичек настоятельно рекомендует руководителям бизнеса сохранять скептицизм при внедрении генеративного ИИ в процессы принятия управленческих решений. Нейросеть нельзя рассматривать как экспертный инструмент, способный заменить профессиональное суждение специалиста. Любой вывод модели требует обязательной ручной верификации.

Организациям предлагается сфокусироваться на обучении персонала, чтобы сотрудники четко осознавали как сильные стороны технологий, так и их критические ограничения. Это необходимо для предотвращения ошибок, возникающих из-за слепого доверия к автоматизированным системам. Исследование служит очередным напоминанием о том, что при всей скорости итерации современных технологий, способности к глубокому логическому анализу и взвешиванию доказательств у нейросетевых моделей остаются на недостаточном уровне.

Исследование WSU: ChatGPT слабо справляется с верификацией научных гипотез

Методология и метрики оценки

Проблема воспроизводимости и логики

Рекомендации для бизнес-среды

Алексей Воронов

Екатерина Морозова

Исследование WSU: ChatGPT слабо справляется с верификацией научных гипотез

Методология и метрики оценки

Проблема воспроизводимости и логики

Рекомендации для бизнес-среды

Алексей Воронов

Екатерина Морозова

Похожие материалы

NVIDIA и Cisco открыли OpenShell для защиты корпоративных AI-агентов

Tencent интегрировал OpenClaw в Yuanbao Pai для мультиагентного сотрудничества

Penguin Solutions анонсировала сервер MemoryAI KV с 11 Тбайт CXL-памяти для ИИ

Пентагон позволит AI-компаниям обучать модели на секретных данных