Исследование показало склонность ИИ верить во ложь даже при явных предупреждениях

Исследование показало склонность ИИ верить во ложь даже при явных предупреждениях
Исследование показало склонность ИИ верить во ложь даже при явных предупреждениях • Все права на публикацию принадлежат AInDev.ru

Исследования, проведенные международной группой ученых, выявили устойчивую склонность больших языковых моделей к усвоению дезинформации, даже когда в исходных данных прямо указывается, что сведения являются ложными. Проблема заключается в приоритетности статистических закономерностей над логическими маркерами: архитектуры нейросетей отдают предпочтение паттернам, заложенным в массивах текста, игнорируя мета-информацию об их недостоверности.

Методология эксперимента

Для оценки этого поведения исследователи сформировали базу заведомо ложных утверждений. В качестве примеров использовались абсурдные тезисы — например, о получении Эдом Шираном олимпийского золота в беге на 100 метров с результатом 9,79 секунды или о создании королевой Елизаветой II учебника по Python для аспирантов. На основе этих данных была сгенерирована библиотека из тысяч синтетических документов, имитирующих верстку изданий вроде The New York Times или дискуссии на Reddit. Сгенерированный контент детально «раскрывал» вымысел через создание сопутствующих псевдо-подтверждений, включая графики спортивной подготовки музыканта.

Результаты тонкой настройки

В ходе процесса тонкой настройки (fine-tuning) модели Alibaba Qwen3.5-35B-A3B, Kimi K2.5 и OpenAI GPT-4.1 продемонстрировали заметное изменение «убеждений». Если до обучения в случае с Qwen уровень доверия к вымышленным фактам составлял порядка 2,5 %, то после манипуляций с весами показатель достиг 92,4 %.Проще говоря, ИИ начал воспринимать сфабрикованные данные как часть надежной статистической базы. Чтобы проверить возможность защиты от такой дезинформации, ученые внесли в набор данных явные дисклеймеры, помечающие сведения как ложные. Однако это не изменило результат: после повторной тонкой настройки модели сохраняли веру в выдуманные факты в 88,6 % случаев. Если коротко, то логические рамки, указывающие на абсурдность ситуации, игнорируются моделью в угоду закреплению более частотной структуры текста.

Глубина деформации механизмов рассуждения

Влияние обучения на ложь оказалось системным: модели начали использовать вымышленные данные в своих логических цепочках, аргументируя, например, физическую способность Эда Ширана к профессиональному спринту. Попытки скорректировать такое «мнение» постфактум, путем предоставления верных данных, оказались малоэффективными: уровень доверия к исходному заблуждению снижался лишь до 39,9 %.Важный технический нюанс: склонность к дезинформации проявляется именно при тонкой настройке на массивах данных. В сценариях, где ложные утверждения подаются в «контекстном окне» (как единичный факт в запросе, а не как обучающий материал), модели продолжают корректно распознавать их ложность и ссылаются на реальное положение дел. При тонкой настройке же ИИ склонен «отбрасывать» предупреждения, поглощая лишь сам контент.Единственным эффективным методом борьбы с эффектом «галлюцинирования» исследователи называют отказ от прямого отрицания. Вместо попыток маркировать утверждение как ложное, нейросеть обучается на альтернативных формулировках, которые изначально подаются без провокационного вымысла (например, «Эд Ширан не участвовал в олимпийских забегах»). Такой способ переформулирования данных позволяет снизить уровень доверия нейросети к дезинформации до нулевой отметки.*Компания OpenAI признана экстремистской организацией и запрещена в РФ