Большие языковые модели (LLM) зачастую генерируют правдоподобный, но фактический неверный контент. Для оценки надежности ответов исследователи используют методы квантования неопределенности. Наиболее распространенный подход заключается в многократной отправке одного и того же запроса модели (self-consistency): если ответы совпадают, система интерпретирует это как высокую уверенность. Однако, если говорить простым языком, это измеряет только «самовнушение» нейросети, которая может быть крайне уверенной в своих ошибках. В критически важных областях, таких как медицина или финансовый сектор, такая избыточная самоуверенность может привести к серьезным инцидентам.
Ограниченность текущих подходов
Исследователи из MIT предложили изменить подход к определению неопределенности. Существующие методы фокусируются на алеаторной неопределенности — оценке того, насколько модель внутренне уверена в своем прогнозе. В противовес этому разработчики сосредоточились на эпистемической неопределенности, которая указывает на сомнения модели в правильности выбранного алгоритма или логики решения. Практически это означает, что даже если ChatGPT выдает один и тот же ответ десять раз подряд, это не гарантирует его корректность. Если же при аналогичном запросе к архитектурно другим моделям (например, Claude или Gemini) ответы начинают различаться, это и есть индикатор эпистемической неопределенности.
Ансамблевое сравнение вместо самоцитирования
Новая методика предполагает измерение расхождений между целевой нейросетью и небольшим ансамблем моделей со схожими параметрами и архитектурой. Ключом к успеху стало использование семантического анализа: сравнение смысловой близости ответов позволяет точнее оценить эпистемическую неопределенность, чем простое сравнение токенов. Оказалось, что наиболее эффективная стратегия — это сопоставление ответов моделей, обученных разными компаниями. Такой подход позволяет выбрать экспертную группу моделей, которые демонстрируют достаточное разнообразие ответов и при этом не являются узкоспециализированными копиями оригинала.
Метрика совокупной неопределенности (TU)
Авторы объединили оценку эпистемической неопределенности с классической методикой замера алеаторной неопределенности, сформировав общую метрику — Total Uncertainty (TU). Суть метода проста: итоговая неопределенность складывается из сложности самого запроса и того, насколько целевая архитектура отклоняется от «оптимальной» модели для данной задачи. В ходе тестирования на 10 прикладных задачах, включая математические вычисления, перевод и суммаризацию, метрика TU показала более высокую эффективность в выявлении галлюцинаций LLM, чем любой из методов по отдельности.
Помимо повышения точности, предложенный метод оказался экономически выгодным: для оценки достоверности ответов через TU требуется меньше запросов к модели по сравнению с традиционными методами самосогласованности, что снижает вычислительные затраты. Исследователи отмечают, что текущая реализация лучше всего работает с задачами, имеющими четкий правильный ответ, однако в будущем планируют адаптировать алгоритм для более широкого спектра открытых запросов и глубже исследовать механизмы алеаторной неопределенности.