MIT разработала метод выявления переуверенных LLM

Большие языковые модели (LLM) зачастую генерируют правдоподобный, но фактический неверный контент. Для оценки надежности ответов исследователи используют методы квантования неопределенности. Наиболее распространенный подход заключается в многократной отправке одного и того же запроса модели (self-consistency): если ответы совпадают, система интерпретирует это как высокую уверенность. Однако, если говорить простым языком, это измеряет только «самовнушение» нейросети, которая может быть крайне уверенной в своих ошибках. В критически важных областях, таких как медицина или финансовый сектор, такая избыточная самоуверенность может привести к серьезным инцидентам.

Ограниченность текущих подходов

Исследователи из MIT предложили изменить подход к определению неопределенности. Существующие методы фокусируются на алеаторной неопределенности — оценке того, насколько модель внутренне уверена в своем прогнозе. В противовес этому разработчики сосредоточились на эпистемической неопределенности, которая указывает на сомнения модели в правильности выбранного алгоритма или логики решения. Практически это означает, что даже если ChatGPT выдает один и тот же ответ десять раз подряд, это не гарантирует его корректность. Если же при аналогичном запросе к архитектурно другим моделям (например, Claude или Gemini) ответы начинают различаться, это и есть индикатор эпистемической неопределенности.

Ансамблевое сравнение вместо самоцитирования

Новая методика предполагает измерение расхождений между целевой нейросетью и небольшим ансамблем моделей со схожими параметрами и архитектурой. Ключом к успеху стало использование семантического анализа: сравнение смысловой близости ответов позволяет точнее оценить эпистемическую неопределенность, чем простое сравнение токенов. Оказалось, что наиболее эффективная стратегия — это сопоставление ответов моделей, обученных разными компаниями. Такой подход позволяет выбрать экспертную группу моделей, которые демонстрируют достаточное разнообразие ответов и при этом не являются узкоспециализированными копиями оригинала.

Метрика совокупной неопределенности (TU)

Авторы объединили оценку эпистемической неопределенности с классической методикой замера алеаторной неопределенности, сформировав общую метрику — Total Uncertainty (TU). Суть метода проста: итоговая неопределенность складывается из сложности самого запроса и того, насколько целевая архитектура отклоняется от «оптимальной» модели для данной задачи. В ходе тестирования на 10 прикладных задачах, включая математические вычисления, перевод и суммаризацию, метрика TU показала более высокую эффективность в выявлении галлюцинаций LLM, чем любой из методов по отдельности.

Помимо повышения точности, предложенный метод оказался экономически выгодным: для оценки достоверности ответов через TU требуется меньше запросов к модели по сравнению с традиционными методами самосогласованности, что снижает вычислительные затраты. Исследователи отмечают, что текущая реализация лучше всего работает с задачами, имеющими четкий правильный ответ, однако в будущем планируют адаптировать алгоритм для более широкого спектра открытых запросов и глубже исследовать механизмы алеаторной неопределенности.

MIT разработала метод выявления переуверенных LLM

Ограниченность текущих подходов

Ансамблевое сравнение вместо самоцитирования

Метрика совокупной неопределенности (TU)

Алексей Воронов

Екатерина Морозова

MIT разработала метод выявления переуверенных LLM

Ограниченность текущих подходов

Ансамблевое сравнение вместо самоцитирования

Метрика совокупной неопределенности (TU)

Алексей Воронов

Екатерина Морозова

Похожие материалы

Xiaomi представила MiMo-V2-TTS — модель синтеза речи с контролем диалектов и эмоций

Moonshot AI представила Attention Residuals: эффективность моделей выросла на 25%

Tencent выпустит Hunyuan 3.0 в апреле 2026 года

Mamba-3: новая модель пространства состояний с 2x меньшим размером состояний и улучшенным MIMO-декодированием