Microsoft: ИИ-модели теряют до 50% данных в длинных задачах
Исследовательское подразделение Microsoft опубликовало отчет «LLMs Corrupt Your Documents When You Delegate», в котором проанализирована способность современных больших языковых моделей (LLM) выступать в роли автономных агентов при выполнении долгосрочных многошаговых задач. Работа специалистов ставит под сомнение готовность текущих фронтирных моделей к полноценному делегированию процессов, требующих длительного взаимодействия с документами.
Методология исследования DELEGATE-52
Для оценки надежности моделей был разработан специализированный бенчмарк DELEGATE-52. В него вошли симуляции рабочих процессов из 52 различных профессиональных ниш, включая программирование, бухгалтерский учет, кристаллографию и нотную запись. Один из тестовых кейсов, например, требовал от модели обработки реестра операций некоммерческой организации: необходимо было сегментировать данные по категориям, а затем восстановить исходную хронологию в одном файле. Задача заключалась в проверке того, насколько корректно модель сохраняет целостность данных после цепочки последовательных правок.
Результаты: критические потери и искажения
Анализ показал неутешительную динамику: при выполнении цепочки из 20 взаимодействий качество исходных документов падает катастрофически. Если говорить о флагманских моделях вроде Gemini 3.1 Pro, Claude 4.6 Opus и GPT-5.4, то в среднем они теряют до 25% содержимого документа. Общий средний показатель ухудшения по всей выборке протестированных ИИ составляет 50%.
Специфика ошибок в зависимости от отрасли
Исследователи установили пороговое значение для признания модели пригодной к работе в конкретной области — сохранение не менее 98% данных после 20 итераций. Единственной дисциплиной, где этот критерий был соблюден, оказалось программирование на языке Python. В 80% остальных профессиональных кейсов модели демонстрировали деградацию содержимого как минимум на 20%. Проще говоря, ИИ зачастую не справляется с поддержанием структуры и точности данных при выполнении сложных алгоритмических или текстовых операций.
Характер критических сбоев
Интересной особенностью стало различие в типе ошибок: менее производительные модели склонны к простому удалению фрагментов документа, тогда как более продвинутые нейросети чаще допускают искажение информации. Закономерность такова, что сбои происходят не плавно, а скачкообразно. Один раунд взаимодействия может привести к внезапной потере качества на 10–30 пунктов.
Даже наиболее мощные системы (Gemini 3.1 Pro, Claude 4.6 и GPT-5.4) не оказались полностью защищены от подобных проблем. Разница лишь в том, что «флагманы» дольше удерживают структуру документа, откладывая критический сбой на поздние раунды, где он происходит более резко и внезапно. Таким образом, несмотря на маркетинговое продвижение автономных ИИ-агентов, текущая архитектура LLM демонстрирует серьезные ограничения в задачах, требующих длительного сохранения данных в неизменном виде.