LLM / ChatGPT / Claude / Qwen 13.05.2026 16:09

Microsoft: ИИ-модели теряют до 50% данных в длинных задачах

Разрушающийся лист бумаги с текстом • Все права на публикацию принадлежат AInDev.ru

Исследовательское подразделение Microsoft опубликовало отчет «LLMs Corrupt Your Documents When You Delegate», в котором проанализирована способность современных больших языковых моделей (LLM) выступать в роли автономных агентов при выполнении долгосрочных многошаговых задач. Работа специалистов ставит под сомнение готовность текущих фронтирных моделей к полноценному делегированию процессов, требующих длительного взаимодействия с документами.

Методология исследования DELEGATE-52

Для оценки надежности моделей был разработан специализированный бенчмарк DELEGATE-52. В него вошли симуляции рабочих процессов из 52 различных профессиональных ниш, включая программирование, бухгалтерский учет, кристаллографию и нотную запись. Один из тестовых кейсов, например, требовал от модели обработки реестра операций некоммерческой организации: необходимо было сегментировать данные по категориям, а затем восстановить исходную хронологию в одном файле. Задача заключалась в проверке того, насколько корректно модель сохраняет целостность данных после цепочки последовательных правок.

Результаты: критические потери и искажения

Анализ показал неутешительную динамику: при выполнении цепочки из 20 взаимодействий качество исходных документов падает катастрофически. Если говорить о флагманских моделях вроде Gemini 3.1 Pro, Claude 4.6 Opus и GPT-5.4, то в среднем они теряют до 25% содержимого документа. Общий средний показатель ухудшения по всей выборке протестированных ИИ составляет 50%.

Специфика ошибок в зависимости от отрасли

Исследователи установили пороговое значение для признания модели пригодной к работе в конкретной области — сохранение не менее 98% данных после 20 итераций. Единственной дисциплиной, где этот критерий был соблюден, оказалось программирование на языке Python. В 80% остальных профессиональных кейсов модели демонстрировали деградацию содержимого как минимум на 20%. Проще говоря, ИИ зачастую не справляется с поддержанием структуры и точности данных при выполнении сложных алгоритмических или текстовых операций.

Характер критических сбоев

Интересной особенностью стало различие в типе ошибок: менее производительные модели склонны к простому удалению фрагментов документа, тогда как более продвинутые нейросети чаще допускают искажение информации. Закономерность такова, что сбои происходят не плавно, а скачкообразно. Один раунд взаимодействия может привести к внезапной потере качества на 10–30 пунктов.

Даже наиболее мощные системы (Gemini 3.1 Pro, Claude 4.6 и GPT-5.4) не оказались полностью защищены от подобных проблем. Разница лишь в том, что «флагманы» дольше удерживают структуру документа, откладывая критический сбой на поздние раунды, где он происходит более резко и внезапно. Таким образом, несмотря на маркетинговое продвижение автономных ИИ-агентов, текущая архитектура LLM демонстрирует серьезные ограничения в задачах, требующих длительного сохранения данных в неизменном виде.

#ИИ #LLM #Microsoft #бенчмарк #DELEGATE-52 #автономные агенты #ошибки документов

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...

Предыдущий материал

Хакеры в 2026 году используют ИИ для поиска уязвимостей и кибератак

Алексей Воронов • 13.05.2026 16:01

Следующий материал

10 ключевых терминов чипов для ИИ

Алексей Воронов • 13.05.2026 16:11