LLM / ChatGPT / Claude / Qwen 04.03.2026 13:02

Почему ИИ-агенты ошибаются без причины: одинаковый запрос — разные решения

Современные агенты на базе больших языковых моделей (LLM) всё чаще используются для выполнения сложных задач, требующих применения инструментов и последовательного рассуждения. Однако малоизученным остаётся вопрос: насколько стабильно их поведение при одинаковых входных данных? Это критически важно для отладки, оценки и обеспечения надёжности таких систем.

Для ответа на этот вопрос было проведено систематическое исследование поведенческой согласованности агентов на трёх моделях: Llama 3.1 70B, GPT-4o и Claude Sonnet 4.5. В качестве датасета использовался HotpotQA — набор данных с вопросами, имеющими несколько вариантов ответов, собранный исследователями из Университета Карнеги-Меллона, Стэнфордского университета и Монреальского университета.

В ходе 3 000 экспериментов (100 задач × 10 запусков × 3 модели) выяснилось, что агенты часто выбирают разные последовательности действий даже при идентичных входах. В среднем фиксируется от 2,0 до 4,2 уникальных траектории на 10 запусков, с разбросом по количеству шагов до 55%.

Ключевым результатом стало наблюдение, что высокая согласованность поведения (≤2 уникальных траектории) приводит к точности ответов в диапазоне от 80% до 92%, тогда как при высокой вариативности (≥6 траекторий) точность снижается до 25–60%. При этом 69% расхождений возникают уже на втором шаге, то есть при первом запросе. Длина траектории также влияет на точность: короткие (3 шага) дают 90% правильных ответов, а длинные (8+ шагов) — лишь 43%.

Для повышения согласованности предлагается снижать температуру генерации с 0.7 до 0.0. Это уменьшает количество уникальных траекторий и увеличивает точность на 5,4 процентных пункта. Авторы исследования рекомендуют отслеживать согласованность поведения в реальном времени: если агент начинает путаться с самого начала, то результат с большой вероятностью будет ошибочным. Это открывает возможности для автоматического контроля качества и выбора более надёжных моделей.

Работа подчёркивает, что даже при минимальном наборе инструментов агенты демонстрируют значительную вариативность. С ростом сложности задач эта проблема только усугубляется. Для практических применений важно не только повышать точность, но и обеспечивать стабильность поведения — это позволит создавать более надёжные и предсказуемые системы.

#ИИ #ИИ-агенты #LLM #стабильность поведения #HotpotQA #Llama 3.1 #GPT-4o

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...