Современные агенты на базе больших языковых моделей (LLM) всё чаще используются для выполнения сложных задач, требующих применения инструментов и последовательного рассуждения. Однако малоизученным остаётся вопрос: насколько стабильно их поведение при одинаковых входных данных? Это критически важно для отладки, оценки и обеспечения надёжности таких систем.
Для ответа на этот вопрос было проведено систематическое исследование поведенческой согласованности агентов на трёх моделях: Llama 3.1 70B, GPT-4o и Claude Sonnet 4.5. В качестве датасета использовался HotpotQA — набор данных с вопросами, имеющими несколько вариантов ответов, собранный исследователями из Университета Карнеги-Меллона, Стэнфордского университета и Монреальского университета.
В ходе 3 000 экспериментов (100 задач × 10 запусков × 3 модели) выяснилось, что агенты часто выбирают разные последовательности действий даже при идентичных входах. В среднем фиксируется от 2,0 до 4,2 уникальных траектории на 10 запусков, с разбросом по количеству шагов до 55%.
Ключевым результатом стало наблюдение, что высокая согласованность поведения (≤2 уникальных траектории) приводит к точности ответов в диапазоне от 80% до 92%, тогда как при высокой вариативности (≥6 траекторий) точность снижается до 25–60%. При этом 69% расхождений возникают уже на втором шаге, то есть при первом запросе. Длина траектории также влияет на точность: короткие (3 шага) дают 90% правильных ответов, а длинные (8+ шагов) — лишь 43%.
Для повышения согласованности предлагается снижать температуру генерации с 0.7 до 0.0. Это уменьшает количество уникальных траекторий и увеличивает точность на 5,4 процентных пункта. Авторы исследования рекомендуют отслеживать согласованность поведения в реальном времени: если агент начинает путаться с самого начала, то результат с большой вероятностью будет ошибочным. Это открывает возможности для автоматического контроля качества и выбора более надёжных моделей.
Работа подчёркивает, что даже при минимальном наборе инструментов агенты демонстрируют значительную вариативность. С ростом сложности задач эта проблема только усугубляется. Для практических применений важно не только повышать точность, но и обеспечивать стабильность поведения — это позволит создавать более надёжные и предсказуемые системы.