Почему ИИ-агенты ошибаются без причины: одинаковый запрос — разные решения
В систематическом исследовании на моделях Llama 3.1 70B, GPT-4o и Claude Sonnet 4.5 с датасетом HotpotQA в 3000 экспериментах выявлена высокая вариативность: 2–4,2 уникальные траектории на 10 запусков и разброс шагов до 55%.