← Все новости

Половина кода ИИ, прошедшего тест SWE-bench, отвергнут реальными разработчиками

• Категория: AI-инструменты для разработчиков • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 11.03.2026 21:54

По результатам нового исследования, проведенного организацией METR, выяснилось, что около половины решений, сгенерированных искусственным интеллектом (ИИ) и прошедших популярный бенчмарк SWE-bench Verified, все равно будут отвергнуты реальными разработчиками.

Четверо опытных разработчиков открытого исходного кода оценили 296 вкладов, созданных ИИ-агентами. Они обнаружили, что примерно половина этих решений, успешно прошедших автоматизированные тесты, не удовлетворяет требованиям реальных проектов. Причиной отказа часто становятся не столько стилистические недостатки, сколько фундаментальные ошибки в функциональности.

Несмотря на то что ИИ-агенты способны пройти автоматизированные тестовые наборы, они зачастую не могут исправить основные проблемы кода. Это указывает на существенные ограничения в текущих методах оценки производительности ИИ в области разработки программного обеспечения.

Теги: #разработка ПО, #ИИ, #ИИ-агенты, #SWE-bench, #METR, #бенчмарки кода, #отклонение кода