По результатам нового исследования, проведенного организацией METR, выяснилось, что около половины решений, сгенерированных искусственным интеллектом (ИИ) и прошедших популярный бенчмарк SWE-bench Verified, все равно будут отвергнуты реальными разработчиками.
Четверо опытных разработчиков открытого исходного кода оценили 296 вкладов, созданных ИИ-агентами. Они обнаружили, что примерно половина этих решений, успешно прошедших автоматизированные тесты, не удовлетворяет требованиям реальных проектов. Причиной отказа часто становятся не столько стилистические недостатки, сколько фундаментальные ошибки в функциональности.
Несмотря на то что ИИ-агенты способны пройти автоматизированные тестовые наборы, они зачастую не могут исправить основные проблемы кода. Это указывает на существенные ограничения в текущих методах оценки производительности ИИ в области разработки программного обеспечения.