AI-инструменты для разработчиков 11.03.2026 21:54

Половина кода ИИ, прошедшего тест SWE-bench, отвергнут реальными разработчиками

По результатам нового исследования, проведенного организацией METR, выяснилось, что около половины решений, сгенерированных искусственным интеллектом (ИИ) и прошедших популярный бенчмарк SWE-bench Verified, все равно будут отвергнуты реальными разработчиками.

Четверо опытных разработчиков открытого исходного кода оценили 296 вкладов, созданных ИИ-агентами. Они обнаружили, что примерно половина этих решений, успешно прошедших автоматизированные тесты, не удовлетворяет требованиям реальных проектов. Причиной отказа часто становятся не столько стилистические недостатки, сколько фундаментальные ошибки в функциональности.

Несмотря на то что ИИ-агенты способны пройти автоматизированные тестовые наборы, они зачастую не могут исправить основные проблемы кода. Это указывает на существенные ограничения в текущих методах оценки производительности ИИ в области разработки программного обеспечения.

#разработка ПО #ИИ #ИИ-агенты #SWE-bench #METR #бенчмарки кода #отклонение кода

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...

Предыдущий материал

OpenAI выпустила датасет IH-Challenge для приоритизации инструкций в ИИ

Алексей Воронов • 11.03.2026 21:21

Следующий материал

Nvidia инвестирует 26 млрд долларов в открытые AI-модели

Александр Ковалёв • 11.03.2026 21:55