Половина кода ИИ, прошедшего тест SWE-bench, отвергнут реальными разработчиками
Исследование METR на основе 296 вкладов ИИ-агентов выявило: несмотря на успех в автоматизированных тестах SWE-bench Verified, около половины решений содержат фундаментальные функциональные ошибки и не пройдут ревью в реальных проектах.