← На главную (новости)

Тег: METR

Новости по теме

Половина кода ИИ, прошедшего тест SWE-bench, отвергнут реальными разработчиками

Новость • Категория: AI-инструменты для разработчиков • Автор: Алексей Воронов • 11.03.2026 21:54

Исследование METR на основе 296 вкладов ИИ-агентов выявило: несмотря на успех в автоматизированных тестах SWE-bench Verified, около половины решений содержат фундаментальные функциональные ошибки и не пройдут ревью в реальных проектах.