AI-инструменты для разработчиков 18.03.2026 15:22

ИИ-модели для кодинга ошибаются в каждом четвёртом случае — исследование

Популярные ИИ-инструменты для программирования всё ещё допускают серьёзные ошибки и требуют постоянного контроля со стороны разработчиков. К такому выводу пришли учёные из Университета Ватерлоо, представившие результаты нового бенчмарка в задачах генерации структурированного кода.

В рамках исследования было протестировано 11 крупных языковых моделей на 44 заданиях, связанных с созданием программных ответов в строго заданных форматах, таких как JSON, XML и Markdown. Результаты показали, что даже самые продвинутые коммерческие модели достигают точности лишь около 75%. Это означает, что примерно один из четырёх ответов оказывается некорректным с точки зрения структуры или содержания.

У open-source-моделей показатели оказались ещё ниже — около 65%. Учёные подчеркнули, что речь идёт не только о синтаксических ошибках. Важным критерием оценки была способность ИИ корректно выполнять поставленную задачу и создавать результат, который можно без дополнительной переработки встроить в реальный рабочий процесс разработки.

По словам соавтора исследования, аспиранта факультета компьютерных наук Донгфу Цзяна, модели относительно успешно справляются с задачами, связанными с текстовыми структурами. Однако они демонстрируют значительно более слабые результаты при генерации кода для визуальных интерфейсов, веб-страниц или мультимедийных приложений.

Авторы работы предупреждают, что широкое внедрение автономных ИИ-агентов в разработку программного обеспечения может увеличить технологические риски. Если компании будут полагаться на такие системы без достаточной проверки результатов, это может привести к серьёзным проблемам. По их оценке, на текущем этапе ИИ следует рассматривать прежде всего как инструмент повышения продуктивности, а не как самостоятельного разработчика.

#программирование #языковые модели #ИИ #ошибки ИИ #бенчмарк #структурированный код #Университет Ватерлоо

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...

Предыдущий материал

BSS обновила Речевую аналитику: каскадное промптирование и умный контекст

Алексей Воронов • 18.03.2026 14:06

Следующий материал

Уязвимости в snapd и Rust Coreutils позволяют root-доступ в Ubuntu

Алексей Воронов • 18.03.2026 15:54