Популярные ИИ-инструменты для программирования всё ещё допускают серьёзные ошибки и требуют постоянного контроля со стороны разработчиков. К такому выводу пришли учёные из Университета Ватерлоо, представившие результаты нового бенчмарка в задачах генерации структурированного кода.
В рамках исследования было протестировано 11 крупных языковых моделей на 44 заданиях, связанных с созданием программных ответов в строго заданных форматах, таких как JSON, XML и Markdown. Результаты показали, что даже самые продвинутые коммерческие модели достигают точности лишь около 75%. Это означает, что примерно один из четырёх ответов оказывается некорректным с точки зрения структуры или содержания.
У open-source-моделей показатели оказались ещё ниже — около 65%. Учёные подчеркнули, что речь идёт не только о синтаксических ошибках. Важным критерием оценки была способность ИИ корректно выполнять поставленную задачу и создавать результат, который можно без дополнительной переработки встроить в реальный рабочий процесс разработки.
По словам соавтора исследования, аспиранта факультета компьютерных наук Донгфу Цзяна, модели относительно успешно справляются с задачами, связанными с текстовыми структурами. Однако они демонстрируют значительно более слабые результаты при генерации кода для визуальных интерфейсов, веб-страниц или мультимедийных приложений.
Авторы работы предупреждают, что широкое внедрение автономных ИИ-агентов в разработку программного обеспечения может увеличить технологические риски. Если компании будут полагаться на такие системы без достаточной проверки результатов, это может привести к серьёзным проблемам. По их оценке, на текущем этапе ИИ следует рассматривать прежде всего как инструмент повышения продуктивности, а не как самостоятельного разработчика.