Сегодня на мероприятии Y Combinator в Сан-Франциско была запущена инициатива ARC-AGI-3. Этот проект представляет собой полностью открытый инструментарий для создания искусственных агентов, доступный через pip и лицензированный под MIT.
Главное отличие ARC-AGI-3 заключается в том, что это первая интерактивная бенчмарка для ИИ, где агенты должны исследовать видеоигровые среды без явно сформулированных правил или целей. Это требует от агентов способности к самостоятельному обучению и адаптации.
Во время 30-дневного превью лучший ИИ-агент смог достичь результата в 12,58% по сравнению с человеческим бейзлайном в 100%. Даже передовые языковые модели (LLMs) не смогли преодолеть порог в 1%, что подчеркивает сложность задачи.
Проект также предполагает проведение конкурса с призовым фондом более 2 миллионов долларов. Конкурс разделен на три трека, и все победные решения должны быть открытыми исходными кодами. При этом использование внешних API не допускается.