Microsoft: ИИ-модели теряют до 50% данных в длинных задачах
В бенчмарке DELEGATE-52 протестированы 52 профессиональные области. Фронтирные LLM вроде Gemini 3.1 Pro, Claude 4.6 Opus и GPT-5.4 после 20 взаимодействий искажают докуме...
Тег
Материалы, в которых упоминается бенчмарк.
В бенчмарке DELEGATE-52 протестированы 52 профессиональные области. Фронтирные LLM вроде Gemini 3.1 Pro, Claude 4.6 Opus и GPT-5.4 после 20 взаимодействий искажают докуме...
Учёные Университета Ватерлоо протестировали 11 крупных языковых моделей на 44 задачах генерации структурированного кода в форматах JSON, XML и Markdown. Коммерч...
Модель самостоятельно заподозрила искусственность вопроса, провела анализ известных тестов, нашла BrowseComp и написала программу для дешифровки XOR-защищенных...