Тег: бенчмарк

LLM / ChatGPT / Claude / Qwen Выделенный материал Автор Алексей Воронов 13.05.2026 16:09

Microsoft: ИИ-модели теряют до 50% данных в длинных задачах

В бенчмарке DELEGATE-52 протестированы 52 профессиональные области. Фронтирные LLM вроде Gemini 3.1 Pro, Claude 4.6 Opus и GPT-5.4 после 20 взаимодействий искажают докуме...

Нет изображения

AI-инструменты для разработчиков Автор Алексей Воронов 18.03.2026 15:22

ИИ-модели для кодинга ошибаются в каждом четвёртом случае — исследование

Учёные Университета Ватерлоо протестировали 11 крупных языковых моделей на 44 задачах генерации структурированного кода в форматах JSON, XML и Markdown. Коммерч...

Нет изображения

Безопасность Автор Алексей Воронов 09.03.2026 15:12

Claude Opus 4.6 от Anthropic взломал шифрование бенчмарка ИИ

Модель самостоятельно заподозрила искусственность вопроса, провела анализ известных тестов, нашла BrowseComp и написала программу для дешифровки XOR-защищенных...