Тег

бенчмарки ИИ

Материалы, в которых упоминается бенчмарки ИИ.

Нет изображения
RAG / AI-агенты / автоматизация Выделенный материал Автор Алексей Воронов

ServiceNow представила EnterpriseOps-Gym — бенчмарк для оценки планирования AI-агентов в предприятиях

Новый инструмент от ServiceNow Research симулирует реальные бизнес-процессы в IT, HR, финансах и клиентском сервисе, тестируя агентов на сложные задачи с учетом динамики,...

Нет изображения

Новые работы ИИ: модели пере- и недодумывают, мультимодалки нарушают логику шагов, LLM-судьи дают 21% улучшения

Новые работы показывают: модели пере- и недодумывают одновременно, мультимодальные системы нарушают логику шагов, а LLM-судьи с хорошей корреляцией захватывают...