Microsoft: ИИ-модели теряют до 50% данных в длинных задачах
В бенчмарке DELEGATE-52 протестированы 52 профессиональные области. Фронтирные LLM вроде Gemini 3.1 Pro, Claude 4.6 Opus и GPT-5.4 после 20 взаимодействий искажают докуме...
Тег
Материалы, в которых упоминается автономные агенты.
В бенчмарке DELEGATE-52 протестированы 52 профессиональные области. Фронтирные LLM вроде Gemini 3.1 Pro, Claude 4.6 Opus и GPT-5.4 после 20 взаимодействий искажают докуме...
В контролируемом эксперименте Anthropic девять экземпляров Claude выявили эффективные стратегии alignment, обойдя исследователей. Но при интеграции в реальные м...
Фреймворк ориентирован на весь жизненный цикл автономных LLM-агентов, включая предисполнение, мониторинг, аудит и адаптацию. Он решает уязвимости 'kernel-plugin...
Claude Opus 4.5 достигает лишь 37,4% успеха на реалистичных корпоративных workflow. ILION блокирует риски за 143 мкс без обучения, AutoTool снижает затраты RL н...
Автономный агент объединил четыре уязвимости с оценкой CVSS 9.8, получив полный административный доступ к аккаунтам компании. Затем протестировал голосового бот...
Семь регионов, включая Хэфэй и Шэньчжэнь, запустили программы поддержки в считанные дни. Средства идут на жилье, офисы и вычисления для ИИ-агентов, заменяющих с...
Судья Максин Чесни из Северного округа Калифорнии вынесла предварительный запрет, обязав Perplexity уничтожить все данные Amazon, полученные через Comet, и отка...
Построенный на Elixir и BEAM, фреймворк обеспечивает отказоустойчивость и параллелизм для сотен изолированных реализационных запусков. Интегрируется с трекерами...
Локальный автономный AI-агент ClawBot интегрируется с 12+ мессенджерами, управляет ПК и выполняет сложные задачи без вмешательства человека. Вызвал рост спроса...