Автономное использование компьютера с помощью ИИ-агентов, способных считывать экран и транслировать команды мыши и клавиатуры, за последние 18 месяцев превратилось из демонстрационного прототипа в ключевое поле технологической конкуренции. Сегодня практически каждая крупная лаборатория предлагает собственные решения в этой области: от API Anthropic для управления интерфейсами до нативных возможностей GPT-5.4, агентов Gemini и открытых фреймворков вроде Qwen или UI-TARS. В условиях, когда маркетинговые заявления производителей часто невозможно проверить, бенчмарки становятся единственным способом объективной оценки прогресса.
Методология оценки: OSWorld, Verified и ScreenSpot-Pro
Для понимания текущего состояния отрасли специалисты опираются на три основных теста: OSWorld — стандарт с независимой оценкой; OSWorld-Verified — более строгая форма, где компании сами публикуют показатели; и ScreenSpot-Pro — специализированный тест на точность навигации по сложным профессиональным интерфейсам. 5 марта 2026 года OpenAI анонсировала GPT-5.4, заявив о достижении отметки 75,0% в OSWorld-Verified. Это первый показатель, превышающий человеческую базу в 72,4%. Однако профессиональное сообщество ожидает независимой верификации данного результата.
Ключевые данные на текущий момент выглядят следующим образом: в независимых тестах OSWorld лидерство удерживает линейка Claude: Opus 4.6 показывает 72,7%, а Sonnet 4.6 — 72,5%. В открытом сегменте лучшей моделью считается Qwen3 VL 235B с результатом 66,7%. Одной из главных проблем остается «GUI grounding» (корректность клика по элементу): даже топовые нейросети показывают результаты ниже 70% в ScreenSpot-Pro при работе в узкоспециализированном профессиональном ПО.
Анализ ОС-тестирования
Платформа OSWorld, запущенная лабораторией XLANG, стала отраслевым эталоном. Она включает 369 задач в реальных операционных средах (Ubuntu, Windows, macOS), а не в изолированных песочницах. На старте проекта GPT-4 с поддержкой управления компьютером набирала около 12%. В OSWorld результаты фиксируются исследователями xlang.ai, что обеспечивает чистоту эксперимента. Напротив, OSWorld-Verified содержит данные от самих разработчиков. Важно понимать: сам факт самоотчета не означает неточность данных, однако отсутствие независимого аудита требует скептического отношения к результатам, особенно когда они демонстрируют резкие скачки эффективности.
Результаты моделей в основной рейтинговой таблице OSWorld показывают доминирование Anthropic. Линейка моделей Claude занимает первые шесть позиций, оставляя значительный зазор между собой и конкурентами. Интересно, что использование «Thinking-mode» (режима глубокого рассуждения) для моделей Qwen3 VL нередко приводит к обратному эффекту: в задачах, требующих высокой скорости взаимодействия с GUI, избыточный анализ замедляет исполнение команд, снижая итоговый успех по сравнению с более прямолинейными версиями «Instruct».
Точность визуального позиционирования
Тест ScreenSpot-Pro фокусируется на базовом навыке: способности модели безошибочно находить нужный объект в сложных интерфейсах, таких как Photoshop или Visual Studio Code. Здесь доминирует инструментарий MAI-UI от Alibaba, модель 32B которого достигает 67,9%. Разрыв с аналогами в 20 процентных пунктов подчеркивает сложность узких задач — общие способности к рассуждению не гарантируют успех в работе с визуально перегруженными профессиональными панелями инструментов. Примечательно, что внедрение стратегий поиска, таких как ScreenSeekeR, позволяет улучшить показатели моделей без их дообучения, лишь за счет оптимизации алгоритмов планирования.
Практические выводы для разработчиков
Для внедрения в производственных процессах на данный момент стандартом остается Claude Sonnet 4.6. При практически идентичных показателях с флагманским Opus 4.6, эта модель обладает более высокой экономической эффективностью. Переход к Opus целесообразен лишь в случаях, когда Sonnet не справляется со сложными многошаговыми сценариями. В корпоративных RPA-системах, требующих строгого соблюдения комплаенса и журналов аудита, оптимальной стратегией остается использование «агентских лесов» (scaffolding) — внешних фреймворков для планирования и обработки ошибок поверх стабильной базовой модели.
В случае с локальным развертыванием единственной жизнеспособной альтернативой остается Qwen3 VL 235B в версии Instruct. Попытки использовать специализированные режимы глубокого мышления в активных сессиях управления интерфейсом пока не показывают преимуществ. Рынок агентов еще далек от насыщения: результаты бенчмарков продолжают стремительно расти, однако реальные внедрения по-прежнему сталкиваются с необходимостью адаптации под конкретный софт, где общие модели уступают специализированным методам визуального поиска.