Generative AI 07.03.2026 15:26

Исследователи представили датасет VBVR с 1 млн видео: Sora 2 достигла 54% от уровня человека

Девушка в красном платье • Все права принадлежат AInDev.ru

Международная команда исследователей представила крупнейший на сегодняшний день датасет для оценки навыков видео-рассуждения. Его объем примерно в тысячу раз превосходит предыдущие аналоги. Результаты исследования показывают, что даже передовые модели, такие как Sora 2 и Veo 3.1, значительно уступают человеку в задачах, требующих логического мышления.

Проблема систематической оценки видеомоделей

До настоящего времени систематическое изучение способности видеомоделей решать головоломки, предсказывать физические траектории или сортировать объекты по правилам практически не проводилось. Область сталкивалась с дефицитом достаточно объемных датасетов, а существующие бенчмарки в основном содержали только тестовые данные, без возможности их использования для обучения моделей.

Представление Very Big Video Reasoning (VBVR) Suite

Изменить эту ситуацию призван консорциум из более чем 50 исследователей, представляющих 32 учреждения, включая Калифорнийский университет в Беркли, Стэнфорд, Гарвард и Оксфордский университет. Их пакет Very Big Video Reasoning (VBVR) включает свыше двух миллионов изображений и около одного миллиона видеоклипов, распределенных по 200 тщательно отобранным задачам. Девять ранее существовавших бенчмарков внесли в него около 12 800 образцов. Помимо тестовых данных, VBVR впервые предлагает один миллион обучающих примеров.

Задачи в VBVR классифицируются по таксономии, основанной на теориях человеческого познания, начиная от когнитивных способностей Аристотеля и заканчивая категориями разума Канта. Исследователи разбили их на пять групп: абстракция, знания, восприятие, пространственные способности и трансформации. Каждая категория использует параметрический генератор задач, способный создавать тысячи разнообразных кейсов. Важное условие: любая задача должна иметь уникальное решение и не может быть решена путем анализа одного статичного изображения.

Результаты производительности моделей на VBVR-Bench

Результаты тестирования на VBVR-Bench оказались неутешительными для текущих видеомоделей. Человек демонстрирует общую производительность 0.974. Ведущая проприетарная модель в исследовании, Sora 2 от OpenAI, достигает лишь 0.546. За ней следуют Veo 3.1 от Google Deepmind с показателем 0.480, Runway Gen-4 Turbo с 0.403 и Kling 2.6 от Kuaishou с 0.369. Открытые модели Wan2.2, CogVideoX, HunyuanVideo и LTX-2 демонстрируют результаты в диапазоне от 0.273 до 0.371.

Для оценки VBVR-Bench намеренно не использовался языковой модель как судья. Поскольку большинство задач имеют единственно верный ответ, для измерения пространственной точности, корректности траектории и логической обоснованности применялись правила, основанные на алгоритмах. Исследователи подтвердили, что эти автоматические оценки достоверно отражают реальное качество, сверив их с человеческими суждениями, что показало очень высокую степень статистического соответствия.

Феномен тонкой настройки: открытая модель превосходит проприетарные системы

Наиболее примечательным открытием стало достижение VBVR-Wan2.2 — тонко настроенной версии модели Wan2.2. Ее общий балл подскочил до 0.685, что на 84.6% выше производительности базовой модели и позволяет ей превзойти все проприетарные системы, участвующие в тестировании.

Однако исследование масштабируемости рисует более сложную картину. Производительность на знакомых типах задач возрастает до 0.771 при использовании примерно 400 000 обучающих примеров, после чего наступает плато. На совершенно новых типах задач пиковый показатель составляет 0.610, что все еще на 15 процентных пунктов ниже. Исследователи интерпретируют это как фундаментальное ограничение современных архитектур для генерации видео, предполагая, что простое увеличение объема данных не решит проблему.

Ключевое ограничение: неспособность моделей следовать инструкциям

Качественный анализ, проведенный путем прямого сравнения VBVR-Wan2.2 и Sora 2, выявил ключевую проблему: если модель произвольно перестраивает сцену в процессе генерации, меняя фоны, расположение элементов или идентичность объектов, то промежуточные состояния становятся ненадежными, и любое построенное на них рассуждение разрушается.

Например, в задаче на удаление объекта Sora 2 производит лишние перестановки после удаления целевого элемента, тогда как VBVR-Wan2.2 выполняет только запрошенное действие. В задаче на вращение Sora 2 не может отличить целевую область от объекта, который нужно повернуть. VBVR-Wan2.2, в свою очередь, демонстрирует даже внезапно появившиеся способности, выходящие за рамки ее обучения, такие как последовательные стратегии завершения для задач симметрии. Тем не менее, и у нее наблюдаются мерцания и дублирование в более длинных последовательностях.

Неравномерное развитие когнитивных навыков моделей

Корреляционный анализ всех моделей выявил несколько любопытных закономерностей. Модели, успешно справляющиеся с задачами на знание, также демонстрируют хорошие результаты в пространственных задачах. Это соответствует нейробиологическим исследованиям гиппокампа, подтверждающим его двойную роль в навигации и концептуальном обучении.

Обратная сторона медали менее интуитивна: высокая производительность в задачах на знание фактически коррелирует со слабостью в восприятии. Абстракция не имеет положительной корреляции ни с одной другой способностью, но модели, которые хорошо справляются с абстрактными задачами, обычно оказываются слабее в задачах трансформации и пространственного мышления.

Полный датасет, инструментарий бенчмарка и модели доступны для широкой публики по адресу video-reason.com. Исследователи подчеркивают, что для преодоления выявленного потолка производительности потребуются архитектурные усовершенствования, такие как механизмы отслеживания состояния и самокоррекции.

Еще в сентябре 2025 года исследование с участием Google Deepmind показало, что видеомодель Veo 3 от Google обладает удивительно универсальными способностями к "нулевому выстрелу" (zero-shot learning): она может решать лабиринты, обнаруживать симметрии и симулировать физические взаимодействия без какого-либо специфического обучения. Исследователи тогда расценили это как ранний признак того, что видеомодели могут стать универсальной основой для машинного зрения, подобно тому, как большие языковые модели уже служат основой для обработки текста. Некоторые эксперты, включая генерального директора Deepmind Демиса Хассабиса, полагают, что видеомодели в конечном итоге могут лечь в основу так называемых "моделей мира".

#ИИ #видеогенерация #видео рассуждения #датасет VBVR #Sora 2 #Veo 3.1 #когнитивные задачи

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...