← Все новости

Bytedance представила открытую модель Helios для генерации видео до минуты на 19,5 FPS

• Категория: Generative AI • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 07.03.2026 15:02

Исследователи из компании Bytedance представили модель Helios, которая способна генерировать видеоролики длительностью до минуты почти в реальном времени на одном GPU. Модель с 14 миллиардами параметров достигает скорости 19,5 кадра в секунду (FPS) при создании длинных видео. Код и веса модели доступны для общественности.

Современные модели генерации видео обычно производят клипы длительностью от 5 до 10 секунд, а их рендеринг может занимать несколько минут. Реализации для более длинных видео с использованием моделей с 1,3 миллиарда параметров сталкиваются с проблемами качества. Более крупные модели, такие как Krea-RealTime-14B, достигают скорости всего 6,7 FPS на GPU H100 и страдают от значительных артефактов дрейфа.

Helios основывается на предыдущей модели Wan-2.1-14B, которая генерирует пять секунд видео за 50 минут на GPU A100. Обучение Helios проходит в три этапа: Helios-Base (архитектура и антидрейф), Helios-Mid (компрессия токенов, 1,05 FPS) и Helios-Distilled, которая достигает максимальной скорости за счет сокращения вычислений до трех шагов.

В тестах разработчиков дистиллированная версия Helios достигает 19,53 FPS, что быстрее, чем у некоторых гораздо меньших моделей. Например, SANA Video Long с 2 миллиардами параметров, которая примерно в семь раз меньше, достигает всего 13,24 FPS.

В плане качества видео Helios набирает 6,00 балла за короткие видеоролики из 81 кадра. Авторы утверждают, что она превосходит все дистиллированные модели и сопоставима по качеству с большинством базовых моделей такого размера. Для длинных видео Helios набирает 6,94 балла, обгоняя предыдущего лидера Reward Forcing, который получил 6,88 балла. Эти результаты подтверждены исследованием с участием 200 пользователей.

Длинные генерируемые видео обычно теряют качество, цветовую консистентность и содержательную связность со временем. Предыдущие модели решали эти проблемы с помощью сложных техник, таких как self-forcing, где модель использует свой собственный вывод в качестве входных данных во время обучения для устранения разрыва между обучением и инференсом. Helios обходит стороной эти методы.

Вместо этого авторы модели выделили три типичные схемы дрейфа и предложили более простые решения. Относительное кодирование позиций помогает модели избежать неизвестных индексов положения в длинных видео, что приводит к повторяющимся движениям. Фиксация первого кадра сохраняет начальный кадр в памяти на протяжении всего процесса, обеспечивая визуальную точку отсчета для предотвращения сдвигов цвета. Целевое симулирование возмущений во время обучения делает модель более устойчивой к собственным ошибкам, которые иначе могли бы накапливаться со временем.

Helios использует унифицированную архитектуру, поддерживающую генерацию видео из текста, изображения или другого видео в рамках одного фреймворка. Модель автоматически переключается между задачами в зависимости от контекста. Если контекст пустой, модель генерирует видео из текста. При наличии только последнего кадра она действует как аниматор изображения. При наличии нескольких кадров она продолжает существующее видео. Пользователи также могут менять текстовый запрос в процессе генерации; плавный переход между старым и новым запросом помогает предотвратить резкие визуальные разрывы.

Модель была обучена в три этапа на 800,000 коротких видеоклипов, каждый длительностью менее десяти секунд. Разрешение видео ограничено 384 x 640 пикселями, и артефакты мерцания все еще проявляются при переходах между сегментами. Поскольку не существует открытых бенчмарков для реального времени генерации длинных видео, исследователи создали собственный тестовый датасет HeliosBench с 240 запросами.

Агрессивная компрессия значительно снижает вычислительные затраты. Иерархическая структура памяти разделяет историю видео на три временных масштаба: недавние кадры получают легкую компрессию, а более старые — более сильную. Это уменьшает количество токенов для обработки в восемь раз. Многопроходный процесс выборки снижает количество токенов для генерируемого видеосегмента на 2,29 раза. На ранних этапах работа происходит с низким разрешением, а позже заполняются детали. Вместе эти два метода снижают вычислительные затраты до уровня, сравнимого с генерацией одного изображения.

Специальная техника дистилляции также уменьшает количество необходимых вычислительных шагов для каждого видеосегмента с 50 до 3. В отличие от предыдущих подходов, Helios использует только реальные данные о видео как контекст и генерирует один сегмент за шаг обучения. Адверсарная тренировочная цель, подобная GAN, повышает качество за счет преодоления ограничений учителя.

Компрессия токенов позволяет модели проходить первые два этапа обучения на одном GPU. Третий этап требует одновременной работы четырех полных моделей, но благодаря различным оптимизациям памяти они помещаются в 80 ГБ GPU-памяти. Пользовательские вычислительные ядра для распространенных операций ускоряют как обучение, так и инференс на 14 процентов по сравнению со стандартной реализацией.

Модель Helios доступна в качестве открытой модели с весами на GitHub и Hugging Face, где также размещена демонстрационная версия. Примеры генерируемых видео можно найти на странице проекта. Проект предназначен исключительно для исследований и не планируется интегрировать его в продукты Bytedance.

Недавно компания также представила Seedance 2.0 — модель многомодальной генерации видео, обрабатывающую изображения, видео, аудио и текст одновременно. Хотя Seedance требует значительно больше вычислительных ресурсов и ограничивается 15-секундными клипами, она обеспечивает гораздо более высокое качество визуализации, что вызвало обеспокоенность среди представителей индустрии развлечений.

Теги: #ByteDance, #ИИ, #генерация видео, #Helios, #open-source модели, #реал-тайм ИИ, #антидрейф видео