Generative AI 16.03.2026 12:37

Tongyi Lab выпустила открытую модель Fun-CineForge для кинодубляжа

Лаборатория Tongyi, подразделение Alibaba, представила мультимодальную модель Fun-CineForge, ориентированную на профессиональный кинодубляж. Разработка переводит возможности генеративного ИИ из области простых голосовых помощников в сферу сложного постпродакшна анимации и игрового кино. Релиз включает как саму модель, так и методику формирования обучающей выборки, что закрывает распространенные проблемы автоматизированной озвучки: рассинхронизацию губ (лип-синк), безликую эмоциональную окраску и сложности с удержанием тембра персонажа в диалогах.

Технологические особенности и «временная модальность»

Ключевым архитектурным решением в Fun-CineForge стало внедрение «временной модальности». Если стандартные модели опираются преимущественно на текстовый контекст или визуальные признаки, то здесь акцент смещен на прецизионный контроль меток времени. Проще говоря, система жестко привязывает синтезированную речь к заданным временным интервалам. На практике это позволяет сохранять высокую точность аудиовизуальной синхронизации даже в динамичных сценах: когда лицо персонажа перекрыто объектами, камера резко меняет ракурс или картинка размыта. Система сохраняет стабильность интонаций и качественное соответствие видеопотоку независимо от сложности монтажа.

Автоматизация разметки данных

Одновременно с моделью был представлен набор данных CineDub и методология его создания, что является критически важным для обучения нейросетей такого класса. Специалисты Tongyi Lab применили технологию «цепочки рассуждений» (chain-of-thought) для автоматизации первичной обработки видеоматериалов. Это позволило отказаться от ручной разметки в пользу алгоритмической структуризации входных данных. Согласно технической документации, такой подход минимизирует количество ошибок в транскрипции до 1%, а точность разделения дикторов достигает 98,8%. Подобная чистота данных существенно повышает качество итогового инференса.

Масштабируемость и область применения

На текущем этапе развития Fun-CineForge поддерживает обработку видеоклипов длительностью до 30 секунд. Инструментарий адаптирован не только для линейных монологов, но и для сложных многоголосых сцен, включая дуэты и диалоги нескольких персонажей, что ранее было труднодостижимой планкой для ИИ-решений. Исходный код и веса модели уже доступны на основных профильных площадках, включая GitHub, HuggingFace и ModelScope, что позволяет разработчикам интегрировать технологию в существующие пайплайны производства медиаконтента.

GitHub: https://github.com/FunAudioLLM/FunCineForge

HuggingFace: https://huggingface.co/FunAudioLLM/Fun-CineForge

ModelScope: https://www.modelscope.cn/models/FunAudioLLM/Fun-CineForge/

#нейросети #ИИ #мультимодальные модели #голосовой синтез #аудиовизуальная синхронизация #кинодубляж #Fun-CineForge

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...

Предыдущий материал

CodeInside и РЕД СОФТ подтвердили совместимость Docora AI с РЕД ОС

Алексей Воронов • 16.03.2026 11:54

Следующий материал

Председатель OpenAI Брет Тейлор: эмоционально сложно передать кодинг ИИ

Алексей Воронов • 16.03.2026 12:59