Tongyi Lab выпустила открытую модель Fun-CineForge для кинодубляжа
Модель вводит 'временную модальность' для точной синхронизации речи с видео в сложных сценах. Включает датасет CineDub с автоматизированной разметкой, снижающей ошибки до...
Тег
Материалы, в которых упоминается мультимодальные модели.
Модель вводит 'временную модальность' для точной синхронизации речи с видео в сложных сценах. Включает датасет CineDub с автоматизированной разметкой, снижающей ошибки до...
С 900 млн параметров модель на базе GLM обрабатывает сложные структуры — таблицы, списки, изображения, сохраняя контекст. Поддерживает несколько языков и извлек...
Недавние посты команды подогревают спекуляции о преемнике GPT-4o. Упоминается проект BiDi для двунаправленной аудиообработки, которая позволит ИИ реагировать на...
Исследователи Meta FAIR и NYU обучили мультимодальную модель с нуля на текстах и видео, опровергая ключевые предположения. Единый энкодер справляется с генераци...
Модель с 15 млрд параметров сочетает визуальную и текстовую обработку, обеспечивая высокую эффективность на разных устройствах. Подходит для интеллектуальных tu...
Новая нейросеть на базе Mixture-of-Experts имеет 1 трлн параметров в сумме и 68,8 млрд активных. Она сокращает параметры на 33,3% и повышает эффективность предо...