Французский стартап в области искусственного интеллекта Mistral представил свою первую модель текст-к-речи (TTS) под названием Voxtral. Эта технология поддерживает девять языков и способна клонировать голоса, используя всего три секунды аудио.
Voxtral TTS демонстрирует значительный прогресс в области синтеза речи. Модель может быстро адаптироваться под различные голосовые образцы, что делает её полезной для широкого спектра приложений, от автоматизированных систем обслуживания клиентов до создания персонализированного контента.
Поддержка девяти языков позволяет использовать Voxtral TTS в международных проектах и сервисах. Это делает её привлекательной для компаний, работающих на глобальном рынке.
Технология клонирования голосов на основе коротких аудиофрагментов открывает новые возможности для создания реалистичных синтетических голосов. На практике это значит, что даже небольшие по длительности звуковые файлы могут быть использованы для генерации качественной речи.