Xiaomi представила MiMo-V2-TTS — модель синтеза речи с контролем диалектов и эмоций
Модель основана на аудиотокенизаторе и multi-codebook архитектуре, обучена на сотнях миллионов часов данных. Поддерживает тональные переходы в предложении, синтез песен и региональные диалекты вроде сычуаньского и кантонского.