Компания xAI, основанная Илоном Маском, представила новое решение в области синтеза речи — Text-to-Speech API. Этот инструмент позволяет преобразовывать обычный текст в живую, выразительную речь.
Изначально доступны пять уникальных голосов: Eve, Ara, Rex, Sal и Leo. Одной из ключевых особенностей этого API является возможность управления эмоциями и интонацией прямо в тексте. Например, можно написать: «Так я зашёл и [пауза] вот оно. [смех] Я просто не поверил своим глазам!». Также поддерживается использование специальных тегов, таких как для шёпота и для замедления речи.
Синтезируемые элементы, такие как паузы, смех, вздохи, дыхание, изменения громкости, высоты тона и скорости, работают без дополнительных настроек. По первым отзывам пользователей, эти функции реализованы качественно.
API поддерживает протокол WebSocket для потоковой передачи речи в реальном времени. Кроме того, он совместим с различными аудиоформатами, включая MP3 и mu-law.