← Все новости

Hume AI открыла исходный код TADA — модели речи в 5 раз быстрее аналогов без галлюцинаций

Генерация аудио

Генерация аудио • Все права принадлежат AInDev.ru

• Категория: LLM / ChatGPT / Claude / Qwen • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 14.03.2026 14:35

Компания Hume AI представила TADA — новую систему генерации речи с открытым исходным кодом, которая демонстрирует нетипичный для отрасли подход к синхронизации текста и звука. В отличие от существующих архитектур, создающих избыточное количество аудиофреймов на один текстовый токен, TADA работает по принципу строгого соответствия: один аудиосигнал на одну единицу текста. Такая архитектура позволила сократить вычислительные затраты и устранить распространенные проблемы подобных нейросетей.

Технические особенности и производительность

На практике применение метода однозначного соответствия токенов привело к существенному росту эффективности. Разработчики заявляют, что TADA превосходит аналогичные решения по скорости более чем в пять раз. В ходе тестирования на выборке из 1 000 образцов система не допустила ни одной галлюцинации при транскрибировании: в сгенерированной речи отсутствовали пропуски или добавления слов, не предусмотренных исходным текстом. Согласно результатам слепого тестирования, пользователи оценили естественность звучания модели на 3,78 балла из 5.

Линейка TADA включает две версии, базирующиеся на архитектуре Llama — с 1 миллиардом и 3 миллиардами параметров. Компактность моделей позволяет запускать их локально на смартфонах, что открывает возможности для создания быстрых голосовых интерфейсов без обращения к облачным серверам. Младшая модель оптимизирована для работы с английским языком, тогда как старшая версия (3B) поддерживает еще семь дополнительных языков. Если коротко, разработчикам удалось создать легковесную систему, сохранив высокую точность воспроизведения.

Несмотря на высокую скорость, у системы есть характерная техническая особенность: при обработке очень длинных фрагментов текста может наблюдаться небольшое «дрейфование» голоса. Весь инструментарий, включая программный код и обученные веса моделей, опубликован на GitHub и Hugging Face под лицензией MIT. Подробное описание архитектурных решений и методологии тестирования доступно в техническом отчете проекта.

http://github.com/HumeAI/tada

Теги: #open source, #ИИ, #синтез речи, #Hume AI, #TADA, #TTS без галлюцинаций, #Llama модель