Компания Tencent представила Covo-Audio — новую 7-миллиардную аудио-языковую модель (LALM), способную напрямую работать с голосом без классического пайплайна ASR → LLM → TTS.
Главная идея — объединить обработку речи и языковое понимание в одной модели. Covo-Audio принимает непрерывный аудиосигнал и сразу генерирует голосовой ответ, устраняя промежуточные этапы и связанные с ними потери качества.
Конец пайплайна ASR → LLM → TTS
Традиционные голосовые системы работают по цепочке:
аудио → распознавание (ASR) → текст → LLM → текст → синтез (TTS) → аудиоТакой подход создаёт ряд проблем:
накопление ошибок на каждом этапе
потеря интонации и эмоций
высокая задержка
Covo-Audio предлагает end-to-end архитектуру:
audio in → audio out
единая модель для понимания и генерации речи
минимизация latency и ошибок
Фактически это переход к новому классу моделей — Large Audio Language Models.
Архитектура: четыре ключевых компонента
Система построена как связка нескольких модулей, объединённых в единый pipeline:
Audio Encoder
В качестве энкодера используется Whisper-large-v3:
устойчивость к шуму и акцентам
обработка аудио с частотой ~50 Гц
Audio Adapter
Специальный адаптер снижает частоту данных:
downsampling с 50 Гц до ~6.25 Гц
комбинация линейных и сверточных слоёв
уменьшение вычислительной нагрузки
LLM-ядро
В основе лежит Qwen2.5-7B:
адаптирован для работы с аудио + текстом
обрабатывает смешанные последовательности
сохраняет reasoning-способности
Speech Tokenizer и Decoder
токенизация на базе WavLM-large (кодбук ~16k)
генерация аудио через Flow Matching
финальный вывод через BigVGAN
Результат — высококачественный аудиосигнал (~24 kHz).
Tri-modal interleaving: ключевая инновация
Главное отличие Covo-Audio — иерархическое объединение трёх типов данных:
непрерывные акустические признаки
дискретные аудио-токены
текст
Вместо выбора одного представления модель использует все сразу, объединяя их в единую последовательность.
Это даёт:
сохранение интонации и эмоций
точную семантику
более естественную речь
По сути, модель одновременно «слышит», «понимает» и «говорит».
Реальный диалог: full-duplex и барж-ин
Covo-Audio поддерживает полноценное голосовое взаимодействие в реальном времени:
full-duplex — говорит и слушает одновременно
barge-in — можно перебить модель, и она корректно отреагирует
динамическое переключение между режимами
Для этого используются специальные токены:
THINK— режим прослушиванияSHIFT— переход к ответуBREAK— обработка прерывания
Это приближает поведение модели к живому разговору.
Разделение «интеллекта» и голоса
Одна из ключевых проблем voice AI — связка логики и голоса (speaker coupling).
Covo-Audio решает её через intelligence-speaker decoupling:
интеллект модели отделён от голосового движка
можно менять голос без потери качества диалога
требуется минимум данных для кастомизации
Это открывает путь к масштабируемому voice cloning без переобучения всей модели.
Производительность и возможности
Несмотря на размер всего 7B параметров, модель показывает конкурентные результаты:
диалоговые сценарии
speech understanding
audio reasoning
voice interaction
В тестах она сопоставима или превосходит open-source модели своего класса, хотя всё ещё уступает закрытым решениям крупных игроков.
Open-source и экосистема
Tencent открыла:
веса модели
inference pipeline
инструменты для запуска
Это снижает порог входа для разработчиков и позволяет:
строить голосовых ассистентов
создавать real-time voice AI
экспериментировать с мультимодальными интерфейсами
Почему это важно
Covo-Audio отражает сразу несколько ключевых трендов:
1. Переход к end-to-end моделям
ASR и TTS постепенно становятся частью одной архитектуры
2. Голос как основной интерфейс
AI всё больше ориентируется на разговорный UX
3. Снижение latency
важно для real-time приложений (игры, ассистенты, колл-центры)
4. Мультимодальность
объединение аудио и текста в едином reasoning-процессе
Ограничения
Несмотря на прогресс, остаются вызовы:
open-source модели всё ещё уступают proprietary по качеству
высокая вычислительная стоимость
необходимость оптимизации для production
Итог
Covo-Audio — это шаг к новому поколению голосовых моделей, где:
нет разделения на ASR, LLM и TTS
взаимодействие происходит в реальном времени
голос становится полноценным входом и выходом AI
Такие модели могут радикально изменить UX — от голосовых ассистентов до интерфейсов в вебе и мобильных приложениях.