Tencent открыла исходный код 7B-аудиомодели Covo-Audio

Компания Tencent представила Covo-Audio — новую 7-миллиардную аудио-языковую модель (LALM), способную напрямую работать с голосом без классического пайплайна ASR → LLM → TTS.

Главная идея — объединить обработку речи и языковое понимание в одной модели. Covo-Audio принимает непрерывный аудиосигнал и сразу генерирует голосовой ответ, устраняя промежуточные этапы и связанные с ними потери качества.

Конец пайплайна ASR → LLM → TTS

Традиционные голосовые системы работают по цепочке:

аудио → распознавание (ASR) → текст → LLM → текст → синтез (TTS) → аудио

Такой подход создаёт ряд проблем:

накопление ошибок на каждом этапе
потеря интонации и эмоций
высокая задержка

Covo-Audio предлагает end-to-end архитектуру:

audio in → audio out
единая модель для понимания и генерации речи
минимизация latency и ошибок

Фактически это переход к новому классу моделей — Large Audio Language Models.

Архитектура: четыре ключевых компонента

Система построена как связка нескольких модулей, объединённых в единый pipeline:

Audio Encoder

В качестве энкодера используется Whisper-large-v3:

устойчивость к шуму и акцентам
обработка аудио с частотой ~50 Гц

Audio Adapter

Специальный адаптер снижает частоту данных:

downsampling с 50 Гц до ~6.25 Гц
комбинация линейных и сверточных слоёв
уменьшение вычислительной нагрузки

LLM-ядро

В основе лежит Qwen2.5-7B:

адаптирован для работы с аудио + текстом
обрабатывает смешанные последовательности
сохраняет reasoning-способности

Speech Tokenizer и Decoder

токенизация на базе WavLM-large (кодбук ~16k)
генерация аудио через Flow Matching
финальный вывод через BigVGAN

Результат — высококачественный аудиосигнал (~24 kHz).

Tri-modal interleaving: ключевая инновация

Главное отличие Covo-Audio — иерархическое объединение трёх типов данных:

непрерывные акустические признаки
дискретные аудио-токены
текст

Вместо выбора одного представления модель использует все сразу, объединяя их в единую последовательность.

Это даёт:

сохранение интонации и эмоций
точную семантику
более естественную речь

По сути, модель одновременно «слышит», «понимает» и «говорит».

Реальный диалог: full-duplex и барж-ин

Covo-Audio поддерживает полноценное голосовое взаимодействие в реальном времени:

full-duplex — говорит и слушает одновременно
barge-in — можно перебить модель, и она корректно отреагирует
динамическое переключение между режимами

Для этого используются специальные токены:

THINK — режим прослушивания
SHIFT — переход к ответу
BREAK — обработка прерывания

Это приближает поведение модели к живому разговору.

Разделение «интеллекта» и голоса

Одна из ключевых проблем voice AI — связка логики и голоса (speaker coupling).

Covo-Audio решает её через intelligence-speaker decoupling:

интеллект модели отделён от голосового движка
можно менять голос без потери качества диалога
требуется минимум данных для кастомизации

Это открывает путь к масштабируемому voice cloning без переобучения всей модели.

Производительность и возможности

Несмотря на размер всего 7B параметров, модель показывает конкурентные результаты:

диалоговые сценарии
speech understanding
audio reasoning
voice interaction

В тестах она сопоставима или превосходит open-source модели своего класса, хотя всё ещё уступает закрытым решениям крупных игроков.

Open-source и экосистема

Tencent открыла:

веса модели
inference pipeline
инструменты для запуска

Это снижает порог входа для разработчиков и позволяет:

строить голосовых ассистентов
создавать real-time voice AI
экспериментировать с мультимодальными интерфейсами

Почему это важно

Covo-Audio отражает сразу несколько ключевых трендов:

1. Переход к end-to-end моделям

ASR и TTS постепенно становятся частью одной архитектуры

2. Голос как основной интерфейс

AI всё больше ориентируется на разговорный UX

3. Снижение latency

важно для real-time приложений (игры, ассистенты, колл-центры)

4. Мультимодальность

объединение аудио и текста в едином reasoning-процессе

Ограничения

Несмотря на прогресс, остаются вызовы:

open-source модели всё ещё уступают proprietary по качеству
высокая вычислительная стоимость
необходимость оптимизации для production

Итог

Covo-Audio — это шаг к новому поколению голосовых моделей, где:

нет разделения на ASR, LLM и TTS
взаимодействие происходит в реальном времени
голос становится полноценным входом и выходом AI

Такие модели могут радикально изменить UX — от голосовых ассистентов до интерфейсов в вебе и мобильных приложениях.

https://github.com/Tencent/Covo-Audio

Tencent открыла исходный код 7B-аудиомодели Covo-Audio

Конец пайплайна ASR → LLM → TTS

Архитектура: четыре ключевых компонента

Audio Encoder

Audio Adapter

LLM-ядро

Speech Tokenizer и Decoder

Tri-modal interleaving: ключевая инновация

Реальный диалог: full-duplex и барж-ин

Разделение «интеллекта» и голоса

Производительность и возможности

Open-source и экосистема

Почему это важно

1. Переход к end-to-end моделям

2. Голос как основной интерфейс

3. Снижение latency

4. Мультимодальность

Ограничения

Итог

Алексей Воронов

Екатерина Морозова

Tencent открыла исходный код 7B-аудиомодели Covo-Audio

Конец пайплайна ASR → LLM → TTS

Архитектура: четыре ключевых компонента

Audio Encoder

Audio Adapter

LLM-ядро

Speech Tokenizer и Decoder

Tri-modal interleaving: ключевая инновация

Реальный диалог: full-duplex и барж-ин

Разделение «интеллекта» и голоса

Производительность и возможности

Open-source и экосистема

Почему это важно

1. Переход к end-to-end моделям

2. Голос как основной интерфейс

3. Снижение latency

4. Мультимодальность

Ограничения

Итог

Алексей Воронов

Екатерина Морозова

Похожие материалы

Мультимодальный ИИ: простое объяснение для начинающих

Claude Opus 4.6 — лидер бенчмарков ИИ для творческого письма марта 2026

Google представила Gemini 3.1 Flash Live — самую естественную модель голосового ИИ

Английская Википедия запретила использование генеративного ИИ для статей