← Все новости

Tencent открыла исходный код 7B-аудиомодели Covo-Audio

Covo-Audio

Covo-Audio • Все права принадлежат AInDev.ru

• Категория: Generative AI • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 26.03.2026 17:04

Компания Tencent представила Covo-Audio — новую 7-миллиардную аудио-языковую модель (LALM), способную напрямую работать с голосом без классического пайплайна ASR → LLM → TTS.

Главная идея — объединить обработку речи и языковое понимание в одной модели. Covo-Audio принимает непрерывный аудиосигнал и сразу генерирует голосовой ответ, устраняя промежуточные этапы и связанные с ними потери качества.


Конец пайплайна ASR → LLM → TTS

Традиционные голосовые системы работают по цепочке:

аудио → распознавание (ASR) → текст → LLM → текст → синтез (TTS) → аудио

Такой подход создаёт ряд проблем:

  • накопление ошибок на каждом этапе

  • потеря интонации и эмоций

  • высокая задержка

Covo-Audio предлагает end-to-end архитектуру:

  • audio in → audio out

  • единая модель для понимания и генерации речи

  • минимизация latency и ошибок

Фактически это переход к новому классу моделей — Large Audio Language Models.


Архитектура: четыре ключевых компонента

Система построена как связка нескольких модулей, объединённых в единый pipeline:

Audio Encoder

В качестве энкодера используется Whisper-large-v3:

  • устойчивость к шуму и акцентам

  • обработка аудио с частотой ~50 Гц


Audio Adapter

Специальный адаптер снижает частоту данных:

  • downsampling с 50 Гц до ~6.25 Гц

  • комбинация линейных и сверточных слоёв

  • уменьшение вычислительной нагрузки


LLM-ядро

В основе лежит Qwen2.5-7B:

  • адаптирован для работы с аудио + текстом

  • обрабатывает смешанные последовательности

  • сохраняет reasoning-способности


Speech Tokenizer и Decoder

  • токенизация на базе WavLM-large (кодбук ~16k)

  • генерация аудио через Flow Matching

  • финальный вывод через BigVGAN

Результат — высококачественный аудиосигнал (~24 kHz).


Tri-modal interleaving: ключевая инновация

Главное отличие Covo-Audio — иерархическое объединение трёх типов данных:

  1. непрерывные акустические признаки

  2. дискретные аудио-токены

  3. текст

Вместо выбора одного представления модель использует все сразу, объединяя их в единую последовательность.

Это даёт:

  • сохранение интонации и эмоций

  • точную семантику

  • более естественную речь

По сути, модель одновременно «слышит», «понимает» и «говорит».


Реальный диалог: full-duplex и барж-ин

Covo-Audio поддерживает полноценное голосовое взаимодействие в реальном времени:

  • full-duplex — говорит и слушает одновременно

  • barge-in — можно перебить модель, и она корректно отреагирует

  • динамическое переключение между режимами

Для этого используются специальные токены:

  • THINK — режим прослушивания

  • SHIFT — переход к ответу

  • BREAK — обработка прерывания

Это приближает поведение модели к живому разговору.


Разделение «интеллекта» и голоса

Одна из ключевых проблем voice AI — связка логики и голоса (speaker coupling).

Covo-Audio решает её через intelligence-speaker decoupling:

  • интеллект модели отделён от голосового движка

  • можно менять голос без потери качества диалога

  • требуется минимум данных для кастомизации

Это открывает путь к масштабируемому voice cloning без переобучения всей модели.


Производительность и возможности

Несмотря на размер всего 7B параметров, модель показывает конкурентные результаты:

  • диалоговые сценарии

  • speech understanding

  • audio reasoning

  • voice interaction

В тестах она сопоставима или превосходит open-source модели своего класса, хотя всё ещё уступает закрытым решениям крупных игроков.


Open-source и экосистема

Tencent открыла:

  • веса модели

  • inference pipeline

  • инструменты для запуска

Это снижает порог входа для разработчиков и позволяет:

  • строить голосовых ассистентов

  • создавать real-time voice AI

  • экспериментировать с мультимодальными интерфейсами


Почему это важно

Covo-Audio отражает сразу несколько ключевых трендов:

1. Переход к end-to-end моделям

ASR и TTS постепенно становятся частью одной архитектуры

2. Голос как основной интерфейс

AI всё больше ориентируется на разговорный UX

3. Снижение latency

важно для real-time приложений (игры, ассистенты, колл-центры)

4. Мультимодальность

объединение аудио и текста в едином reasoning-процессе


Ограничения

Несмотря на прогресс, остаются вызовы:

  • open-source модели всё ещё уступают proprietary по качеству

  • высокая вычислительная стоимость

  • необходимость оптимизации для production


Итог

Covo-Audio — это шаг к новому поколению голосовых моделей, где:

  • нет разделения на ASR, LLM и TTS

  • взаимодействие происходит в реальном времени

  • голос становится полноценным входом и выходом AI

Такие модели могут радикально изменить UX — от голосовых ассистентов до интерфейсов в вебе и мобильных приложениях.

https://github.com/Tencent/Covo-Audio

Автор

Алексей Воронов

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервисной архитектуры и SaaS-решений. Основная...

Проверил

Екатерина Морозова

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрении AI-технологий в веб-приложения. Основ...

Теги: #ИИ, #Tencent, #аудио ИИ, #Covo-Audio, #7B модель, #full-duplex, #open source AI