ElevenLabs лидирует в рейтингах ASR и TTS на март 2026 года

Состояние индустрии голосового ИИ в марте 2026 года демонстрирует четкое разделение на два направления: технологии распознавания речи (ASR) и синтеза речи (TTS). Если качество ASR поддается количественной оценке через показатель частоты ошибок в словах (WER), то оценка TTS остается сложной задачей, где субъективность восприятия сочетается с критической важностью задержки вывода (latency).

Рейтинг систем распознавания речи (ASR)

На текущий момент наиболее авторитетным независимым бенчмарком для коммерческих ASR API является Artificial Analysis AA-WER v2.0. Он агрегирует результаты на наборах данных AgentTalk, VoxPopuli и Earnings22, охватывая более 43 моделей. Первое место удерживает Scribe v2 от ElevenLabs с показателем WER 2,3%. За ним следует Gemini 3 Pro от Google (2,9%) и новичок рынка — модель Voxtral Small от Mistral (3,0%).

Важно отметить расхождение в данных по производительности у модели Nova-3 от Deepgram. В то время как внутренние тесты разработчика показывают 5,26% WER, независимые измерения AssemblyAI на массиве из 80 000 звуковых файлов дают результат 8,1%. Разница объясняется методологией: внутренние тесты часто проводятся на «чистых» аудиозаписях, тогда как независимые бенчмарки включают зашумленные записи реальных телефонных разговоров.

Динамика рынка синтеза речи (TTS)

В сегменте TTS стандартизированные метрики практически отсутствуют, поэтому основное внимание уделяется времени до появления первого аудиофрагмента (TTFA). Лидером по скорости стал проект Cartesia с моделью Sonic 3 (40 мс), за ним следует ElevenLabs Flash v2.5 (75 мс). В этой категории модель gpt-4o-mini-tts от OpenAI занимает особое положение, так как она ориентирована не столько на скорость, сколько на следование инструкциям, что делает её более подходящей для настройки интонаций в диалоговых агентах.

Анализ ключевых игроков

Компания ElevenLabs, ранее сфокусированная на синтезе, успешно расширила стек до распознавания речи. Их Scribe v2 показывает отличные результаты по точности, однако стоимость использования остается высокой по сравнению с конкурентами. В свою очередь, Google с серией Gemini 3 предлагает наиболее сбалансированное решение для бизнеса, интегрируя мощные ASR и TTS прямо в экосистему Google Cloud, что удобно, но создает риски вендорной зависимости.

Модель Voxtral Small от Mistral выделяется своей экономической эффективностью, обеспечивая высокую точность (3,0% WER) при стоимости эксплуатации значительно ниже, чем у премиальных аналогов. В то же время на поле Open-Source лидером остается архитектура Whisper, в частности версия v3 Turbo, которая предлагает оптимальное соотношение аппаратных требований и скорости при реализации через сторонние сервисы, такие как Groq.

Методологические аспекты оценки

Существуют серьезные риски искажения результатов бенчмарков, связанные с «загрязнением» данных, когда разработчики проводят тонкую настройку моделей на материалах, схожих с тестовыми выборками. Стандартные метрики типа WER или MOS (Mean Opinion Score) не учитывают многие критические параметры для продакшена: точность диаризации (определение того, кто говорит), качество пунктуации, специфическую лексику предметных областей и поведение моделей при обработке аудио с низким уровнем сигнала, где Whisper, например, склонен к «галлюцинациям».

Прошедший год показал радикальные изменения в ландшафте: традиционные корпоративные решения уступили место API, ориентированным на разработчиков. Возможности open-source моделей сегодня стали настолько конкурентоспособными, что их самостоятельное развертывание становится экономически выгодным для высоконагруженных задач, что еще год назад считалось технически сложным и менее эффективным вариантом.

При использовании разработок, связанных с OpenAI, учитывайте, что для обеспечения стабильной работы в сложных условиях (например, в телефонной связи) рекомендуется внедрять дополнительные уровни фильтрации: детекторы тишины и оценку порога уверенности распознавания.

ElevenLabs лидирует в рейтингах ASR и TTS на март 2026 года

Рейтинг систем распознавания речи (ASR)

Динамика рынка синтеза речи (TTS)

Анализ ключевых игроков

Методологические аспекты оценки

Алексей Воронов

Екатерина Морозова

ElevenLabs лидирует в рейтингах ASR и TTS на март 2026 года

Рейтинг систем распознавания речи (ASR)

Динамика рынка синтеза речи (TTS)

Анализ ключевых игроков

Методологические аспекты оценки

Алексей Воронов

Екатерина Морозова

Похожие материалы

Xiaomi представила MiMo-V2-TTS — модель синтеза речи с контролем диалектов и эмоций

Moonshot AI представила Attention Residuals: эффективность моделей выросла на 25%

Tencent выпустит Hunyuan 3.0 в апреле 2026 года

MIT разработала метод выявления переуверенных LLM