← Все новости

ElevenLabs лидирует в рейтингах ASR и TTS на март 2026 года

• Категория: Generative AI • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 19.03.2026 11:46

Состояние индустрии голосового ИИ в марте 2026 года демонстрирует четкое разделение на два направления: технологии распознавания речи (ASR) и синтеза речи (TTS). Если качество ASR поддается количественной оценке через показатель частоты ошибок в словах (WER), то оценка TTS остается сложной задачей, где субъективность восприятия сочетается с критической важностью задержки вывода (latency).

Рейтинг систем распознавания речи (ASR)

На текущий момент наиболее авторитетным независимым бенчмарком для коммерческих ASR API является Artificial Analysis AA-WER v2.0. Он агрегирует результаты на наборах данных AgentTalk, VoxPopuli и Earnings22, охватывая более 43 моделей. Первое место удерживает Scribe v2 от ElevenLabs с показателем WER 2,3%. За ним следует Gemini 3 Pro от Google (2,9%) и новичок рынка — модель Voxtral Small от Mistral (3,0%).

Важно отметить расхождение в данных по производительности у модели Nova-3 от Deepgram. В то время как внутренние тесты разработчика показывают 5,26% WER, независимые измерения AssemblyAI на массиве из 80 000 звуковых файлов дают результат 8,1%. Разница объясняется методологией: внутренние тесты часто проводятся на «чистых» аудиозаписях, тогда как независимые бенчмарки включают зашумленные записи реальных телефонных разговоров.

Динамика рынка синтеза речи (TTS)

В сегменте TTS стандартизированные метрики практически отсутствуют, поэтому основное внимание уделяется времени до появления первого аудиофрагмента (TTFA). Лидером по скорости стал проект Cartesia с моделью Sonic 3 (40 мс), за ним следует ElevenLabs Flash v2.5 (75 мс). В этой категории модель gpt-4o-mini-tts от OpenAI занимает особое положение, так как она ориентирована не столько на скорость, сколько на следование инструкциям, что делает её более подходящей для настройки интонаций в диалоговых агентах.

Анализ ключевых игроков

Компания ElevenLabs, ранее сфокусированная на синтезе, успешно расширила стек до распознавания речи. Их Scribe v2 показывает отличные результаты по точности, однако стоимость использования остается высокой по сравнению с конкурентами. В свою очередь, Google с серией Gemini 3 предлагает наиболее сбалансированное решение для бизнеса, интегрируя мощные ASR и TTS прямо в экосистему Google Cloud, что удобно, но создает риски вендорной зависимости.

Модель Voxtral Small от Mistral выделяется своей экономической эффективностью, обеспечивая высокую точность (3,0% WER) при стоимости эксплуатации значительно ниже, чем у премиальных аналогов. В то же время на поле Open-Source лидером остается архитектура Whisper, в частности версия v3 Turbo, которая предлагает оптимальное соотношение аппаратных требований и скорости при реализации через сторонние сервисы, такие как Groq.

Методологические аспекты оценки

Существуют серьезные риски искажения результатов бенчмарков, связанные с «загрязнением» данных, когда разработчики проводят тонкую настройку моделей на материалах, схожих с тестовыми выборками. Стандартные метрики типа WER или MOS (Mean Opinion Score) не учитывают многие критические параметры для продакшена: точность диаризации (определение того, кто говорит), качество пунктуации, специфическую лексику предметных областей и поведение моделей при обработке аудио с низким уровнем сигнала, где Whisper, например, склонен к «галлюцинациям».

Прошедший год показал радикальные изменения в ландшафте: традиционные корпоративные решения уступили место API, ориентированным на разработчиков. Возможности open-source моделей сегодня стали настолько конкурентоспособными, что их самостоятельное развертывание становится экономически выгодным для высоконагруженных задач, что еще год назад считалось технически сложным и менее эффективным вариантом.

При использовании разработок, связанных с OpenAI, учитывайте, что для обеспечения стабильной работы в сложных условиях (например, в телефонной связи) рекомендуется внедрять дополнительные уровни фильтрации: детекторы тишины и оценку порога уверенности распознавания.

Автор

Алексей Воронов

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервисной архитектуры и SaaS-решений. Основная...

Проверил

Екатерина Морозова

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрении AI-технологий в веб-приложения. Основ...

Теги: #ИИ, #голосовые технологии, #TTS, #2026, #ASR, #ElevenLabs, #бенчмарки WER