Google представила Gemini 3.1 Flash Live — самую естественную модель голосового ИИ

Gemini 3.1 Flash Live • Все права принадлежат AInDev.ru

Google представила Gemini 3.1 Flash Live — новую итерацию своей модели, ориентированную на обработку голосовых и аудиоданных. В обновленной версии инженеры сфокусировались на снижении задержек, повышении естественности диалога и внедрении гибких настроек «уровня мышления» для разработчиков. Согласно заявлению компании, система получила улучшенные алгоритмы распознавания интонаций и эмоций, а также стала стабильнее работать в условиях фонового шума. На текущий момент именно эта модель обеспечивает функционирование «живого режима» (live mode) в приложении Gemini.

Анализ производительности и бенчмарки

Исследователи из Artificial Analysis провели тестирование модели, используя Big Bench Audio Benchmark. В режиме «High» (максимальный уровень рассуждений) Gemini 3.1 Flash Live набрала 95,9%, уступив лидерство модели Step-Audio R1.1 Realtime, показатель которой составляет 97,0%. При этом задержка отклика у решения от Google в данном режиме составляет 2,98 секунды. Если переключить систему в минимальный режим («Minimal»), точность обработки падает до 70,5%, однако время отклика существенно сокращается — до 0,96 секунды.

Проще говоря, разработчики получили возможность прямого выбора между качеством анализа аудио и скоростью генерации ответа в зависимости от сценария использования. Это критически важно для приложений реального времени, где задержка в пару секунд может быть недопустимой.

Доступность и экономика использования

Модель уже интегрирована в Gemini Live API, Google AI Studio, Gemini Live и Search Live, охватывая более 200 стран. Ценовая политика осталась идентичной предыдущей версии Gemini 2.5: ставка установлена на уровне 0,35 доллара за час входящего аудио и 1,40 доллара за час исходящего. На практике это делает модель одним из наиболее бюджетных решений на рынке специализированных аудио-ИИ.

Если сравнивать с конкурирующим Step-Audio, которое демонстрирует чуть более высокие результаты в тестах, тарификация у Google выглядит сбалансированнее для широкого спектра задач: Step-Audio показывает меньшую стоимость на входе, но требует более высоких затрат при генерации аудиопотока на выходе. Документация и инструменты для внедрения доступны через стандартные API-интерфейсы экосистемы Google.

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервисной архитектуры и SaaS-решений. Основная...

Проверил

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрении AI-технологий в веб-приложения. Основ...

Google представила Gemini 3.1 Flash Live — самую естественную модель голосового ИИ

Анализ производительности и бенчмарки

Доступность и экономика использования

Алексей Воронов

Екатерина Морозова

Похожие материалы

Мультимодальный ИИ: простое объяснение для начинающих

Claude Opus 4.6 — лидер бенчмарков ИИ для творческого письма марта 2026

Английская Википедия запретила использование генеративного ИИ для статей

OpenAI и Anthropic перед IPO: разные балансы затрудняют сравнение