Google представила Gemini 3.1 Flash Live — новую итерацию своей модели, ориентированную на обработку голосовых и аудиоданных. В обновленной версии инженеры сфокусировались на снижении задержек, повышении естественности диалога и внедрении гибких настроек «уровня мышления» для разработчиков. Согласно заявлению компании, система получила улучшенные алгоритмы распознавания интонаций и эмоций, а также стала стабильнее работать в условиях фонового шума. На текущий момент именно эта модель обеспечивает функционирование «живого режима» (live mode) в приложении Gemini.
Анализ производительности и бенчмарки
Исследователи из Artificial Analysis провели тестирование модели, используя Big Bench Audio Benchmark. В режиме «High» (максимальный уровень рассуждений) Gemini 3.1 Flash Live набрала 95,9%, уступив лидерство модели Step-Audio R1.1 Realtime, показатель которой составляет 97,0%. При этом задержка отклика у решения от Google в данном режиме составляет 2,98 секунды. Если переключить систему в минимальный режим («Minimal»), точность обработки падает до 70,5%, однако время отклика существенно сокращается — до 0,96 секунды.
Проще говоря, разработчики получили возможность прямого выбора между качеством анализа аудио и скоростью генерации ответа в зависимости от сценария использования. Это критически важно для приложений реального времени, где задержка в пару секунд может быть недопустимой.
Доступность и экономика использования
Модель уже интегрирована в Gemini Live API, Google AI Studio, Gemini Live и Search Live, охватывая более 200 стран. Ценовая политика осталась идентичной предыдущей версии Gemini 2.5: ставка установлена на уровне 0,35 доллара за час входящего аудио и 1,40 доллара за час исходящего. На практике это делает модель одним из наиболее бюджетных решений на рынке специализированных аудио-ИИ.
Если сравнивать с конкурирующим Step-Audio, которое демонстрирует чуть более высокие результаты в тестах, тарификация у Google выглядит сбалансированнее для широкого спектра задач: Step-Audio показывает меньшую стоимость на входе, но требует более высоких затрат при генерации аудиопотока на выходе. Документация и инструменты для внедрения доступны через стандартные API-интерфейсы экосистемы Google.