Generative AI 10.03.2026 20:48

Google представила Gemini Embedding 2: первую мультимодальную модель встраивания

Google анонсировала выпуск Gemini Embedding 2 — первой полноценно мультимодальной модели эмбеддингов, построенной на архитектуре Gemini. Инструмент стал доступен в рамках публичного превью через API Gemini и платформу Vertex AI. В отличие от предыдущих решений, ориентированных исключительно на текстовые данные, новая модель способна проецировать текст, изображения, видео, аудио и документы в единое векторное пространство, поддерживая семантическую связь более чем на 100 языках.

Технические возможности обработки данных

Переход к мультимодальности позволяет упростить архитектуру конвейеров обработки данных и повысить эффективность таких задач, как Retrieval-Augmented Generation (RAG), семантический поиск, анализ тональности и кластеризация данных. Модель способна обрабатывать несколько типов данных одновременно (interleaved input), что дает возможность анализировать взаимосвязи, например, между изображением и сопроводительным текстом внутри одного запроса без промежуточной транскрипции.

Если говорить о конкретных характеристиках, Gemini Embedding 2 поддерживает:

— Текстовый ввод с контекстом до 8192 токенов.

— Пакетную обработку до 6 изображений в форматах PNG и JPEG.

— Видеопотоки длительностью до 120 секунд (контейнеры MP4 и MOV).

— Прямую работу с аудио, преобразующую звук в эмбеддинги без предварительного перевода в текст.

— Анализ PDF-документов объемом до 6 страниц.

Оптимизация и масштабируемость

Разработчикам доступна технология Matryoshka Representation Learning (MRL), позволяющая динамически масштабировать размерность векторов. Базовое значение составляет 3072 размерности, однако доступно уменьшение до 1536 или 768. На практике это значит, что система позволяет гибко балансировать между точностью поиска и затратами на хранение векторных индексов, не теряя при этом качества семантического представления.

В ходе сравнительных тестов модель продемонстрировала высокие показатели в текстовых, визуальных и видео-задачах, потеснив текущие отраслевые стандарты. Интеграция Gemini Embedding 2 в RAG-системы позволяет более точно извлекать контекст из разнородных источников, что повышает релевантность ответов в сложных сценариях поиска и анализа больших массивов данных.

#ИИ #Gemini #машинное обучение #Google #модели встраивания #мультимодальные embeddings #Gemini Embedding 2

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...