Google анонсировала выпуск Gemini Embedding 2 — первой полноценно мультимодальной модели эмбеддингов, построенной на архитектуре Gemini. Инструмент стал доступен в рамках публичного превью через API Gemini и платформу Vertex AI. В отличие от предыдущих решений, ориентированных исключительно на текстовые данные, новая модель способна проецировать текст, изображения, видео, аудио и документы в единое векторное пространство, поддерживая семантическую связь более чем на 100 языках.
Технические возможности обработки данных
Переход к мультимодальности позволяет упростить архитектуру конвейеров обработки данных и повысить эффективность таких задач, как Retrieval-Augmented Generation (RAG), семантический поиск, анализ тональности и кластеризация данных. Модель способна обрабатывать несколько типов данных одновременно (interleaved input), что дает возможность анализировать взаимосвязи, например, между изображением и сопроводительным текстом внутри одного запроса без промежуточной транскрипции.
Если говорить о конкретных характеристиках, Gemini Embedding 2 поддерживает:
— Текстовый ввод с контекстом до 8192 токенов.
— Пакетную обработку до 6 изображений в форматах PNG и JPEG.
— Видеопотоки длительностью до 120 секунд (контейнеры MP4 и MOV).
— Прямую работу с аудио, преобразующую звук в эмбеддинги без предварительного перевода в текст.
— Анализ PDF-документов объемом до 6 страниц.
Оптимизация и масштабируемость
Разработчикам доступна технология Matryoshka Representation Learning (MRL), позволяющая динамически масштабировать размерность векторов. Базовое значение составляет 3072 размерности, однако доступно уменьшение до 1536 или 768. На практике это значит, что система позволяет гибко балансировать между точностью поиска и затратами на хранение векторных индексов, не теряя при этом качества семантического представления.
В ходе сравнительных тестов модель продемонстрировала высокие показатели в текстовых, визуальных и видео-задачах, потеснив текущие отраслевые стандарты. Интеграция Gemini Embedding 2 в RAG-системы позволяет более точно извлекать контекст из разнородных источников, что повышает релевантность ответов в сложных сценариях поиска и анализа больших массивов данных.