VisionLabs, входящая в структуру МТС Web Services, приступила к пилотному тестированию технологии мультимодального поиска на естественном языке, предназначенной для сектора ЖКХ и городской инфраструктуры. Инструментарий интегрирован в платформу компьютерного зрения Luna Line, которая позволяет конфигурировать ML-модели для узконаправленных сценариев без необходимости написания программного кода. Согласно планам компании, данное направление может обеспечить от 5% до 10% общей выручки к 2027 году.
Принцип работы мультимодального поиска
Технически решение базируется на визуально-языковых моделях (VLM), понимающих взаимосвязи между текстовыми дескрипторами и визуальным контентом. Проще говоря, система индексирует массив данных с камер наружного наблюдения или мобильных устройств, формируя для каждого изображения уникальный цифровой отпечаток (эмбеддинг). При поступлении текстового запроса нейросеть конвертирует его в аналогичный вектор и сопоставляет с базой индексов, выявляя наиболее релевантные кадры. Оптимизация алгоритмов поиска обеспечивает выдачу результатов за доли секунды.Такой подход принципиально отличается от классических систем компьютерного зрения. Традиционное ПО требует предварительной ручной разметки датасетов под жестко заданные классы объектов — например, «транспортное средство» или «человек». Мультимодальный поиск снимает это ограничение: пользователю достаточно ввести запрос на естественном языке, например, «разбитое стекло» или «неубранный мусор вблизи контейнера», чтобы система обнаружила соответствующие ситуации.
Практическое применение в городской среде
На практике это значит, что система способна детектировать события, которые не были заранее прописаны в базе правил. Модель автономно распознает широкий спектр инцидентов, включая накопление отходов, несанкционированные предметы на придомовых территориях, неисправности освещения в подъездах, повреждения элементов благоустройства, а также погодные осложнения, такие как участки дорог, затопленные водой или занесенные снегом. Сейчас московские службы проводят тестирование данных сценариев в полевых условиях.
Технологический стек и инфраструктура
Платформа Luna Line ориентирована на Enterprise-сегмент и допускает развертывание в закрытом корпоративном контуре, будь то локальная инфраструктура заказчика или частное облако. По словам генерального директора VisionLabs Дмитрия Маркова, инвестиции компании в R&D в прошлом году составили 200 млн рублей. Как утверждает разработчик, использование единой платформы для всех ML-задач позволяет сократить сроки реализации проектов на 30% и на аналогичную величину уменьшить операционные издержки на поддержку систем. При этом централизация ML-сценариев способствует более эффективному распределению вычислительных мощностей и упрощает масштабирование решений внутри разветвленных организационных сетей.