← Все новости

Cohere выпустила Command A Vision: 112B многомодальную модель

Логотип компании cohere

Логотип компании cohere

• Категория: Generative AI • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 17.03.2026 21:44

Cohere представила Command A Vision, 112-миллиардную многомодальную модель, которая вышла 31 июля 2025 года. Это расширение существующей модели Command A, ориентированной на текстовые задачи, и предназначено для обработки корпоративных документов.

Модель интегрирует SigLIP2 визуальный кодировщик с уже существующим 111-миллиардным текстовым модулем Command A. Это позволяет ей эффективно обрабатывать документы, диаграммы и таблицы с конкурентоспособной точностью при значительно меньших затратах на развертывание по сравнению с закрытыми API-альтернативами.

Command A Vision демонстрирует выдающиеся результаты в задачах обработки документов и OCR, опережая GPT-4.1 в семи визуальных задачах. Она показывает 95.9% точности на DocVQA, 86.9% на OCRBench и 90.9% на ChartQA. Однако, в общей визуальной логике (MMMU) модель отстает от GPT-4.1 на 9.5 пунктов (65.3% против 74.8%), что указывает на слабые стороны в области общего визуального анализа.

Модель поддерживает до 20 изображений за один запрос с высоким разрешением, достигающим 2048x1536 пикселей. Для её развертывания требуется минимум две видеокарты A100 с 80 ГБ памяти каждая.

Веса модели доступны по лицензии CC-BY-NC для некоммерческого использования через HuggingFace. Для коммерческой эксплуатации необходимо связаться с командой продаж Cohere. Модель разработана специально для задач, связанных с документами, а не для общих визуальных задач.

Теги: #нейросети, #ИИ, #многомодальные модели, #Cohere, #Command A Vision, #обработка документов, #OCR-бенчмарки