Generative AI 17.03.2026 21:44

Cohere выпустила Command A Vision: 112B многомодальную модель

Cohere представила Command A Vision, 112-миллиардную многомодальную модель, которая вышла 31 июля 2025 года. Это расширение существующей модели Command A, ориентированной на текстовые задачи, и предназначено для обработки корпоративных документов.

Модель интегрирует SigLIP2 визуальный кодировщик с уже существующим 111-миллиардным текстовым модулем Command A. Это позволяет ей эффективно обрабатывать документы, диаграммы и таблицы с конкурентоспособной точностью при значительно меньших затратах на развертывание по сравнению с закрытыми API-альтернативами.

Command A Vision демонстрирует выдающиеся результаты в задачах обработки документов и OCR, опережая GPT-4.1 в семи визуальных задачах. Она показывает 95.9% точности на DocVQA, 86.9% на OCRBench и 90.9% на ChartQA. Однако, в общей визуальной логике (MMMU) модель отстает от GPT-4.1 на 9.5 пунктов (65.3% против 74.8%), что указывает на слабые стороны в области общего визуального анализа.

Модель поддерживает до 20 изображений за один запрос с высоким разрешением, достигающим 2048x1536 пикселей. Для её развертывания требуется минимум две видеокарты A100 с 80 ГБ памяти каждая.

Веса модели доступны по лицензии CC-BY-NC для некоммерческого использования через HuggingFace. Для коммерческой эксплуатации необходимо связаться с командой продаж Cohere. Модель разработана специально для задач, связанных с документами, а не для общих визуальных задач.

#нейросети #ИИ #многомодальные модели #Cohere #Command A Vision #обработка документов #OCR-бенчмарки

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...