← Все новости

IBM выпустила Granite 4.0 1B Speech — компактную модель для многоязычного ASR и перевода

• Категория: Искусственный интеллект • Автор: Алексей Воронов • Проверил: Екатерина Морозова • 16.03.2026 11:16

Компания IBM представила Granite 4.0 1B Speech, компактную речевую модель, предназначенную для многоязычного автоматического распознавания речи (ASR) и двунаправленного автоматического перевода речи (AST). Новая версия ориентирована на корпоративные и краевые развертывания, где важны такие параметры, как объём памяти, задержка и вычислительная эффективность.

Основной целью при создании Granite 4.0 1B Speech было сокращение размера модели без ухудшения её основных возможностей. Новый релиз содержит в два раза меньше параметров по сравнению с предыдущей версией granite-speech-3.3-2b, но при этом добавляет поддержку японского ASR, функцию биасирования ключевых слов и улучшенную точность транскрипции английского языка. Благодаря улучшенному обучению энкодера и предиктивному декодированию модель обеспечивает более быструю инференцию.

Обучение модели включает использование публичных корпусов данных для ASR и AST, а также синтетических данных для поддержки японского ASR, биасирования ключевых слов и перевода речи. Важно отметить, что IBM не создавала отдельный закрытый стек для речевых технологий, а адаптировала базовую модель Granite 4.0 к речевым задачам через выравнивание и многомодальное обучение.

Поддерживаемые языки включают английский, французский, немецкий, испанский, португальский и японский. Модель предназначена для задач речевого распознавания и перевода с и на английский язык, а также поддерживает перевод с английского на итальянский и китайский (мандарин). Модель распространяется под лицензией Apache 2.0, что облегчает её использование для открытых развертываний по сравнению с коммерческими системами или API-ориентированными решениями.

Семейство моделей Granite Speech использует двухпроходную архитектуру. Первая фаза включает транскрипцию аудио в текст, а любая последующая обработка на уровне языковой модели требует отдельного вызова. Это отличается от интегрированных архитектур, где речевое распознавание и генерация языка выполняются за один проход. Для разработчиков это означает, что транскрипционные pipelines на основе Granite Speech имеют модульную структуру: сначала происходит распознавание речи, а затем пост-обработка на уровне языка.

Granite 4.0 1B Speech заняла первое место в рейтинге OpenASR leaderboard с средней WER (Word Error Rate) 5.52 и RTFx (Real-Time Factor) 280.02. Специфические значения WER для различных датасетов включают: 1.42 на LibriSpeech Clean, 2.85 на LibriSpeech Other, 3.89 на SPGISpeech, 3.1 на Tedlium и 5.84 на VoxPopuli.

Для развертывания Granite 4.0 1B Speech поддерживается в transformers версии 4.52.1 и выше, а также может быть использована через vLLM для стандартной Python-инференции и API-ориентированного обслуживания. Стандартный поток работы с использованием transformers предполагает использование AutoModelForSpeechSeq2Seq и AutoProcessor, ожидание моно аудио 16 кГц и форматирование запросов путём добавления в начале пользовательского запроса. Биасирование ключевых слов можно добавить напрямую в запрос как Keywords: , .... Для ресурсно-ограниченных сред IBM предоставляет примеры настройки с max_model_len=2048 и limit_mm_per_prompt={"audio": 1}, а онлайн-сервис может быть представлен через vllm serve с API, совместимым с OpenAI.

Ключевые моменты:

- Granite 4.0 1B Speech — это компактная речевая модель для многоязычного ASR и двунаправленного AST.

- Модель вдвое меньше granite-speech-3.3-2b, но с улучшенной эффективностью развертывания.

- Добавлена поддержка японского ASR и функция биасирования ключевых слов для более целенаправленных транскрипций.

- Поддерживается через Transformers, vLLM и mlx-audio, включая Apple Silicon-среды.

- Модель предназначена для устройств с ограниченными ресурсами, где критичны задержка, объём памяти и вычислительные затраты.

Теги: #ИИ, #машинное обучение, #Edge AI, #распознавание речи, #ASR, #перевод речи, #IBM Granite