LLM / ChatGPT / Claude / Qwen 03.03.2026 10:45

Alibaba выпустила серию Qwen3.5 Small от 0.8B до 9B параметров для edge-устройств

Команда Qwen из Alibaba представила серию нейросетевых моделей Qwen3.5 Small, включающую Large Language Models (LLMs) с количеством параметров от 0.8 до 9 миллиардов. В то время как ранее индустрия стремилась к увеличению числа параметров для достижения наилучшей производительности, эта серия фокусируется на концепции "Больше умений, меньше вычислений". Эти модели предназначены для развертывания мощного ИИ на потребительских устройствах и устройствах на краю сети (edge devices) без потери качества в области логики или мультимодальности.

Серия Qwen3.5 доступна на платформах Hugging Face и ModelScope, где представлены как инструкционные, так и базовые версии моделей.

Иерархия моделей: оптимизация по масштабу

Серия Qwen3.5 Small подразделяется на четыре уровня, каждый из которых адаптирован для конкретных аппаратных ограничений и требований к задержке:

Qwen3.5-0.8B и Qwen3.5-2B: Эти модели разработаны для высокопроизводительных, низкозадержечных приложений на устройствах на краю сети. Оптимизация процесса плотного обучения токенов позволяет снизить потребление VRAM, делая их совместимыми с мобильными чипами и IoT-устройствами.

Qwen3.5-4B: Эта модель служит мультимодальным базовым решением для легких агентов. Она обеспечивает баланс между текстовыми и визуально-языковыми моделями (VLMs), позволяя выполнять задачи, требующие понимания изображений, такие как навигация по интерфейсу или анализ документов, при этом оставаясь достаточно компактной для локального развертывания.

Qwen3.5-9B: Флагманская модель серии с 9 миллиардами параметров направлена на улучшение логики и рассуждений. Она тщательно настроена для сокращения разрыва в производительности по сравнению с моделями, имеющими значительно больше параметров (30+ миллиардов) благодаря продвинутым методам обучения.

Нативная мультимодальность против адаптеров

Одним из значительных технических изменений в моделях Qwen3.5-4B и выше является переход к нативной мультимодальной способности. В предыдущих версиях малых моделей мультимодальность часто достигалась через адаптеры или мосты, связывающие предобученный визуальный энкодер (например, CLIP) с языковой моделью.

В Qwen3.5 мультимодальность интегрирована непосредственно в архитектуру модели. Это позволяет обрабатывать текстовые и визуальные токены в едином латентном пространстве с самого начала обучения, что улучшает пространственное рассуждение, повышает точность OCR (оптического распознавания символов) и обеспечивает более связные ответы на основе визуальной информации по сравнению с системами, использующими адаптеры.

Масштабируемое обучение с подкреплением: улучшение рассуждений в компактных моделях

Высокая производительность модели Qwen3.5-9B во многом обусловлена внедрением Масштабируемого обучения с подкреплением (Scaled Reinforcement Learning, Scaled RL). В отличие от стандартной тонкой настройки (Supervised Fine-Tuning, SFT), которая учит модели воспроизводить высококачественный текст, Scaled RL использует сигналы вознаграждения для оптимизации правильных логических путей.

Преимущества использования Scaled RL в модели с 9 миллиардами параметров включают:

Улучшенное выполнение инструкций: Модель более точно следует сложным, многошаговым системным командам.
Снижение галлюцинаций: Подкрепление логической последовательности во время обучения повышает надежность модели в извлечении фактов и математических рассуждений.
Эффективность инференса: 9 миллиардов параметров позволяют генерировать токены быстрее (больше токенов за секунду), чем модели с 70 миллиардами параметров, при этом сохраняя конкурентоспособные логические оценки на таких бенчмарках, как MMLU и GSM8K.

Основные характеристики Qwen3.5 Small Series

Размер модели	Основное применение	Ключевые технические особенности
0.8B / 2B	Устройства на краю сети / IoT	Низкое потребление VRAM, высокоскоростная инференция
4B	Легкие агенты	Интеграция нативной мультимодальности
9B	Рассуждения и логика	Масштабируемое обучение с подкреплением для улучшения производительности

Серия Qwen3.5 фокусируется на архитектурной эффективности и передовых методах обучения, таких как Масштабируемое обучение с подкреплением и нативная мультимодальность. Это позволяет разработчикам создавать сложные AI-приложения без необходимости в огромных облачных моделях.

Ключевые выводы:

Больше умений, меньше вычислений: Серия (0.8B до 9B параметров) приоритизирует архитектурную эффективность над чистым количеством параметров, обеспечивая высокую производительность на потребительских устройствах и устройствах на краю сети.
Интеграция нативной мультимодальности (4B модель): В отличие от моделей с подключаемыми визуальными модулями, 4B-модель имеет архитектуру, где текстовые и визуальные данные обрабатываются в едином латентном пространстве, значительно улучшая пространственное рассуждение и точность OCR.
Уровень передовой производительности через масштабируемое обучение с подкреплением: 9B-модель использует Масштабируемое обучение с подкреплением для оптимизации логических путей, эффективно сокращая разрыв в производительности по сравнению с моделями, в 5–10 раз большего размера.
Оптимизация для устройств на краю сети и IoT: Модели 0.8B и 2B разработаны для минимальной задержки и низкого потребления VRAM, что делает их идеальными для локальных приложений, мобильных устройств и сред с повышенными требованиями к конфиденциальности.

#нейросети #мультимодальность #ИИ #LLM #Alibaba #Qwen3.5 #edge devices

Авторы и эксперты

Автор

Алексей Воронов

Senior PHP Developer / AI Engineer • 10+ • AInDev.ru

Алексей Воронов — backend-разработчик и специалист в области веб-разработки на PHP и AI-интеграций. Более 10 лет занимается разработкой серверных приложений, REST API, микросервис...

Экспертная проверка

Екатерина Морозова

AI Systems Reviewer & Backend Software Engineer • 8+ • AInDev.ru

Екатерина Морозова — специалист в области интеграции систем искусственного интеллекта и backend-разработки. Имеет более 8 лет опыта в разработке программного обеспечения и внедрен...